Merhaba arkadaşlar, uzun zamandır üzerinde çalıştığım BigData ve Data Analiz sektörüyle ilgili olarak yazilim.net'te bilgi paylaşımı yapmaya gayret edeceğim. 

Öncelikle BigData kavramı çok fazla yanlış anlaşıldığı veya tam olarak anlaşılmadığını gözlemliyoruz. Bir veri yığınına büyük veri demek için ne kadar büyük olması gerekiyor? Ve bu verileri nasıl sağlamak gerekyor? Bu yığın bir BigData'dır diyebilmemizin tam olarak ölçütü nedir? 

İşte bu sorulara cevaplar arayacağız. Ancak bundan sonra artık BigData kod adıyla söz edeceğiz. 

Genellikle sektörde BigData diye kabul edilmesi için öncelikle kabladığı dijital alan ön plana çıkıyor ki  gigabayt, terabayt, petabayt, eksabayt veya bundan daha büyük boyuttaki veriler BigData olarak kabul ediliyor. 

Tamda bu noktada bir yanlış anlaşılma ortaya çıkıyor;

Çünkü aslında kullanıldığı alanlara göre çok az miktarda bir veri bile BigData diye adlandırlabilinir. Yani aslında BigData gerçekten büyük olan bir veri değil kıymetli olan veri anlamına gelmektedir. Hemen bir örneklendirme ile daha da pekiştirelim isterseniz; 

Örneğin hepimiz WhatsApp kullanıyoruzdur. 100 GB boyutundaki bir belgeyi WhatsApp üzerinden birisine göndermek istediğimizde bunu kabul etmeyecektir. WhatsApp için bu büyük veri olabilir. Ancak bir harici HDD ile dilediğimiz yere gönderebiliriz. Veya bir download/upload sistemi ile dilediğimiz kişiye gönderebiliriz ( WeTransfer vs. ) 

Yani bir verinin büyük veri olup olmadığını HDD üzerinde kapladığı alandan ziyade kullanıldığı, analiz edileceği, çıkarımlarda bulunulacağı alan belirlemektedir. 


Birde sektörel bir yaklaşım yapalım; 

Bir şirket müşterilerine daha iyi hizmet verebilmek için müşteri/ürün davranışları ve geri dönüşleri üzerinde veri analizi etmek istiyor. Müşteri sayısı 3 veya 5 bin diyelim. Davranış kayıtları sayısıda ortalaması olan 40 bin civarında bir kayıt veya logdan bahsediyor olalım. Bu şirket için bu kadar veri özelinde yapılacak olan sınıflandırma, analiz, çıkarım gibi işlemlerin tümünün yapıldığında bu şirket için bu veri BigData'dır. 

Kısaca BigData aslında veri işleme, anlamlandırma, sınıflandırma gibi işlemlerin tümüne verilen genel bir kavramdır.

Hatta bir yerde karşılaştığım şu  açıklama daha doğrudur;

Big data; verinin analiz edilip sınıflandırılmış, anlamlı ve işlenebilir hale dönüştürülmüş halidir.

 

Peki neden BigData denilmiştir diye soracak olursak çünkü yukarıda verdiğimiz örnekler haricinde birçok yerde ciddi anlamda gerçekten büyük sayılarda verilerin bulunmasından ve bunların işlenmesinden dolayıdır diyebiliriz. 

BigData temel anlamda 3 şekilde sınıflandırılır. 

  • Structured Data = Yapılandırılmış
  • Semi-Structured Data = Yarı Yapılandırılmış
  • Unstructured Data = Yapılandırılmamış

 

Yapılandırılmış Veri, kendisiyle ilişkilendirilmiş uygun bir yapıya sahip verileri ifade eder. Örneğin, veritabanlarında, CSV dosyalarında ve excel elektronik tablolarında bulunan veriler Yapılandırılmış Veriler olarak adlandırılabilir.

Yarı Yapılandırılmış Veri, kendisiyle ilişkilendirilmiş uygun bir yapıya sahip olmayan verileri ifade eder. Örneğin, e-postalarda, günlük dosyalarında ve kelime belgelerinde bulunan veriler Yarı Yapılandırılmış Veriler olarak adlandırılabilir.

Yapısal Olmayan Veriler, kendisiyle hiçbir şekilde ilişkilendirilmiş herhangi bir yapıya sahip olmayan verileri ifade eder. Örneğin, görüntü dosyaları, ses dosyaları ve video dosyaları, Yapılandırılmamış Veriler olarak adlandırılabilir.

BigData'nın Özellikleri Nelerdir? 

Bir verinin BigData sınıfına girmesi için bazı özelliklere sahip olması gerekmektedir. 

  • Volume
  • Velocity 
  • Variety
  • Verification
  • Value 

Volume, oluşturulan veri miktarını ifade eder.
Velocity, verilerin üretildiği hızı ifade eder.
Variety, üretilen farklı veri türlerini ifade eder.
Verification, veriyi doğrulamayı ifade eder. 
Value, verinin değerini ifae ediyor. 

Sonuç

Big data; verinin analiz edilip sınıflandırılmış, anlamlı ve işlenebilir hale dönüştürülmüş halidir. Bir veri yığının sınıflandırılması 3 farklı şekildedir. ve bir veri yığının BigData olması için 5V kuralına göre belirli bir özellikleri taşıması gerekmektedir. Bazı yerlerde bu özellikler bakımından ile 3 yani 3V kuralı bazı yerlerde 12V kuralı olarak geçmektedir. Ancak genellikle yukarıda verdiğimiz 5V ( Volume, Velocity, Variety, Verification, Value )  geçerlidir. 

Bitirmeden önce;
Umarım giriş düzeyinde BigData üzerinde yeterli açıklamayı yapmışımdır. Daha detaya ilerleyen yazılarda değinmeye gayret edeceğim.