Big Data Nedir?

Word Cloud "Big Data"

Big data (büyük veri) dendiğinde akla ilk olarak “çok fazla yer kaplayan veri” geliyor. Fakat durum tam olarak böyle değil. Bu devasa veriler geleneksel veri tabanı sistemlerinde (SQL gibi) işlenemiyor.

Peki ne oldu da bu kadar veri birikti?

Bu kadar verinin birikmesinde baş faktörler olarak teknolojinin ve internetin gelişmesi, sosyal medyanın hayatımızın her yerine dahil olması sayılabilir. Pek tabi bunların sonucunda tweet, paylaşım, beğeni ve tıklama gibi “yapılandırılmamış veri” dediğimiz veri türü ortaya çıktı. İşte bizi asıl ilgilendiren kısım tam da burası.

Tabi ki bu kadar veri tek başına bir anlam ifade etmiyor. Önemli olan büyük veri içerisindeki bilgiyi ortaya çıkartarak yaptığımız işi daha iyi anlamak ve belki de geleceği öngörmektir.

Geleneksel veri işleme yöntemleri neden kullanılamıyor?

Facebook her gün 10 TB, Twitter 7 TB, Google ise her saat TB’larca veri saklıyor. İlk olarak bu kadar veri için gereken sabit diskin donanım maliyetini düşünmek bile imkansız. İkinci bir neden ise geleneksel veri işleme yöntemleri bu kadar veriyi işleyecek performansı sunamıyorlar.

İşte burada devreye NoSQL denilen ilerideki makalelerimde anlatacağım veri işleme yöntemi devreye giriyor. NoSQL sistemler kısaca veriyi parçalara ayırarak dağıtık şekilde işliyor. Bu verilerin işlenmesinde de basit donanımların açık kaynaklı dağıtık dosya sistemleri ile birleştirilmesiyle oluşan büyük veri çözümleri rol oynuyor. Yani bu kadar çok verinin klasik yöntemlerle işlenmesi pek mümkün değil, büyük veri ancak büyük veri çözümleriyle işlenebilir.

Büyük veri çözümleri nelerdir?

İlk olarak Google klasik yöntemleri kullanmayarak, ihtiyacı olan teknolojiyi kendisi geliştirdi. Google milyarlarca veriyi Big Table denilen veri tabanında kendi dosya sistemi olan “Google File System” üzerinde tutuyor. Verileri ise “MapReduce” denilen yöntemle işliyor. Amazon da buna benzer bir teknoloji olan DynamoDB üzerinde verileri saklıyor.

Google ve Amazon gibi firmaların yaptığı çalışmalardan esinlenilerek benzer teknolojiler açık kaynaklı olarak gelitştiriliyor. Bunların en güzel örnekleri genelde Apache’nin ortaya çıkardığı Lucene, Solr, Hadoop, HBase gibi projeler. Bunların yanında Facebook, Twitter, LinkedIn gibi firmalar geliştirdikleri projeleri açık kaynaklı olarak sunarak bir adım öne çıkıyorlar.

Büyük veri ile neler yapılabilir?

Daha öncede dediğimiz gibi ihtiyacımız olan veriler büyük veri içerisinde mevcut. Önemli olan bu verileri işleyerek mantıksal bir sonuca ulaşmak.

Örneğin, bir E-posta servis sağlayıcısı tüm E-postaları analiz ederek hangilerinin spam olduğunu tespit edebilir. Bir internet sitesi kullanıcıların hareketlerine, yaptığı aramalara göre kullanıcıya özel reklamlar sunabilir.

Bu yazımda Big data nedir, big datanın işlenmesinde kullanılan çözümler nelerdir bunlara değinmeye çalıştım. İlerleyen yazılarımda NoSQL, Hadoop ve Hadoop’un bileşenleri üzerinde duracağım.

Bir Cevap Yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir