15 Kasım 2013 Cuma

Bütün Veri & Veri 3.0

Bütün Veri & Veri 3.0

Bilginin, verinin işlenmemiş ya da işlenmeye hazır hali olduğunu biliyoruz. Bilgi, kendi içinde farklı alanlara ve bölümlere de ayrılmaktadır. Biz bilgiyi işledikten sonra veri olarak adlandırıyoruz. Saklıyoruz, raporluyoruz, ilişkilendiriyoruz (1970'lerden beri), kullanıyoruz, manipüle ediyoruz. Bu şekilde veriyi tüketmiş ve ardından yeniden üretmiş oluyoruz. Verinin 2nci sürümü olan 2.0'da veriyi ilişkilendirmiştik. Bunu çok da iyi başarıyoruz ve halihazırda ilişkisel veritabanı sistemleri adı altında kullanıyoruz. Yalnız bu alandaki gelişmeler son yıllarda pek yol alabilmiş değil. Tasarım itibariyle baktığımızda Veri 2.0 1970'lerde ama etrafındaki özellikler ve verinin ilişkilendirilmesine yarayan araçlar 2013'lerde. Bu sebepten dolayı günümüz verisi üzerinde (hızla üreyen, yüksek hacimli ve çok çeşitli) yetkinliğini eskisi gibi kullanamaz duruma geldiği alanlar olabiliyor.

Buraya kadar hızlıca verinin ne olduğunu ve ilişkisel ortamı özetlemeye çalıştım. Makalemin amacı sizleri yeni iki kavram ile tanıştırabilmek. Bunlar; "Bütün Veri" ve "Veri 3.0". Bildiğiniz hiçbir şeyi unutmayın, onlar aklınızda kalsın ve ben sizi şimdi yeni dünya ile tanıştıracağım. Bu yeni dünya ile eski dünyamızı nasıl birleştirebiliriz, neden birleştirmeliyiz ve birleştirdiğimiz zaman ne kazanıyoruz gibi soruların yanıtlarını, yine bu iki kavramı açıklarken vermiş olacağım.

Bütün veri ve veri 3.0 sürümüne geçmeden önce bir diğer iki meşhur kavramı özetleyelim. Bunlarsa "Büyük Veri" ve "Bulut Bilişim". Özellikle son 2 yıldır sırasıyla bulut bilişim ve büyük veriyi konuştuk, hala konuşuyoruz. Büyük veri bir kavrama verilen isimdir. Arkasında Hadoop ismini verdiğimiz ve açık kaynak kodlu (Java ile geliştirilmiştir) bir teknoloji ve araçlar grubu yer almaktadır. Bu dünyada bildiğimiz ilişkisel dünya bulunmamaktadır. Onun yerine NoSQL (Not-only SQL) ve HDFS (Hadoop Distributed File System) ismini verdiğimiz veritabanı ve dosya sistemi yer almaktadır. Bu sistemlerin ilişkisel veritabanı sistemlerinde olduğu gibi belirli constraint'leri bulunmamaktadır. Bizden tablo ismi istemezler, satır-kolon bazlı "structured" veri beklemezler (beklemezler ama saklayabilirler ve kullanılabilirler), veri girişi sırasında ilgili tablo var mı yok mu, böyle bir kullanıcı var mı, hakları nedir ve yeterli midir vb. hiçbir engel ile mücadele etmek durumunda kalmayız. Dolayısıyla bize esneklik katar ve maliyetlerimizi düşürür.
Bulut bilişim tarafına baktığımızda 1950'lerde mantıksal olarak tanımlanmış bir kavramdan söz ediyoruz. Amaç kaynakları iyi planlamak, dağıtmak ve merkezi olarak yönetmek. Dolaylı amacı yine maliyetleri düşürebilmek ve servis olarak hizmeti sağlamaktır. Donanımdan yukarıdaki uygulamaya kadar bütün hizmetleri servis mantığı ile dağıtıp, takibini sağlamaktır. Bütünleşik veri merkezleri ve sistemlerini açıklarken dolaylı olarak bulut bilişime de değinmiş olacağım.

Gelelim makalemin başlığı olan kahramanlara;

Veri 3.0

Bilginin işlenmeye başlanması ve verinin ortaya çıkması verinin ilk versiyonuydu. İkinci versiyonu ilişkilendirildiği durumdu (ilişkisel veritabanı sistemleri). Üçüncü nesil veriye ilişkisel ve ilişkisel olmayan verilerin korelasyonu, konsolidasyonu, üretilmesi ve raporlanması, veri analizinin yapılması, veri madenciliği sonrası yeni yolların keşfedilmesi ve veriden veri üretilmesi diyorum. Günümüz verisi bu bakımdan Veri 3.0'dır. Bugün bir numaralı amacımız "predictive analytics" kavramını yükseltmektir, yani tahmine dayalı analiz. Tahmine dayalı analizi yükseltebilmek içinse bugüne kadar iyi yaptığımız işi, yeni öğrenmeye başladığımız iş ile entegre etmek, konuşturmak ve iki dünyadan bir galaksi üretmektir.

Elimizdeki veriler şekil değiştirmeye, kabuklarından çıkmaya ve bize yeni yollar göstermeye başlamıştır. Artık kurumlar ellerindeki verileri sadece saklamak ve 40 yılda bir raporlamak, birilerine gösterebilmek için kullanmak yerine daha da başka verilerle entegre edip kendilerine farklı alternatifler oluşturabilecek modeller ve algoritmalar üzerinde durmaktadır. Bu gelişmeler ışığında ihtiyaçlar değişmiş ve yeni kavramlar ortaya atılmıştır. Bu kavramların başında büyük veri ve bulut bilişim gelmektedir. En klişe örnek, hem Veri 3.0 hem de büyük veri için, sosyal medya analizi ve ilişki haritasının çıkartılmasıdır. Klasik CRM (Customer Relationship Management) ya da CEM (Customer Experience Management) sistemlerinin üzerine firmalar sosyal medyayı taramak, telefonun ürettiği verileri almak ve diğer kaynaklardan gelen her bilgiyi konsolide edip, mevcut sistemleri ile konuşturmak ve o kişi ya da kuruluş hakkında en derin veri analitiğine ulaşmak istemektedirler. Bunu mevcut ilişkisel sistemlerimiz ile yapmak bir noktaya kadar kolaydır ve yeterince maliyetli değildir ancak ne zaman işin içerisine çok çeşitli, yüksek hacimli ve hızlı üreyen veri girerse o zaman dengeleri bozmaktadır. Şu anda bu dengeler bozulmaya başlamıştır. Büyük veri ile yükselen Veri 3.0 hayatımıza yavaş yavaş ve emin adımlarla girmeye başlamıştır.

Bu noktada genelde gelen ilk soru ne zaman veri 3.0 ya da neden büyük veri, mevcut ilişkisel ortam neye yetmedi de bunu konuşuyoruz oluyor. Bunun doğru bir cevabı yok sadece doğru bir dengesi var. O denge ne zaman büyük veri ve bu bahsettiğim kavrama yaklaşırsa ilişkisel ortamdan biraz çıkmak gerekebilir. Şöyle düşünün, basit bir örnek, bir meteoroloji cihazının ya da bir jetin yarım saat gibi bir sürede 30 TB'ın üzerinde veri üretebildiğini biliyor muydunuz? Bu kadar yüksek hacimde üreyen bir veriyi bile başka hiçbir bilgi olmadan ilişkisel veritabanına yüklemek neredeyse imkansızdır. Bu jet gibi 10 tane jetin aynı anda havalandığını ve verinini anlık toplayıp, yine anlık analiz etmek istediğinizde ne olacak?
Bugün bizler insanlar olarak attığımız her adımda, düşündüğümüz her anda veri üretebilecek potansiyelleriz. Bindiğimiz arabalar, kullandığımız enerji tesisleri, sondaj alanları, akıllı olarak tanımladığımız her sensör, hatta kendimiz bile veri üreten varlıklarız. Nabzımız, tansiyonumuz gibi bilgiler de veridir. Bunların içinden hangisini gerçekten, en etkin biçimde kullanarak hayatımıza bir şeyler katabiliyoruz? Bugün elimizdeki en kuvvetli algoritma ve çalışma prensibi istatistiktir ancak o da bir örneklem istemiyor mu? Örneklemi nasıl oluşturabiliriz? Tabii ki verinin çoğalması ve kaynaklarının artması ile. Burada konuştuklarımız daha iyi algoritmalar ya da yeni istatistikler değil esasında sadece daha fazla, çeşitli ve hızlı üremekte olan veridir, hepsi bu. Bu işin teknoloji tarafındaki yansıması da büyük veri, bulut bilişim, bütünleşik sistemler ve yeni nesil veri merkezleri, bütün veri kavramı ve veri 3.0'dır.

Birçok üretici (Oracle, IBM, EMC, SAP, Teradata, HP vb.) Veri 3.0 için çalışmalarını başlatmış olup yeni teknolojiler ve donanımlar üretmişlerdir ancak bu makalenin içinde hiçbirinin teknik olarak neler yaptığından ya da ürettiğinden bahsetmeyeceğim. Amacım kavramları açıklamaktır.

Bütün Veri

Veri 3.0'ın içindekileri ve oluşturdukları ile diğer bütün veri ile ilgili kavramları birleştirdiğimiz zamansa Bütün Veri'yi üretebilmiş oluyoruz. Bu kavramın içindekileri örnek olarak veri madenciliği, geleneksel mimaride kurulmuş sistemler, web teknolojileri ve orta katman uygulama sunucuları, portal'ler, donanım teknolojileri ve yeni nesil bütünleşik sistemler, sanallaştırma çözümleri. Kısacası veriyi değiştirebildiğimiz ve bunu yaparken kullandığımız bütün teknoloji, hizmet ve ürünlere bütün veri diyebiliriz. Bütün verinin baş kahramanları tabii ki büyük veri ve bulut bilişimdir.

Bütün veri kavramı içinde veri merkezleri de etkilenmektedir. Veri merkezi dünyasında ise bugünün amacı dev gibi merkezler değil, olması gerektiği kadar büyük alanlar içinde daha az enerji tüketen, daha az soğutma ihtiyacı duyulan ve buna karşın daha çok veri saklanabilen ve işlenebilen sistemlerin varlığı adreslenmektedir. Bütün bunları sağlayabilmek içinse yine birçok üreticinin sektörde yer aldığı bütünleşik sistemler (engineered systems) devreye girmektedir. İçlerindeki sıkıştırma algoritmaları ve kullandıkları çok daha az enerji ile yeni nesil veri merkezlerinin ana omurgasını oluşturmaktadır. Bu veriye ek olarak bulut bilişim kavramının da kullanılması ise bildiğimi ve alıştığımız büyük veri merkezleri modernleşmektedir.
Bütün veri; veri 3.0 galaksisinde yer alan büyük veri ve ilişikisel veritabanı sistemleri dünyalarının birleştirilmesidir. İlişkisel olmayan ortamda Hadoop, NoSQL gibi kavramlar yer alırken ilişkisel olan dünyada iş zekası, veriambarları, OLTP sistemleri gibi alışkın olduğumuz ve yönettiğimiz sistemler bulunmaktadır. Bütün veri, verinin üretildiği yerden (sosyal medya, insan verisi, mevcut kurum bilgisi, sensörler, araçlar, düşünceler vs.) en uçta raporlandığı yere kadar uzanan bir kavramdır.

Gelişim ölçeğine ve kronolojisine bakarsak;

1) Bilgi
2) Veri
3) İlişkisel Veritabanı Sistemleri ve Veri 2.0
4) Büyük Verinin Gelişimi
5) Büyük Veri & İlişkisel Ortam - Veri 3.0
6) Bütün Veri ve Yeni Nesil Veri Merkezleri

Bu aktarmaya çalıştığım kavramların bazılarının dünyada henüz çok az entegre edilmiş örneği bulunmakta olup teorik olarak birçok yeni ve güzel projede hayata geçirilmeyi beklemektedir.

Makalenin bir noktasında tahmine dayalı analizin önemini vurgulamak istemiştim. Bütün veri kavramının ortaya çıkmasının en önemli nedenlerinden birisidir, işin bel kemiğidir "predictive analytics". Örnek telekomünikasyondan, günümüz telko şirketlerinin hiçbiri "sadece "müşterilerinin aradıkları kişilere, gezdikleri yerlere (lokasyonlara) ya da kullandıkları veri paketlerine göre işlem yapmak istemiyor. Bunu zaten yaparak, yapabileceklerinin tamamını üretmiş ve tüketmiş durumdalar. Daha yenilikçi işler yapmak istiyorlar, yani yeni tahminler, yeni yollar, daha önce hiç adım atılmamış yerleri görmek istiyorlar. Bu yöntemle hem daha çok kar elde edebilirler hem de müşterilerini daha uzun süre ellerinde tutarken, kullandıkları teknolojiler değiştiğinden dolayı maliyetlerini de düşürmüş olurlar.

Bütün Veri kavramında işlerin uçtan uca nasıl yürüdüğünü adım-adım açıklamam gerekirse;

1) Bilgiye ihtiyacın ortaya çıkması.
2) Verilerin üretilmesi ya da üretildiği yerden çekilmesi.
3) Bu verilerin öncelikle büyük veri ortamına alınması ve keşfedilmesi.
4) Keşfedilen verilerin ilişkilerinin analiz edilmesi için ilişkisel ortam ile entegre edilmesi ve verilerin konsolidasyonu.
5) Konsolide edilmiş veriler üzerine veritabanıiçi veri analitiğinin çalıştırılması ve istatistik dillerinin kullanılması (R gibi).
6) Ortaya çıkan yeni verilerin raporlanması (iş zekası).

Bu süreçlerin içinde büyük veri, bulut bilişim ve bütünleşik sistemler de yer almaktadır. Hal böyle olunca hem teorik hem de pratik alanların tamamında yazılım+donanım birlikteliği ile koşan uygulamalar en iyi şekilde çalıştırılmaktadır.

Günümüzde birçok kurumun elindeki veriler ciddi oranlarda artmaktadır. Bu artışı kontrol etmekte ve bir alanda saklamaktadırlar. Dolayısıyla üretilen veri artmakta ancak buna karşın kullanılabilen veri aynı oranda artmamaktadır. Veriler saklanmakta ve sadece ihtiyaç halinde sorgulanmaktadır. Bütün veri kavramının bir diğer amacı da üretilen veri ile kullanılan veri arasındaki açığın en aza indirilmesini sağlamaktır.


2013 yılı veya 2014 yılı içinde olmasa bile bir sonraki 5-10 yıllık stratejik dönemde anlatmaya çalıştığım Bütün Veri ve Veri 3.0 dünyalarının bizim dünyamız ile çok daha fazla entegre olduğunu önce hissetmeye sonra da yaşamaya başlayacağız.
Takip et: @oganozdogan