Bütün Veri & Veri 3.0
Bilginin, verinin işlenmemiş ya
da işlenmeye hazır hali olduğunu biliyoruz. Bilgi, kendi içinde farklı alanlara
ve bölümlere de ayrılmaktadır. Biz bilgiyi işledikten sonra veri olarak
adlandırıyoruz. Saklıyoruz, raporluyoruz, ilişkilendiriyoruz (1970'lerden
beri), kullanıyoruz, manipüle ediyoruz. Bu şekilde veriyi tüketmiş ve ardından
yeniden üretmiş oluyoruz. Verinin 2nci sürümü olan 2.0'da veriyi
ilişkilendirmiştik. Bunu çok da iyi başarıyoruz ve halihazırda ilişkisel
veritabanı sistemleri adı altında kullanıyoruz. Yalnız bu alandaki gelişmeler
son yıllarda pek yol alabilmiş değil. Tasarım itibariyle baktığımızda Veri 2.0
1970'lerde ama etrafındaki özellikler ve verinin ilişkilendirilmesine yarayan
araçlar 2013'lerde. Bu sebepten dolayı günümüz verisi üzerinde (hızla üreyen,
yüksek hacimli ve çok çeşitli) yetkinliğini eskisi gibi kullanamaz duruma
geldiği alanlar olabiliyor.
Buraya kadar hızlıca verinin ne
olduğunu ve ilişkisel ortamı özetlemeye çalıştım. Makalemin amacı sizleri yeni
iki kavram ile tanıştırabilmek. Bunlar; "Bütün Veri" ve "Veri
3.0". Bildiğiniz hiçbir şeyi unutmayın, onlar aklınızda kalsın ve ben sizi
şimdi yeni dünya ile tanıştıracağım. Bu yeni dünya ile eski dünyamızı nasıl
birleştirebiliriz, neden birleştirmeliyiz ve birleştirdiğimiz zaman ne
kazanıyoruz gibi soruların yanıtlarını, yine bu iki kavramı açıklarken vermiş
olacağım.
Bütün veri ve veri 3.0 sürümüne
geçmeden önce bir diğer iki meşhur kavramı özetleyelim. Bunlarsa "Büyük
Veri" ve "Bulut Bilişim". Özellikle son 2 yıldır sırasıyla bulut
bilişim ve büyük veriyi konuştuk, hala konuşuyoruz. Büyük veri bir kavrama
verilen isimdir. Arkasında Hadoop ismini verdiğimiz ve açık kaynak kodlu (Java
ile geliştirilmiştir) bir teknoloji ve araçlar grubu yer almaktadır. Bu dünyada
bildiğimiz ilişkisel dünya bulunmamaktadır. Onun yerine NoSQL (Not-only SQL) ve
HDFS (Hadoop Distributed File System) ismini verdiğimiz veritabanı ve dosya
sistemi yer almaktadır. Bu sistemlerin ilişkisel veritabanı sistemlerinde
olduğu gibi belirli constraint'leri bulunmamaktadır. Bizden tablo ismi
istemezler, satır-kolon bazlı "structured" veri beklemezler
(beklemezler ama saklayabilirler ve kullanılabilirler), veri girişi sırasında
ilgili tablo var mı yok mu, böyle bir kullanıcı var mı, hakları nedir ve
yeterli midir vb. hiçbir engel ile mücadele etmek durumunda kalmayız.
Dolayısıyla bize esneklik katar ve maliyetlerimizi düşürür.
Bulut bilişim tarafına
baktığımızda 1950'lerde mantıksal olarak tanımlanmış bir kavramdan söz
ediyoruz. Amaç kaynakları iyi planlamak, dağıtmak ve merkezi olarak yönetmek.
Dolaylı amacı yine maliyetleri düşürebilmek ve servis olarak hizmeti
sağlamaktır. Donanımdan yukarıdaki uygulamaya kadar bütün hizmetleri servis
mantığı ile dağıtıp, takibini sağlamaktır. Bütünleşik veri merkezleri ve
sistemlerini açıklarken dolaylı olarak bulut bilişime de değinmiş olacağım.
Gelelim makalemin başlığı olan
kahramanlara;
Veri 3.0
Bilginin işlenmeye başlanması ve
verinin ortaya çıkması verinin ilk versiyonuydu. İkinci versiyonu ilişkilendirildiği
durumdu (ilişkisel veritabanı sistemleri). Üçüncü nesil veriye ilişkisel ve
ilişkisel olmayan verilerin korelasyonu, konsolidasyonu, üretilmesi ve
raporlanması, veri analizinin yapılması, veri madenciliği sonrası yeni yolların
keşfedilmesi ve veriden veri üretilmesi diyorum. Günümüz verisi bu bakımdan
Veri 3.0'dır. Bugün bir numaralı amacımız "predictive analytics"
kavramını yükseltmektir, yani tahmine dayalı analiz. Tahmine dayalı analizi
yükseltebilmek içinse bugüne kadar iyi yaptığımız işi, yeni öğrenmeye
başladığımız iş ile entegre etmek, konuşturmak ve iki dünyadan bir galaksi
üretmektir.
Elimizdeki veriler şekil
değiştirmeye, kabuklarından çıkmaya ve bize yeni yollar göstermeye başlamıştır.
Artık kurumlar ellerindeki verileri sadece saklamak ve 40 yılda bir raporlamak,
birilerine gösterebilmek için kullanmak yerine daha da başka verilerle entegre
edip kendilerine farklı alternatifler oluşturabilecek modeller ve algoritmalar
üzerinde durmaktadır. Bu gelişmeler ışığında ihtiyaçlar değişmiş ve yeni kavramlar
ortaya atılmıştır. Bu kavramların başında büyük veri ve bulut bilişim
gelmektedir. En klişe örnek, hem Veri 3.0 hem de büyük veri için, sosyal medya
analizi ve ilişki haritasının çıkartılmasıdır. Klasik CRM (Customer
Relationship Management) ya da CEM (Customer Experience Management)
sistemlerinin üzerine firmalar sosyal medyayı taramak, telefonun ürettiği
verileri almak ve diğer kaynaklardan gelen her bilgiyi konsolide edip, mevcut
sistemleri ile konuşturmak ve o kişi ya da kuruluş hakkında en derin veri
analitiğine ulaşmak istemektedirler. Bunu mevcut ilişkisel sistemlerimiz ile
yapmak bir noktaya kadar kolaydır ve yeterince maliyetli değildir ancak ne
zaman işin içerisine çok çeşitli, yüksek hacimli ve hızlı üreyen veri girerse o
zaman dengeleri bozmaktadır. Şu anda bu dengeler bozulmaya başlamıştır. Büyük
veri ile yükselen Veri 3.0 hayatımıza yavaş yavaş ve emin adımlarla girmeye
başlamıştır.
Bu noktada genelde gelen ilk soru
ne zaman veri 3.0 ya da neden büyük veri, mevcut ilişkisel ortam neye yetmedi
de bunu konuşuyoruz oluyor. Bunun doğru bir cevabı yok sadece doğru bir dengesi
var. O denge ne zaman büyük veri ve bu bahsettiğim kavrama yaklaşırsa ilişkisel
ortamdan biraz çıkmak gerekebilir. Şöyle düşünün, basit bir örnek, bir
meteoroloji cihazının ya da bir jetin yarım saat gibi bir sürede 30 TB'ın
üzerinde veri üretebildiğini biliyor muydunuz? Bu kadar yüksek hacimde üreyen
bir veriyi bile başka hiçbir bilgi olmadan ilişkisel veritabanına yüklemek
neredeyse imkansızdır. Bu jet gibi 10 tane jetin aynı anda havalandığını ve
verinini anlık toplayıp, yine anlık analiz etmek istediğinizde ne olacak?
Bugün bizler insanlar olarak
attığımız her adımda, düşündüğümüz her anda veri üretebilecek potansiyelleriz.
Bindiğimiz arabalar, kullandığımız enerji tesisleri, sondaj alanları, akıllı
olarak tanımladığımız her sensör, hatta kendimiz bile veri üreten varlıklarız.
Nabzımız, tansiyonumuz gibi bilgiler de veridir. Bunların içinden hangisini
gerçekten, en etkin biçimde kullanarak hayatımıza bir şeyler katabiliyoruz?
Bugün elimizdeki en kuvvetli algoritma ve çalışma prensibi istatistiktir ancak
o da bir örneklem istemiyor mu? Örneklemi nasıl oluşturabiliriz? Tabii ki
verinin çoğalması ve kaynaklarının artması ile. Burada konuştuklarımız daha iyi
algoritmalar ya da yeni istatistikler değil esasında sadece daha fazla, çeşitli
ve hızlı üremekte olan veridir, hepsi bu. Bu işin teknoloji tarafındaki
yansıması da büyük veri, bulut bilişim, bütünleşik sistemler ve yeni nesil veri
merkezleri, bütün veri kavramı ve veri 3.0'dır.
Birçok üretici (Oracle, IBM, EMC,
SAP, Teradata, HP vb.) Veri 3.0 için çalışmalarını başlatmış olup yeni
teknolojiler ve donanımlar üretmişlerdir ancak bu makalenin içinde hiçbirinin
teknik olarak neler yaptığından ya da ürettiğinden bahsetmeyeceğim. Amacım
kavramları açıklamaktır.
Bütün Veri
Veri 3.0'ın içindekileri ve
oluşturdukları ile diğer bütün veri ile ilgili kavramları birleştirdiğimiz
zamansa Bütün Veri'yi üretebilmiş oluyoruz. Bu kavramın içindekileri örnek
olarak veri madenciliği, geleneksel mimaride kurulmuş sistemler, web
teknolojileri ve orta katman uygulama sunucuları, portal'ler, donanım
teknolojileri ve yeni nesil bütünleşik sistemler, sanallaştırma çözümleri.
Kısacası veriyi değiştirebildiğimiz ve bunu yaparken kullandığımız bütün
teknoloji, hizmet ve ürünlere bütün veri diyebiliriz. Bütün verinin baş
kahramanları tabii ki büyük veri ve bulut bilişimdir.
Bütün veri kavramı içinde veri
merkezleri de etkilenmektedir. Veri merkezi dünyasında ise bugünün amacı dev
gibi merkezler değil, olması gerektiği kadar büyük alanlar içinde daha az
enerji tüketen, daha az soğutma ihtiyacı duyulan ve buna karşın daha çok veri
saklanabilen ve işlenebilen sistemlerin varlığı adreslenmektedir. Bütün bunları
sağlayabilmek içinse yine birçok üreticinin sektörde yer aldığı bütünleşik
sistemler (engineered systems) devreye girmektedir. İçlerindeki sıkıştırma
algoritmaları ve kullandıkları çok daha az enerji ile yeni nesil veri
merkezlerinin ana omurgasını oluşturmaktadır. Bu veriye ek olarak bulut bilişim
kavramının da kullanılması ise bildiğimi ve alıştığımız büyük veri merkezleri
modernleşmektedir.
Bütün veri; veri 3.0 galaksisinde
yer alan büyük veri ve ilişikisel veritabanı sistemleri dünyalarının
birleştirilmesidir. İlişkisel olmayan ortamda Hadoop, NoSQL gibi kavramlar yer
alırken ilişkisel olan dünyada iş zekası, veriambarları, OLTP sistemleri gibi
alışkın olduğumuz ve yönettiğimiz sistemler bulunmaktadır. Bütün veri, verinin
üretildiği yerden (sosyal medya, insan verisi, mevcut kurum bilgisi, sensörler,
araçlar, düşünceler vs.) en uçta raporlandığı yere kadar uzanan bir kavramdır.
Gelişim ölçeğine ve kronolojisine
bakarsak;
1) Bilgi
2) Veri
3) İlişkisel Veritabanı
Sistemleri ve Veri 2.0
4) Büyük Verinin Gelişimi
5) Büyük Veri & İlişkisel
Ortam - Veri 3.0
6) Bütün Veri ve Yeni Nesil Veri
Merkezleri
Bu aktarmaya çalıştığım
kavramların bazılarının dünyada henüz çok az entegre edilmiş örneği bulunmakta
olup teorik olarak birçok yeni ve güzel projede hayata geçirilmeyi
beklemektedir.
Makalenin bir noktasında tahmine
dayalı analizin önemini vurgulamak istemiştim. Bütün veri kavramının ortaya
çıkmasının en önemli nedenlerinden birisidir, işin bel kemiğidir
"predictive analytics". Örnek telekomünikasyondan, günümüz telko
şirketlerinin hiçbiri "sadece "müşterilerinin aradıkları kişilere,
gezdikleri yerlere (lokasyonlara) ya da kullandıkları veri paketlerine göre
işlem yapmak istemiyor. Bunu zaten yaparak, yapabileceklerinin tamamını üretmiş
ve tüketmiş durumdalar. Daha yenilikçi işler yapmak istiyorlar, yani yeni
tahminler, yeni yollar, daha önce hiç adım atılmamış yerleri görmek istiyorlar.
Bu yöntemle hem daha çok kar elde edebilirler hem de müşterilerini daha uzun
süre ellerinde tutarken, kullandıkları teknolojiler değiştiğinden dolayı
maliyetlerini de düşürmüş olurlar.
Bütün Veri kavramında işlerin
uçtan uca nasıl yürüdüğünü adım-adım açıklamam gerekirse;
1) Bilgiye ihtiyacın ortaya
çıkması.
2) Verilerin üretilmesi ya da
üretildiği yerden çekilmesi.
3) Bu verilerin öncelikle büyük
veri ortamına alınması ve keşfedilmesi.
4) Keşfedilen verilerin
ilişkilerinin analiz edilmesi için ilişkisel ortam ile entegre edilmesi ve
verilerin konsolidasyonu.
5) Konsolide edilmiş veriler
üzerine veritabanıiçi veri analitiğinin çalıştırılması ve istatistik dillerinin
kullanılması (R gibi).
6) Ortaya çıkan yeni verilerin
raporlanması (iş zekası).
Bu süreçlerin içinde büyük veri,
bulut bilişim ve bütünleşik sistemler de yer almaktadır. Hal böyle olunca hem
teorik hem de pratik alanların tamamında yazılım+donanım birlikteliği ile koşan
uygulamalar en iyi şekilde çalıştırılmaktadır.
Günümüzde birçok kurumun elindeki
veriler ciddi oranlarda artmaktadır. Bu artışı kontrol etmekte ve bir alanda
saklamaktadırlar. Dolayısıyla üretilen veri artmakta ancak buna karşın
kullanılabilen veri aynı oranda artmamaktadır. Veriler saklanmakta ve sadece
ihtiyaç halinde sorgulanmaktadır. Bütün veri kavramının bir diğer amacı da
üretilen veri ile kullanılan veri arasındaki açığın en aza indirilmesini
sağlamaktır.
2013 yılı veya 2014 yılı içinde
olmasa bile bir sonraki 5-10 yıllık stratejik dönemde anlatmaya çalıştığım
Bütün Veri ve Veri 3.0 dünyalarının bizim dünyamız ile çok daha fazla entegre
olduğunu önce hissetmeye sonra da yaşamaya başlayacağız.
Hiç yorum yok:
Yorum Gönder