15 Kasım 2013 Cuma

Bütün Veri & Veri 3.0

Bütün Veri & Veri 3.0

Bilginin, verinin işlenmemiş ya da işlenmeye hazır hali olduğunu biliyoruz. Bilgi, kendi içinde farklı alanlara ve bölümlere de ayrılmaktadır. Biz bilgiyi işledikten sonra veri olarak adlandırıyoruz. Saklıyoruz, raporluyoruz, ilişkilendiriyoruz (1970'lerden beri), kullanıyoruz, manipüle ediyoruz. Bu şekilde veriyi tüketmiş ve ardından yeniden üretmiş oluyoruz. Verinin 2nci sürümü olan 2.0'da veriyi ilişkilendirmiştik. Bunu çok da iyi başarıyoruz ve halihazırda ilişkisel veritabanı sistemleri adı altında kullanıyoruz. Yalnız bu alandaki gelişmeler son yıllarda pek yol alabilmiş değil. Tasarım itibariyle baktığımızda Veri 2.0 1970'lerde ama etrafındaki özellikler ve verinin ilişkilendirilmesine yarayan araçlar 2013'lerde. Bu sebepten dolayı günümüz verisi üzerinde (hızla üreyen, yüksek hacimli ve çok çeşitli) yetkinliğini eskisi gibi kullanamaz duruma geldiği alanlar olabiliyor.

Buraya kadar hızlıca verinin ne olduğunu ve ilişkisel ortamı özetlemeye çalıştım. Makalemin amacı sizleri yeni iki kavram ile tanıştırabilmek. Bunlar; "Bütün Veri" ve "Veri 3.0". Bildiğiniz hiçbir şeyi unutmayın, onlar aklınızda kalsın ve ben sizi şimdi yeni dünya ile tanıştıracağım. Bu yeni dünya ile eski dünyamızı nasıl birleştirebiliriz, neden birleştirmeliyiz ve birleştirdiğimiz zaman ne kazanıyoruz gibi soruların yanıtlarını, yine bu iki kavramı açıklarken vermiş olacağım.

Bütün veri ve veri 3.0 sürümüne geçmeden önce bir diğer iki meşhur kavramı özetleyelim. Bunlarsa "Büyük Veri" ve "Bulut Bilişim". Özellikle son 2 yıldır sırasıyla bulut bilişim ve büyük veriyi konuştuk, hala konuşuyoruz. Büyük veri bir kavrama verilen isimdir. Arkasında Hadoop ismini verdiğimiz ve açık kaynak kodlu (Java ile geliştirilmiştir) bir teknoloji ve araçlar grubu yer almaktadır. Bu dünyada bildiğimiz ilişkisel dünya bulunmamaktadır. Onun yerine NoSQL (Not-only SQL) ve HDFS (Hadoop Distributed File System) ismini verdiğimiz veritabanı ve dosya sistemi yer almaktadır. Bu sistemlerin ilişkisel veritabanı sistemlerinde olduğu gibi belirli constraint'leri bulunmamaktadır. Bizden tablo ismi istemezler, satır-kolon bazlı "structured" veri beklemezler (beklemezler ama saklayabilirler ve kullanılabilirler), veri girişi sırasında ilgili tablo var mı yok mu, böyle bir kullanıcı var mı, hakları nedir ve yeterli midir vb. hiçbir engel ile mücadele etmek durumunda kalmayız. Dolayısıyla bize esneklik katar ve maliyetlerimizi düşürür.
Bulut bilişim tarafına baktığımızda 1950'lerde mantıksal olarak tanımlanmış bir kavramdan söz ediyoruz. Amaç kaynakları iyi planlamak, dağıtmak ve merkezi olarak yönetmek. Dolaylı amacı yine maliyetleri düşürebilmek ve servis olarak hizmeti sağlamaktır. Donanımdan yukarıdaki uygulamaya kadar bütün hizmetleri servis mantığı ile dağıtıp, takibini sağlamaktır. Bütünleşik veri merkezleri ve sistemlerini açıklarken dolaylı olarak bulut bilişime de değinmiş olacağım.

Gelelim makalemin başlığı olan kahramanlara;

Veri 3.0

Bilginin işlenmeye başlanması ve verinin ortaya çıkması verinin ilk versiyonuydu. İkinci versiyonu ilişkilendirildiği durumdu (ilişkisel veritabanı sistemleri). Üçüncü nesil veriye ilişkisel ve ilişkisel olmayan verilerin korelasyonu, konsolidasyonu, üretilmesi ve raporlanması, veri analizinin yapılması, veri madenciliği sonrası yeni yolların keşfedilmesi ve veriden veri üretilmesi diyorum. Günümüz verisi bu bakımdan Veri 3.0'dır. Bugün bir numaralı amacımız "predictive analytics" kavramını yükseltmektir, yani tahmine dayalı analiz. Tahmine dayalı analizi yükseltebilmek içinse bugüne kadar iyi yaptığımız işi, yeni öğrenmeye başladığımız iş ile entegre etmek, konuşturmak ve iki dünyadan bir galaksi üretmektir.

Elimizdeki veriler şekil değiştirmeye, kabuklarından çıkmaya ve bize yeni yollar göstermeye başlamıştır. Artık kurumlar ellerindeki verileri sadece saklamak ve 40 yılda bir raporlamak, birilerine gösterebilmek için kullanmak yerine daha da başka verilerle entegre edip kendilerine farklı alternatifler oluşturabilecek modeller ve algoritmalar üzerinde durmaktadır. Bu gelişmeler ışığında ihtiyaçlar değişmiş ve yeni kavramlar ortaya atılmıştır. Bu kavramların başında büyük veri ve bulut bilişim gelmektedir. En klişe örnek, hem Veri 3.0 hem de büyük veri için, sosyal medya analizi ve ilişki haritasının çıkartılmasıdır. Klasik CRM (Customer Relationship Management) ya da CEM (Customer Experience Management) sistemlerinin üzerine firmalar sosyal medyayı taramak, telefonun ürettiği verileri almak ve diğer kaynaklardan gelen her bilgiyi konsolide edip, mevcut sistemleri ile konuşturmak ve o kişi ya da kuruluş hakkında en derin veri analitiğine ulaşmak istemektedirler. Bunu mevcut ilişkisel sistemlerimiz ile yapmak bir noktaya kadar kolaydır ve yeterince maliyetli değildir ancak ne zaman işin içerisine çok çeşitli, yüksek hacimli ve hızlı üreyen veri girerse o zaman dengeleri bozmaktadır. Şu anda bu dengeler bozulmaya başlamıştır. Büyük veri ile yükselen Veri 3.0 hayatımıza yavaş yavaş ve emin adımlarla girmeye başlamıştır.

Bu noktada genelde gelen ilk soru ne zaman veri 3.0 ya da neden büyük veri, mevcut ilişkisel ortam neye yetmedi de bunu konuşuyoruz oluyor. Bunun doğru bir cevabı yok sadece doğru bir dengesi var. O denge ne zaman büyük veri ve bu bahsettiğim kavrama yaklaşırsa ilişkisel ortamdan biraz çıkmak gerekebilir. Şöyle düşünün, basit bir örnek, bir meteoroloji cihazının ya da bir jetin yarım saat gibi bir sürede 30 TB'ın üzerinde veri üretebildiğini biliyor muydunuz? Bu kadar yüksek hacimde üreyen bir veriyi bile başka hiçbir bilgi olmadan ilişkisel veritabanına yüklemek neredeyse imkansızdır. Bu jet gibi 10 tane jetin aynı anda havalandığını ve verinini anlık toplayıp, yine anlık analiz etmek istediğinizde ne olacak?
Bugün bizler insanlar olarak attığımız her adımda, düşündüğümüz her anda veri üretebilecek potansiyelleriz. Bindiğimiz arabalar, kullandığımız enerji tesisleri, sondaj alanları, akıllı olarak tanımladığımız her sensör, hatta kendimiz bile veri üreten varlıklarız. Nabzımız, tansiyonumuz gibi bilgiler de veridir. Bunların içinden hangisini gerçekten, en etkin biçimde kullanarak hayatımıza bir şeyler katabiliyoruz? Bugün elimizdeki en kuvvetli algoritma ve çalışma prensibi istatistiktir ancak o da bir örneklem istemiyor mu? Örneklemi nasıl oluşturabiliriz? Tabii ki verinin çoğalması ve kaynaklarının artması ile. Burada konuştuklarımız daha iyi algoritmalar ya da yeni istatistikler değil esasında sadece daha fazla, çeşitli ve hızlı üremekte olan veridir, hepsi bu. Bu işin teknoloji tarafındaki yansıması da büyük veri, bulut bilişim, bütünleşik sistemler ve yeni nesil veri merkezleri, bütün veri kavramı ve veri 3.0'dır.

Birçok üretici (Oracle, IBM, EMC, SAP, Teradata, HP vb.) Veri 3.0 için çalışmalarını başlatmış olup yeni teknolojiler ve donanımlar üretmişlerdir ancak bu makalenin içinde hiçbirinin teknik olarak neler yaptığından ya da ürettiğinden bahsetmeyeceğim. Amacım kavramları açıklamaktır.

Bütün Veri

Veri 3.0'ın içindekileri ve oluşturdukları ile diğer bütün veri ile ilgili kavramları birleştirdiğimiz zamansa Bütün Veri'yi üretebilmiş oluyoruz. Bu kavramın içindekileri örnek olarak veri madenciliği, geleneksel mimaride kurulmuş sistemler, web teknolojileri ve orta katman uygulama sunucuları, portal'ler, donanım teknolojileri ve yeni nesil bütünleşik sistemler, sanallaştırma çözümleri. Kısacası veriyi değiştirebildiğimiz ve bunu yaparken kullandığımız bütün teknoloji, hizmet ve ürünlere bütün veri diyebiliriz. Bütün verinin baş kahramanları tabii ki büyük veri ve bulut bilişimdir.

Bütün veri kavramı içinde veri merkezleri de etkilenmektedir. Veri merkezi dünyasında ise bugünün amacı dev gibi merkezler değil, olması gerektiği kadar büyük alanlar içinde daha az enerji tüketen, daha az soğutma ihtiyacı duyulan ve buna karşın daha çok veri saklanabilen ve işlenebilen sistemlerin varlığı adreslenmektedir. Bütün bunları sağlayabilmek içinse yine birçok üreticinin sektörde yer aldığı bütünleşik sistemler (engineered systems) devreye girmektedir. İçlerindeki sıkıştırma algoritmaları ve kullandıkları çok daha az enerji ile yeni nesil veri merkezlerinin ana omurgasını oluşturmaktadır. Bu veriye ek olarak bulut bilişim kavramının da kullanılması ise bildiğimi ve alıştığımız büyük veri merkezleri modernleşmektedir.
Bütün veri; veri 3.0 galaksisinde yer alan büyük veri ve ilişikisel veritabanı sistemleri dünyalarının birleştirilmesidir. İlişkisel olmayan ortamda Hadoop, NoSQL gibi kavramlar yer alırken ilişkisel olan dünyada iş zekası, veriambarları, OLTP sistemleri gibi alışkın olduğumuz ve yönettiğimiz sistemler bulunmaktadır. Bütün veri, verinin üretildiği yerden (sosyal medya, insan verisi, mevcut kurum bilgisi, sensörler, araçlar, düşünceler vs.) en uçta raporlandığı yere kadar uzanan bir kavramdır.

Gelişim ölçeğine ve kronolojisine bakarsak;

1) Bilgi
2) Veri
3) İlişkisel Veritabanı Sistemleri ve Veri 2.0
4) Büyük Verinin Gelişimi
5) Büyük Veri & İlişkisel Ortam - Veri 3.0
6) Bütün Veri ve Yeni Nesil Veri Merkezleri

Bu aktarmaya çalıştığım kavramların bazılarının dünyada henüz çok az entegre edilmiş örneği bulunmakta olup teorik olarak birçok yeni ve güzel projede hayata geçirilmeyi beklemektedir.

Makalenin bir noktasında tahmine dayalı analizin önemini vurgulamak istemiştim. Bütün veri kavramının ortaya çıkmasının en önemli nedenlerinden birisidir, işin bel kemiğidir "predictive analytics". Örnek telekomünikasyondan, günümüz telko şirketlerinin hiçbiri "sadece "müşterilerinin aradıkları kişilere, gezdikleri yerlere (lokasyonlara) ya da kullandıkları veri paketlerine göre işlem yapmak istemiyor. Bunu zaten yaparak, yapabileceklerinin tamamını üretmiş ve tüketmiş durumdalar. Daha yenilikçi işler yapmak istiyorlar, yani yeni tahminler, yeni yollar, daha önce hiç adım atılmamış yerleri görmek istiyorlar. Bu yöntemle hem daha çok kar elde edebilirler hem de müşterilerini daha uzun süre ellerinde tutarken, kullandıkları teknolojiler değiştiğinden dolayı maliyetlerini de düşürmüş olurlar.

Bütün Veri kavramında işlerin uçtan uca nasıl yürüdüğünü adım-adım açıklamam gerekirse;

1) Bilgiye ihtiyacın ortaya çıkması.
2) Verilerin üretilmesi ya da üretildiği yerden çekilmesi.
3) Bu verilerin öncelikle büyük veri ortamına alınması ve keşfedilmesi.
4) Keşfedilen verilerin ilişkilerinin analiz edilmesi için ilişkisel ortam ile entegre edilmesi ve verilerin konsolidasyonu.
5) Konsolide edilmiş veriler üzerine veritabanıiçi veri analitiğinin çalıştırılması ve istatistik dillerinin kullanılması (R gibi).
6) Ortaya çıkan yeni verilerin raporlanması (iş zekası).

Bu süreçlerin içinde büyük veri, bulut bilişim ve bütünleşik sistemler de yer almaktadır. Hal böyle olunca hem teorik hem de pratik alanların tamamında yazılım+donanım birlikteliği ile koşan uygulamalar en iyi şekilde çalıştırılmaktadır.

Günümüzde birçok kurumun elindeki veriler ciddi oranlarda artmaktadır. Bu artışı kontrol etmekte ve bir alanda saklamaktadırlar. Dolayısıyla üretilen veri artmakta ancak buna karşın kullanılabilen veri aynı oranda artmamaktadır. Veriler saklanmakta ve sadece ihtiyaç halinde sorgulanmaktadır. Bütün veri kavramının bir diğer amacı da üretilen veri ile kullanılan veri arasındaki açığın en aza indirilmesini sağlamaktır.


2013 yılı veya 2014 yılı içinde olmasa bile bir sonraki 5-10 yıllık stratejik dönemde anlatmaya çalıştığım Bütün Veri ve Veri 3.0 dünyalarının bizim dünyamız ile çok daha fazla entegre olduğunu önce hissetmeye sonra da yaşamaya başlayacağız.

22 Eylül 2013 Pazar

Bütünleşik Sistemlerin Veri Merkezine Olan Etkileri


Bütünleşik Sistemlerin Veri Merkezine Olan Etkileri

Son yıllarda bilişim teknolojilerindeki gelişmeler uzun zamandır veri merkezlerinin tasarımlarındaki teknikleri kökünden değiştirmektedir. Yıllardır alışık olduğumuz mimari tasarımlar ve veri merkezi boyutlandırmaları karmaşık olan yapılarını terk edip daha düzenli, az enerji tüketen ve yer kaplayan, yönetilebilirliği daha basit bütünleşik sistemlere taşınmıştır. Bütünleşik sistemlerin bir organizasyona etkisi iki yönlüdür. Birincisi veri merkezindeki değişimler ikincisi ise şirket organizasyonuna olan etkisi. Burada veri merkezini nasıl dönüştürdüğünden bahsediyor olacağım.

Bir veri merkezinin tasarımı önce inşaatı ile başlar. Kimi zaman tek bir kabinetin 1 ton ağırlığından fazla olabileceğini varsayarsak oldukça sağlam bir zemin tasarlamak gereklidir. Daha sonra bu veri merkezinin içine taşınması planlanan sistemlerin (donanımların) en sağlıklı şekilde yerlerine alınması ve enerjilerinin verilmesi tasarlanır. Soğutma, veri merkezi güvenliği, ağ şeması ve etiketlemesinin hazırlanması ve donanımların doğru konumlandırılması da bir veri merkezi tasarımı için önemlidir. Bugün bir veri merkezi tasarlarken ana hedef daha az enerji tüketimi ve daha az yer kullanımıdır. Ne kadar az enerji ile ne kadar çok performans alınabilir, daha az yer kaplayan sistemlerle ne kadar çok veri saklanabilir? Bunun cevabını ve en optimum yolunu aramaktayız.

Birçok kurum veri merkezinden daha fazla soğutma unsurunu çıkartmak, sistemlerin enerji tüketimini azaltmak ve bütün bunları yaparken performanstan, güvenlikten ve yönetilebilirlikten ödün vermemek ister. İşte bu sorunu adresleyebilmek için son yıllarda “bütünleşik sistemler” olarak adlandırdığımız (engineered systems) yapılar, birçok üretici tarafından piyasaya sürülmüştür ve her geçen gün daha fazla veri merkezinde kullanılmaya başlanmıştır. Bütünleşik sistemler, bünyesinde hem donanım hem de yazılım unsurlarını barındıran, depolama, sunucu, işletim sistemi, veritabanı yönetimi yazılımı, uygulama yazılımları ve sanallaştırma gibi pek çok bilişim sistemleri bileşenlerine ev sahipliği yapabilen sistemlerdir. Bütünleşik sistemlerden önce geleneksel sistemler olarak nitelediğimiz, veri merkezinde kurumları tamamlanan, tamamen kurumlara özel, hata çıkması ihtimali yüksek ve daha fazla riskli ortam, tek seferlik yapılandırma ile kurumları tamamlanan, kurulum süresi uzun ve karmaşık sistemlerden bahsediyorduk.


Bütünleşik sistemlerde ise donanım, içindeki yazılımlarla birlikte, tamamen kablolanmış ve üzerine veri almaya açık şekilde, sadece günler içerisinde kurulabildiği gibi eski geleneksel mimariye göre çok daha az enerji tüketmekte, soğutma ihtiyacı duymakta ve yer kaplamaktadır. Bu, veri merkezlerinde çığır açan bir adımdır.
Veri merkezindeki değişime sadece donanım ya da yazılım gözüyle bakmamak gerekir. Bu kavrama ek olarak 2004’lü yıllarda konuşmaya başladığımız büyük veri (big data) ve ondan çok daha uzun yıllar önce kavramsal olarak nitelendirilmiş bulut bilişim (cloud computing) bugün veri merkezlerindeki kaynakları daha etkin kullanmamıza destek olan kavramlar ve teknolojilerdir. Bulut bilişim kavramında üç ayrı alt başlık bulunmaktadır. Açık (public), özel (private) ve melez (hybrid) bulut bilişim yapılandırmaları mevcuttur. Kurumdaki servis talebine göre hizmet edecek şekilde ayarlanırlar. Amacı mevcut kaynakların daha etkin kullanılması, servislere hızlı erişilebilmesi, kaynakların merkezi yönetilmesi ve verinin daha güvenli olmasıdır. Büyük veri kavramına baktığımızda arkasında java kodu ile geliştirilmiş ve hadoop ismini verdiğimiz bir teknoloji barınmaktadır. Bu yazılımlar kümesi çok çeşitli, yüksek hacimli, hızla üremekte olan verilerin ev sahibi olmak ve belirli araçlarla veriden, yeni yollar keşfedilmesine yarayacak yazılımlardır. Bütünleşik sistemleri, bulut bilişim altyapısını ve büyük veri teknolojilerini bir arada kullanmak (ihtiyaçlara göre) mümkündür ve doğru ve etkin kullanıldığında veri merkezindeki tasarruf miktarı yerden, soğutmaya, enerji tüketiminden verimliliğe kadar iyileşmektedir.

Bugün Türkiye’de kamu kurumlarında ve özel sektörde hizmet veren telekomünikasyon, bankacılık, perakende, savunma sanayi gibi pek çok farklı alanda bütünleşik sistemler kullanılmakta, eski ve hantal geleneksel mimariler terk edilmektedir. Bu sayede kurumlar operasyonel maliyetlerini azaltmaktadır. Kısa vadede veri merkezlerindeki dönüşüm bu yönde devam edecek, uzun vadede ise bulut bilişim ve büyük veri kavramlarıyla birlikte mevcut ilişkisel veritabanı yönetimi sistemleri tam entegre çalışacaktır. Bu entegrasyonun yegane amacı kaynakları etkin kullanmak ya da veri merkezinde dönüşüm sağlayarak maliyetleri azaltmak değil, sahip olunan ya da olunabilecek verilerden yeni yollar, fikirler keşfetmek ve operasyonel verimliliği arttırmaktır. 

28 Temmuz 2013 Pazar

Büyük Veri (Big Data) Nedir?

Büyük Veri (Big Data) Nedir?

Geçtiğimiz 1 yılda birçok seminerde, müşteri ortamında ve teknik toplantılarda büyük veri ve kavramını anlatmaya çalıştım. Büyük veri nedir, büyük veri teknolojilerine hazır mıyız, büyük veri bizim için uygun mudur gibi soruları yanıtlamaya gayret gösterdim. Bu makalede amacım son yılların belkide en çok merak edilen konusu büyük veri, yani nam-ı diğer big data'nın ne olduğunu açıklamaya çalışacağım.

Büyük veri kavramının geçmişi çok eskiye dayanmıyor. Büyük veri, 2004 yılında Google'ın kullanmaya başladığı bir teknoloji. Ardından Youtube, Facebook, Twitter gibi büyük ölçekte verisi olan firmalar da büyük veri kavramına ait teknolojileri kullanmaya başladılar. Peki 2004'den sonra ne oldu da biz bugün, bu büyük firmaların kullandıkları teknolojiyi konuşuyoruz. Cevap basit gibi gözükse de karmaşık; veri miktarları büyüdü. Veri miktarları yalnızca sosyal medyada ya da internet üzerinde büyümedi. Aynı zamanda kurumların sahip oldukları veri miktarları da hem büyüdü hem de çeşitlilik göstermeye başladı. Kamu ve özel sektör sahip oldukları verilerden gelir elde etmeye başladıkça daha farklı verilere sahip olmak istediler. İstedikçe de geleneksel olarak adlandırdığımız ilişkisel veritabanı modelleri ve sistemleri yetersizlik gösterme eğilimine girdi. Bu eğilimin ilerlemesiyle de 2013 yılında büyük veriyi daha fazla konuşmaya başladık. Geleneksel sistemlerle büyük veri arasındaki farkları yazının ilerleyen bölümlerininde açıklıyor olacağım.

Büyük veriyi tanımlamak için kullanılan 4V formülü bulunmaktadır. Çoğu sunumda ve seminerde bu formül üzerinden büyük veri kavramını açıklamaya çalışırım. 4V formülünün 4 tane bileşeni bulunmaktadır. Bunlar;

Volume (Hacim): Şu sorunun yanıtını aramaya çıktığınızı düşünelim; "ben büyük veri müşterisi miyim?" ya da "kurumumda büyük veri kullanılırsa ne olur?". Bu sorunun cevabını adresleyebilmek için 4 V formülünü incelemek gerekiyor. Volume yani hacim bu formülün ilk ve bence en önemli bileşeni. Veri hacmi, büyük veri kullanımı için önemli bir faktördür. Bu hacimler terabyte'lar mertebesinde olabilir veya petabyte'lar. Bu noktada genel bir kural yoktur. İhtiyaçlar, istekler ve yapılması beklenenler çıkartılır, ardından hacim konusu tartışılır. 4V formülündeki hiçbir bileşen tek başına büyük veri teknolojisine geçişi adreslemediği gibi hepsinin bir arada olduğu durumlarda da büyük veri kullanılması şart değildir. Bu tamamen istenenlere ve yapılabileceklere göre değerlendirilir.

Velocity (Sürat): Bir meteoroloji cihazı düşünün ki bir dakikada 1.5 terabyte ya da 1536 gigabyte veri üretebilsin. Bu ölçekte üreyen ve sistemde saklamanız gereken veriniz olsaydı ne yapardınız? Büyük verinin adreslemeye çalıştığı bir diğer V velocity'dir yani sürat. Bu verdiğim örnekte hem hacim hem de sürat yer alıyor. Ölçek örneği bu şekilde olunca haliyle büyük veri teknolojileri tavsiye edebilir. Sürat kavramı da büyük veri kullanımı için önemli bir yer etmektedir.

Variety (Çeşitlilik): Bir diğer V variety, çeşitliliktir. Verinin yüksek hacimlerle, inanılmaz bir hızla ve farklı kaynaklardan sisteme akmaya çalıştığını hayal edin. Bir kabus değil mi? Mevcut geleneksel sistemler için öyle ancak bunu zaten şimdi bile yapan firmalar olduğunu açıklamıştım. Onlar büyük verinin gücünü kullanarak bu işlerini aksamadan halledebiliyorlar.

Value (Değer): Yukarıdaki 3 V formülün tamamını oluşturuyor fakat bir V daha var ki bütün bunların çıktısı olarak duruyor. Value, yani değer, büyük veriyi kullanırken elde edilmezse olmaz bir faktördür. Hacim, sürat ve çeşitliliği bir arada barındırmak için yeni sistemler kurdunuz ve başardınız. Bir şey eksik değil mi? Eksik, o da bunlarla ne yapacağınız ya da yapabileceğiniz. İşte tam bu noktada büyük veri = hayal gücü derim hep. Verilerden yeni değerler, sonuçlar üretmek ve katkı sağlamak büyük verinin kaymağıdır. 

Büyük veriyi bu şekilde tanımladıktan sonra daha detaylara inmek ve geleneksel ortamla büyük veri arasındaki farkı açıklamaya çalışacağım. Geleneksel sistemler ya da ilişkisel veritabanı yönetim sistemleri 1970'lerden günümüze kadar gelmiş ve bundan sonra da aramızda olacak, büyük verinin yerini alamayacak ya da büyük veri ile değiştirilemeyecek sistemlerdir. Büyük veri ortamında ise bildiğimiz bir ilişkiden bahsedemeyiz çünkü ilişkisel bir ortam değildir, ilişkisel olmayan ortamdır. İlişkiselden kastımız birbirleri arasında bir ilişki olan yapılardır. Örneğin benim TC kimlik numaram ile ismim, adresim ve telefonum gibi. Büyük veri ortamlarında bir ilişki yoktur, gerekmez de. Dolayısıyla kavram olarak dahi birbirlerinin yerini alabilecek sistemler değillerdir. Şimdi en kritik soru şu olmalı; ne oldu da mevcut sistem yetmedi, büyük veri ortaya çıktı?. Bu sorunun birkaç cevabı var. İlki ve belki de en önemlisi büyük veri teknolojilerinin tamamen açık kaynak kodlu olmasıdır, yani geliştirilmesi ve dağıtımı serbesttir. Buna karşın dünyadaki en büyük şirketlerin ilişkisel veritabanları lisanslıdır ve ücretlidir. Lisanslı ve ücretli bir üründe bu kadar büyük ölçekte bir veriyi saklamak yerine ilişki aramadığımız ve hala araştırmalar yapabileceğimiz yeni bir ortamda, daha ekonomik olarak saklanmasının faydası olmaz mı? Cevap, evet, olur işte bu yüzden bulut bilişimden sonraen çok konuştuğumuz konu büyük veri.

Büyük verinin belirli veri kaynakları olabilir. Bunlar sosyal medya, internet, web günlükleri, resimler ya da fotoğraflar, görüntüler veya ses kayıtları, mevcut kurum verisi, sensör verileri (telekomünikasyon cihazları vb.) gibi veri kaynakları bulunmaktadır. Bu kaynaklar veriyi çeşitli, hacimli ve süratli yapmaktadır. Günümüzde en güncel konu sosyal medya ve sosyal harita analizleridir. Birçok kurum sosyal medyadan, internetten ve günlüklerden veri çekip, yeni haritalar çıkartıp, yeni yollar keşfetmeye çalışıyor. Mevcut durumumuzda nedenini bilemediğimiz birçok sorunun nedenini, cevabını ve hatta sonrasını tahmin etmek için büyük veri kullanılabilir. 

Büyük veri kavramını daha rahat aklınızda canlandırabilmek için çalıştığım şirketin kullandığı bir örneği aktarmak istiyorum. Balıkçı teknesi ve ağını hayal edin (aşağıdaki gibi);


Neden bir tekne ya da daha doğru soruyu sorarsanız tekne ile büyük verinin ne ilgisi var? Şöyle; tekne denize açıldığı zaman kaptan ağını sulara bırakır ve balık avlar. Buradaki mecaz şudur, teknenin kaptanı sizsiniz ve yakaladığınız balıklarının tamamı yeni topladığınız verileriniz. Denizi ise internet olarak düşünün. Veri sisteminizde yeni ve henüz içinde olduğunu bilmediğiniz birçok veriniz var.


Bu veriler arasında ne olduğunu henüz bilmiyorsunuz. Büyük veride ilişkisel ortam bulunmadığını söylemiştim. Yani burada bir ilişki aramıyoruz ve henüz önemsemiyoruz. Şimdi yapmamız gereken bu balıkları, yani veriyi keşfetmek ve ardından analiz etmek. 


Twitter'dan gelenleri, facebook'tan çektiklerinizi ya da internet günlüklerinden topladığınız makalelerinizi tasniflediniz ve artık elinizde kaç tane, hangi tip balık (veri) olduğunu biliyorsunuz. 

Bir anlığına büyük veri ortamından ayrılalım ve son durumu bu şekilde bırakalım. Şimdi tekrar ilişkisel veritabanı ortamına dönelim. İlişkisel veritabanında mevcut verileriniz yer alıyor, yani şimdiye kadar sahip olduğunuz ve üzerinde veri madenciliği yaptığınız verileriniz. Bu aşamadan sonra amacınız bu verilerle, gemide bekleyen verileri ilişkilendirebilmek ve yeni bir şeyler keşfetmek. Hayal gücünüz burada devreye giriyor. Ben bu gücünüzü geliştirmek için size bir örnek vereceğim. Teknenizde bulunan verileri fabrikalardaki ısı sensörlerinden aldığınızı düşünün. Elinizdeki verilerde ise geçmişte hangi fabrikada, hangi ortamda yangın çıktığını analiz ettiğinizi varsayın. Amacınız nedir bu durumda? Bundan sonra nasıl bir gelişme olursa ya da hangi ihtimalle, başka bir fabrikada, şu nedene bağlı yangın çıkabilir sorusunun cevabını bulabilmek. Yeni keşfettiğiniz verilerle mevcutları ilişkilendirerek yeni bir yol çıkartıp geleceği tahmin etmeye çalışabilirsiniz. İşte büyük veri ortamı ile ilişkisel veritabanı bu ve buna benzeyen örneklerle birleştirilebilir.

Büyük verinin adını 2013'ten sonra önümüzdeki 5-10 yıl içinde çok daha fazla duyacağız. Sağlıktan perakendeye, sivil havacılıktan sigortacılığa kadar birçok sektörde büyük veri teknolojiler ve veri analizleri kullanılacak. Veri analizi yeni bir çağ adı olacak. Veri gönderemeyen hiçbir cihaz kalmayacak, buna kullandığımız arabalar da dahil. Veri gönderen cihazların gönderdikleri veriler analiz edilerek hayatımızı kolaylaştıracak yeni sistemler geliştirilecek ve bu sistemler hayatımıza girerken büyük veri kavramlarıyla aydınlanacak. Bugün kahrolarak izlediğimiz birçok acı gelişmenin sonu veri analizleriyle gelecek ve dahası, ileride oluşmaması için daha keskin tahminler yapabileceğiz. Bir örnek, veri transferi yapan araçlar anlık tüketim ve kullanım biçimlerinizi biriktirerek bu şekilde kullanmaya devam ederseniz kaza yapma oranınızı güncelleyerek sigortacılık sistemine aktaracak. Böylece daha net ve keskin hesaplanmış kasko bedelleri çıkartılabilecek. Bulunduğunuz lokasyon bilgisi ile sürat bilginiz eşleştirilecek, diğer örneklerle karşılaştırılacak ve günün sonunda kaza yapma haritanız çıkarılacak. Bu ve buna benzer örneklerin hayatımızla entegre olması için çok beklememiz gerekmeyecek. En geç 5 yıl içerisinde bu tip uygulamaları son kullanıcı olarak biz, gözlemliyor olacağız. İşte bu sebeplerden dolayı bugün büyük veri ve veri analitiğini konuşuyoruz.

Bu konuyu ne zaman anlatsam Azınlık Raporu filmini izlemiş insanlar aklına "suçu işlenmeden önce bilebilmek gibi mi? sorusu geliyor. Benim cevabım ise "bunu hayal edebiliyorsanız bir gün o da olabilir" demek oluyor. Hiçbirimizin geleceği bilmek gibi bir yetkinliği yok, sadece geleceği tahmin edebiliriz. Bunu da veri çeşitliliği ve geçmişi ile analizleyerek daha keskin hale getirebiliriz. Böyle bir sistem kurulursa ve Türkiye'nin suç haritası yüklenir, yeni veri kaynakları oluşturulur ve bölgelere göre çalışmalar yapılırsa bir gün suçları olmadan önce de öngörebilmek mümkün olabilir. Mevcut teknolojik altyapı bu hayali gerçekleştirmek için yeterli. Tek gereken bunu yapabilecek bir sistem ve çalışma disiplini oluşturabilmek. 

Büyük veri, hayal gücüdür. Sizin önünüzdeki engel elinizde olan ya da olmayan verileriniz değil, bunlarla ne yapmak ve neyi bilmek istediğinizdir. Bunun cevabını bulduğunuz ve hayal gücünüzü geliştirdiğiniz zaman verinin değerini ortaya çıkartmış olacaksınız. Bilginin karşılığı işlenmiş veridir. Verinin değeri ise hayal gücüdür.

İyi çalışmalar.

Ogan

1 Temmuz 2013 Pazartesi

Hayatımızda Büyük Veri Olsaydı?

Hayatımızda Büyük Veri Olsaydı?

Attığınız her adımda veri üretebileceğinizi hiç düşündünüz mü? Peki bu üretilen verilerin ne amaçla ve nasıl kullanılabileceğini? Günümüzde dünyanımız veri analizini oluştururken gelecekte veri analizi dünyamızı yönetecek. Bu sebepten dolayı bilişim sektöründen olsun ya da olmasın herkesin bir miktar “büyük veri” ve veri analizi kavramlarıyla çoktan tanışmış olması gerektiğine inanıyorum.

Sosyal medya, internet, günlükler, sensörlerden gelen veriler ve kurumlarda biriken veriler derken her geçen gün dünyamızdaki veriler katlanarak artmakta. Kimileri bu verileri kullanarak yeni gelir kapıları oluşturmakta ve değer katmaktayken kimileri henüz bu verilerin kıymetinin farkında değil. Bu tipte verileri toplayan, saklayan ve analizini yapan firmalar müşterileri için yeni yollar ve kampanyalar keşfetmekte ve çoktan büyük verinin gücünü kullanmaya başladılar.

Adından anlaşılacağı gibi büyük veri sadece “büyük” hacimlerde veri için temsil edilmemekte. Büyük veri kavramının içinde hacim, çeşitlilik, sürat ve değer kavramları da yer almakta. Hacme örnek bütün twitter ve facebook’ta bugüne kadar üretilmiş veri boyutlarını hayal edin. Çeşitlilik içinse internet üzerindeki dokümanları, görüntüleri, tabloları hayal edin. Sürat için sadece bir saniyede üretilen ve tüm Türkiye’nin kimlik, adres, telefon gibi bilgilerini hayal edin. Bütün bunları bir elekten geçirip iyice analiz ettikten sonra da elde ettiğiniz değeri hayal edin. İşte büyük veri kavramı budur. Teknolojik arkaplanı olmasına rağmen kavramsal olarak incelendiğinde özeti budur. Zihninizde büyük veri kavramını canlandırmak için altın madenciliğinden bir örnek vermek istiyorum. Yaklaşık 1.4 gram altını elde edebilmek için 1 ton kadar toprak kazılması gerekmekte. Elde edilen bu altının saflık oranı ise %65 ile %98 arasında olup genelde %85 civarındadır. Büyük veride ise kazdığınız toprağı sosyal medyadaki veriler ve elde ettiğiniz altını ise olası yeni bir etkinliği kimin, yani hangi hesabın ve ne zaman başlatabileceğini hayal edin.

Cümlelerimin içinde sürekli hayal edin geçtiğinizi fark etmişsinizdir çünkü ben büyük veri kavramının anlamını “hayal gücü” olarak çevirmekteyim. Sahip olduğunuz veriler doğrultusunda büyük verinin size sunacağı fırsatları değerlendirmek sadece sizin hayal gücünüzle sınırlıdır. Günümüzde büyük veri teknolojilerine ve hayal gücüne yatırım hızlanmış olsaydı neler olabilirdi? Yurttaşlarımızın sağlık durumları çok daha yakından izlenebilir ve gelecekte geçirebilecekleri muhtemel rahatsızlıkların yakından takip edilebilmesi hayal edilebilirdi. Akıllı sensörler aracılığıyla enerji kaynaklarının daha verimli kullanılması da hayal edilebilirdi. Bu ve benzeri etkinliklerin hayatımıza daha da girmesiyle bilişim toplumu olma yolundaki adımlarımızı daha sağlam atabiliriz.


Güncel bir yaklaşım olarak Gezi Park’ı olaylarından örnek verelim. Eminim Gezi Park’ı dediğim zaman aklınıza ilk gelen soru şu olurdu; “Gezi Park’ı direnişini sosyal medyada ilk kim başlattı?” ya da “Sosyal medyanın direnişteki rolu neydi?”. Bu soruları kendinize sorduysanız henüz büyük veri kavramını tam anlamış olmadığınızı görüyorum. Benim soracağım sorular şunlar olurdu; “Bir sonraki toplumsal olay ne zaman, nerede, kaç gün ve kaç kişinin katılımıyla gerçekleşebilir?” veya “yeni bir toplumsal olayın bütçeye, ekonomiye ve kamuya etkisi nasıl olur?”. Büyük veri, veri analizleri ve sizin hayal gücünüz size sonraki adımı nasıl atmanız gerektiğini öğretecektir. Buradaki anahtar kelime bilgi değil, bilgiyi nasıl yönlendirebildiğinizdir yani tahmindir. Albert Einstein’dan alıntıdır; “Hayal gücü her şeydir. Sizi bekleyen güzelliklerin önizlemesi gibidir. Hayal gücü bilgiden daha önemlidir. Zekanın gerçek göstergesi hayal gücüdür, bilgi değil”. Bizim de Türkiye olarak sınırlarımız sahip olduğumuz ya da olabileceğimiz veriler değil onlarla neler hayal edebildiğimizdir...

Ogan Özdoğan

17 Nisan 2013 Çarşamba

CTIS Advisory Board (Danışma Kurulu)

Selamlar,

Benim için bugün, diğer herhangi bir günden oldukça farklı geçti. 2001 yılında başladığım ve 2006 yılında bitirdiğim, çok sevdiğim bölümüm CTIS'e danışma kurul üyesi seçildim. Benim için oldukça gurur verici oldu.

Mezun olduğum 2006 yılından bu yana geçen 7 yıl içerisinde mezun olduğum İD Bilkent Üniversitesi ve Bilgisayar Teknolojisi ve Bilişim Sistemleri bölümünü her ortamda savunmaya, anlatmaya, mezunu olarak neler yaptığımı elimden geldiğince anlatmaya çalıştım. Gücüm yettikçe bundan sonra da bu şekilde çalışmaya devam edeceğim ve dilerim ki çabalarım birilerine olumlu yansır ve yollarını karanlıkta bulmalarına yardımcı olur.

CTIS danışma kurulu üyesi olarak bölümümüzdeki kıymetli hocalarımıza sektörde gördüğümüz gelişmeleri, CTIS'e faydası dokunabilecek her türlü fikri aktarıyor olacağım.

Bir hatırlatmada bulunmak istiyorum. Bugüne kadar birçok arkadaşım (lisede okumakta olan, CTIS tercih etmek isteyen veya bölümde okumakta olan) CTIS ile ilgili bilgi almak için bana ulaştı, ulaşmaya da devam ediyor. Twitter, Facebook, Linkedin gibi sosyal medya ortamlarında hesabım bulunmakta ve mail adresim de oganozdogan@gmail.com. Bana ister sosyal medyadan isterse mail aracılığıyla İD Bilkent Üniversitesi veya CTIS bölümü özelinde merak ettiklerinizi özgürce sorabilirsiniz. Vaktim el verdikçe hepsini cevaplamaya çalışıyorum.

Umarım üniversitem ve bölümüm için bundan sonra daha da faydalı olabilirim.

4 Ocak 2013 Cuma

Oracle Day Ankara Teknoloji Zirvesi

Selamlar,

Bu sene 22 Ocak 2013 Salı günü düzenlenecek olan "Oracle Day Ankara" Teknoloji Zirvesinde "Büyük Veri ve Veri Madenciliği" üzerine 30 dakika konuşacağım. Günümüzün en merak edilen konusu büyük veriyi ve kavramlarını anlatmaya çalışacağım.

Etkinliğin yerine ve içeriğine ulaşmak için tıklayınız.

Oracle Day'de görüşmek üzere!

Ogan
Takip et: @oganozdogan