28 Temmuz 2013 Pazar

Büyük Veri (Big Data) Nedir?

Büyük Veri (Big Data) Nedir?

Geçtiğimiz 1 yılda birçok seminerde, müşteri ortamında ve teknik toplantılarda büyük veri ve kavramını anlatmaya çalıştım. Büyük veri nedir, büyük veri teknolojilerine hazır mıyız, büyük veri bizim için uygun mudur gibi soruları yanıtlamaya gayret gösterdim. Bu makalede amacım son yılların belkide en çok merak edilen konusu büyük veri, yani nam-ı diğer big data'nın ne olduğunu açıklamaya çalışacağım.

Büyük veri kavramının geçmişi çok eskiye dayanmıyor. Büyük veri, 2004 yılında Google'ın kullanmaya başladığı bir teknoloji. Ardından Youtube, Facebook, Twitter gibi büyük ölçekte verisi olan firmalar da büyük veri kavramına ait teknolojileri kullanmaya başladılar. Peki 2004'den sonra ne oldu da biz bugün, bu büyük firmaların kullandıkları teknolojiyi konuşuyoruz. Cevap basit gibi gözükse de karmaşık; veri miktarları büyüdü. Veri miktarları yalnızca sosyal medyada ya da internet üzerinde büyümedi. Aynı zamanda kurumların sahip oldukları veri miktarları da hem büyüdü hem de çeşitlilik göstermeye başladı. Kamu ve özel sektör sahip oldukları verilerden gelir elde etmeye başladıkça daha farklı verilere sahip olmak istediler. İstedikçe de geleneksel olarak adlandırdığımız ilişkisel veritabanı modelleri ve sistemleri yetersizlik gösterme eğilimine girdi. Bu eğilimin ilerlemesiyle de 2013 yılında büyük veriyi daha fazla konuşmaya başladık. Geleneksel sistemlerle büyük veri arasındaki farkları yazının ilerleyen bölümlerininde açıklıyor olacağım.

Büyük veriyi tanımlamak için kullanılan 4V formülü bulunmaktadır. Çoğu sunumda ve seminerde bu formül üzerinden büyük veri kavramını açıklamaya çalışırım. 4V formülünün 4 tane bileşeni bulunmaktadır. Bunlar;

Volume (Hacim): Şu sorunun yanıtını aramaya çıktığınızı düşünelim; "ben büyük veri müşterisi miyim?" ya da "kurumumda büyük veri kullanılırsa ne olur?". Bu sorunun cevabını adresleyebilmek için 4 V formülünü incelemek gerekiyor. Volume yani hacim bu formülün ilk ve bence en önemli bileşeni. Veri hacmi, büyük veri kullanımı için önemli bir faktördür. Bu hacimler terabyte'lar mertebesinde olabilir veya petabyte'lar. Bu noktada genel bir kural yoktur. İhtiyaçlar, istekler ve yapılması beklenenler çıkartılır, ardından hacim konusu tartışılır. 4V formülündeki hiçbir bileşen tek başına büyük veri teknolojisine geçişi adreslemediği gibi hepsinin bir arada olduğu durumlarda da büyük veri kullanılması şart değildir. Bu tamamen istenenlere ve yapılabileceklere göre değerlendirilir.

Velocity (Sürat): Bir meteoroloji cihazı düşünün ki bir dakikada 1.5 terabyte ya da 1536 gigabyte veri üretebilsin. Bu ölçekte üreyen ve sistemde saklamanız gereken veriniz olsaydı ne yapardınız? Büyük verinin adreslemeye çalıştığı bir diğer V velocity'dir yani sürat. Bu verdiğim örnekte hem hacim hem de sürat yer alıyor. Ölçek örneği bu şekilde olunca haliyle büyük veri teknolojileri tavsiye edebilir. Sürat kavramı da büyük veri kullanımı için önemli bir yer etmektedir.

Variety (Çeşitlilik): Bir diğer V variety, çeşitliliktir. Verinin yüksek hacimlerle, inanılmaz bir hızla ve farklı kaynaklardan sisteme akmaya çalıştığını hayal edin. Bir kabus değil mi? Mevcut geleneksel sistemler için öyle ancak bunu zaten şimdi bile yapan firmalar olduğunu açıklamıştım. Onlar büyük verinin gücünü kullanarak bu işlerini aksamadan halledebiliyorlar.

Value (Değer): Yukarıdaki 3 V formülün tamamını oluşturuyor fakat bir V daha var ki bütün bunların çıktısı olarak duruyor. Value, yani değer, büyük veriyi kullanırken elde edilmezse olmaz bir faktördür. Hacim, sürat ve çeşitliliği bir arada barındırmak için yeni sistemler kurdunuz ve başardınız. Bir şey eksik değil mi? Eksik, o da bunlarla ne yapacağınız ya da yapabileceğiniz. İşte tam bu noktada büyük veri = hayal gücü derim hep. Verilerden yeni değerler, sonuçlar üretmek ve katkı sağlamak büyük verinin kaymağıdır. 

Büyük veriyi bu şekilde tanımladıktan sonra daha detaylara inmek ve geleneksel ortamla büyük veri arasındaki farkı açıklamaya çalışacağım. Geleneksel sistemler ya da ilişkisel veritabanı yönetim sistemleri 1970'lerden günümüze kadar gelmiş ve bundan sonra da aramızda olacak, büyük verinin yerini alamayacak ya da büyük veri ile değiştirilemeyecek sistemlerdir. Büyük veri ortamında ise bildiğimiz bir ilişkiden bahsedemeyiz çünkü ilişkisel bir ortam değildir, ilişkisel olmayan ortamdır. İlişkiselden kastımız birbirleri arasında bir ilişki olan yapılardır. Örneğin benim TC kimlik numaram ile ismim, adresim ve telefonum gibi. Büyük veri ortamlarında bir ilişki yoktur, gerekmez de. Dolayısıyla kavram olarak dahi birbirlerinin yerini alabilecek sistemler değillerdir. Şimdi en kritik soru şu olmalı; ne oldu da mevcut sistem yetmedi, büyük veri ortaya çıktı?. Bu sorunun birkaç cevabı var. İlki ve belki de en önemlisi büyük veri teknolojilerinin tamamen açık kaynak kodlu olmasıdır, yani geliştirilmesi ve dağıtımı serbesttir. Buna karşın dünyadaki en büyük şirketlerin ilişkisel veritabanları lisanslıdır ve ücretlidir. Lisanslı ve ücretli bir üründe bu kadar büyük ölçekte bir veriyi saklamak yerine ilişki aramadığımız ve hala araştırmalar yapabileceğimiz yeni bir ortamda, daha ekonomik olarak saklanmasının faydası olmaz mı? Cevap, evet, olur işte bu yüzden bulut bilişimden sonraen çok konuştuğumuz konu büyük veri.

Büyük verinin belirli veri kaynakları olabilir. Bunlar sosyal medya, internet, web günlükleri, resimler ya da fotoğraflar, görüntüler veya ses kayıtları, mevcut kurum verisi, sensör verileri (telekomünikasyon cihazları vb.) gibi veri kaynakları bulunmaktadır. Bu kaynaklar veriyi çeşitli, hacimli ve süratli yapmaktadır. Günümüzde en güncel konu sosyal medya ve sosyal harita analizleridir. Birçok kurum sosyal medyadan, internetten ve günlüklerden veri çekip, yeni haritalar çıkartıp, yeni yollar keşfetmeye çalışıyor. Mevcut durumumuzda nedenini bilemediğimiz birçok sorunun nedenini, cevabını ve hatta sonrasını tahmin etmek için büyük veri kullanılabilir. 

Büyük veri kavramını daha rahat aklınızda canlandırabilmek için çalıştığım şirketin kullandığı bir örneği aktarmak istiyorum. Balıkçı teknesi ve ağını hayal edin (aşağıdaki gibi);


Neden bir tekne ya da daha doğru soruyu sorarsanız tekne ile büyük verinin ne ilgisi var? Şöyle; tekne denize açıldığı zaman kaptan ağını sulara bırakır ve balık avlar. Buradaki mecaz şudur, teknenin kaptanı sizsiniz ve yakaladığınız balıklarının tamamı yeni topladığınız verileriniz. Denizi ise internet olarak düşünün. Veri sisteminizde yeni ve henüz içinde olduğunu bilmediğiniz birçok veriniz var.


Bu veriler arasında ne olduğunu henüz bilmiyorsunuz. Büyük veride ilişkisel ortam bulunmadığını söylemiştim. Yani burada bir ilişki aramıyoruz ve henüz önemsemiyoruz. Şimdi yapmamız gereken bu balıkları, yani veriyi keşfetmek ve ardından analiz etmek. 


Twitter'dan gelenleri, facebook'tan çektiklerinizi ya da internet günlüklerinden topladığınız makalelerinizi tasniflediniz ve artık elinizde kaç tane, hangi tip balık (veri) olduğunu biliyorsunuz. 

Bir anlığına büyük veri ortamından ayrılalım ve son durumu bu şekilde bırakalım. Şimdi tekrar ilişkisel veritabanı ortamına dönelim. İlişkisel veritabanında mevcut verileriniz yer alıyor, yani şimdiye kadar sahip olduğunuz ve üzerinde veri madenciliği yaptığınız verileriniz. Bu aşamadan sonra amacınız bu verilerle, gemide bekleyen verileri ilişkilendirebilmek ve yeni bir şeyler keşfetmek. Hayal gücünüz burada devreye giriyor. Ben bu gücünüzü geliştirmek için size bir örnek vereceğim. Teknenizde bulunan verileri fabrikalardaki ısı sensörlerinden aldığınızı düşünün. Elinizdeki verilerde ise geçmişte hangi fabrikada, hangi ortamda yangın çıktığını analiz ettiğinizi varsayın. Amacınız nedir bu durumda? Bundan sonra nasıl bir gelişme olursa ya da hangi ihtimalle, başka bir fabrikada, şu nedene bağlı yangın çıkabilir sorusunun cevabını bulabilmek. Yeni keşfettiğiniz verilerle mevcutları ilişkilendirerek yeni bir yol çıkartıp geleceği tahmin etmeye çalışabilirsiniz. İşte büyük veri ortamı ile ilişkisel veritabanı bu ve buna benzeyen örneklerle birleştirilebilir.

Büyük verinin adını 2013'ten sonra önümüzdeki 5-10 yıl içinde çok daha fazla duyacağız. Sağlıktan perakendeye, sivil havacılıktan sigortacılığa kadar birçok sektörde büyük veri teknolojiler ve veri analizleri kullanılacak. Veri analizi yeni bir çağ adı olacak. Veri gönderemeyen hiçbir cihaz kalmayacak, buna kullandığımız arabalar da dahil. Veri gönderen cihazların gönderdikleri veriler analiz edilerek hayatımızı kolaylaştıracak yeni sistemler geliştirilecek ve bu sistemler hayatımıza girerken büyük veri kavramlarıyla aydınlanacak. Bugün kahrolarak izlediğimiz birçok acı gelişmenin sonu veri analizleriyle gelecek ve dahası, ileride oluşmaması için daha keskin tahminler yapabileceğiz. Bir örnek, veri transferi yapan araçlar anlık tüketim ve kullanım biçimlerinizi biriktirerek bu şekilde kullanmaya devam ederseniz kaza yapma oranınızı güncelleyerek sigortacılık sistemine aktaracak. Böylece daha net ve keskin hesaplanmış kasko bedelleri çıkartılabilecek. Bulunduğunuz lokasyon bilgisi ile sürat bilginiz eşleştirilecek, diğer örneklerle karşılaştırılacak ve günün sonunda kaza yapma haritanız çıkarılacak. Bu ve buna benzer örneklerin hayatımızla entegre olması için çok beklememiz gerekmeyecek. En geç 5 yıl içerisinde bu tip uygulamaları son kullanıcı olarak biz, gözlemliyor olacağız. İşte bu sebeplerden dolayı bugün büyük veri ve veri analitiğini konuşuyoruz.

Bu konuyu ne zaman anlatsam Azınlık Raporu filmini izlemiş insanlar aklına "suçu işlenmeden önce bilebilmek gibi mi? sorusu geliyor. Benim cevabım ise "bunu hayal edebiliyorsanız bir gün o da olabilir" demek oluyor. Hiçbirimizin geleceği bilmek gibi bir yetkinliği yok, sadece geleceği tahmin edebiliriz. Bunu da veri çeşitliliği ve geçmişi ile analizleyerek daha keskin hale getirebiliriz. Böyle bir sistem kurulursa ve Türkiye'nin suç haritası yüklenir, yeni veri kaynakları oluşturulur ve bölgelere göre çalışmalar yapılırsa bir gün suçları olmadan önce de öngörebilmek mümkün olabilir. Mevcut teknolojik altyapı bu hayali gerçekleştirmek için yeterli. Tek gereken bunu yapabilecek bir sistem ve çalışma disiplini oluşturabilmek. 

Büyük veri, hayal gücüdür. Sizin önünüzdeki engel elinizde olan ya da olmayan verileriniz değil, bunlarla ne yapmak ve neyi bilmek istediğinizdir. Bunun cevabını bulduğunuz ve hayal gücünüzü geliştirdiğiniz zaman verinin değerini ortaya çıkartmış olacaksınız. Bilginin karşılığı işlenmiş veridir. Verinin değeri ise hayal gücüdür.

İyi çalışmalar.

Ogan

3 yorum:

Anonim dedi ki...

Verdiğiniz değerli bilgilerden dolayı çok teşekkür ederim. Yalnız benim takıldığım bir nokta var. Tekne örneği vermişsiniz ve burda ilişkisel bir mantık yok tamam.Ama ilişkisel olmayan veri kaynaklarından herhangi bir veri çekmek 'sonuçta bu bizim hayal gücümüz' ve istediğimiz farklı kaynaklardan,yerden çekmek çok fazla karmaşık durmuyormu?

mehmet izmir dedi ki...

Günümüzün esaslı problemdir. En basit bir işte, önceleri analog makineden farklı zamanlarda 6-7 poz fotoğraf çektirirdik. Şimdi dijital sayesinde yüzlerce (genellikle 600-700) poz çekilmeye başlandı. Çeken dahil bütün ilgililer çok çekilen resimleri değerlendirmekte çok zorluk çekiyor. Şimdi resim çekme addetinde sınırlama getirdik. Ama çeken kişi bu defa ne olur ne olmaz diye resim çektiği için resimlerden seçmeye başladı, bu da ayrı sorun olmaya aday. Mehmet İzmir

mehmet izmir dedi ki...

Günümüzün esaslı problemdir. En basit bir işte, önceleri analog makineden farklı zamanlarda 6-7 poz fotoğraf çektirirdik. Şimdi dijital sayesinde yüzlerce (genellikle 600-700) poz çekilmeye başlandı. Çeken dahil bütün ilgililer çok çekilen resimleri değerlendirmekte çok zorluk çekiyor. Şimdi resim çekme addetinde sınırlama getirdik. Ama çeken kişi bu defa ne olur ne olmaz diye resim çektiği için resimlerden seçmeye başladı, bu da ayrı sorun olmaya aday. Mehmet İzmir

Takip et: @oganozdogan