Yakın geçmişte adını daha sık duymaya başladığımız Big Data ve Big Data Analizi, aslında yıllardır var olan ancak gereken önemin geç anlaşıldığı bir kavramdır. Teknolojinin ilerlemesi ile daha ön plana çıktığı için sanki bugünlerde ortaya çıktığı zannedilir.
Big Data ve Big Data Analizi toplumsal karar mekanizmasının çıkarılması, istatistiksel tahminlerin yapılmasında son derece etkilidir. Çünkü toplumu oluşturan her birey, hiç fark etmeden big data’ya katkı sağlar ve big verinin oluşmasına destekte bulunur. Kısaca söylenebilir ki big data’ya doğru gerçekleşen veri akışında hepimizin bir katkısı olmaktadır. Bu olguya farkında olmadan sürekli destek vermekte ve “Büyük Veri” olarak isimlendirdiğimiz bu ortama sürekli veri akışı sağlanmasında bizler de katkı sağlamaktayız.
Big Data
Bir veri kümesi olarak da adlandırılabilen big data, teknolojinin ilerlemesiyle ve veri kullanımının artmasıyla birlikte daha fazla çeşitlilik arz etmeye başlamıştır. İnternet ortamında çok fazla bilgi bulunur, yazılım firmaları da araştırma geliştirme (AR-GE) çalışmaları yaparak internet ortamında yer alan değerli verilerin de bulunacağı fikrine sahiptir. Bu çalışmalar çerçevesinde şu anlayış ortaya çıkmıştır: Sosyal medyada yapılan paylaşımlar, fotoğraf ve video arşivleri, log kayıtları gibi pek çok kaynakta bulunan bilgiler işlenip anlamlı bir hale getirilebilir.
Big Data ve Veri Sınıflandırması
Big data çalışmalarında önemli olan husus, verilerin sınıflandırılmasıdır. Sınıflandırılmayan veriler, kullanım sahasına zorlukla aktarılır. Firmalar, sahip oldukları verileri her ne kadar sınıflandırmaya çalışsalar da bazı verilerde bu çalışmayı yapamıyorlar ve bundan dolayı veritabanında bulunan tüm veriler kullanım sahasına aktarılamıyor. Şirketler gördü ki müşterilerinin facebook, instagram gibi sosyal medya paylaşımlarındaki fotoğraf, video ve fotoğraflarını raporlarken kullanılan yazılımlar sınıflandırma çalışmalarında yetersiz kalmaktadır. Kullanılması gereken bu veriler, artık big data sayesinde değerli veriler haline getirilebilir.
Big Data Bileşenleri
Big data’yı meydana getiren 5 adet bileşen vardır ve bunlar 5v olarak isimlendirilir:
- Variety (Çeşitlilik): Farklı ortamlardan sağlanan ve yapısal olarak birbirinden değişik formatlara sahip olan verilerin bütünleşik ve birbirine dönüştürülebilir olması lazımdır.
- Velocity (Hız): Big data’yı oluşturan verilerin üretim hızı her geçen gün artar. Bundan dolayı da o verilerin kullanılacağı işlem sayısında ve çeşitliliğinde de artış olmaktadır. Yazılım ve donanım açısından bu yükün kaldırılması lazımdır.
- Volüme (Veri Büyüklüğü): Giderek artan verilerin ileride nasıl kullanılacağı ve sınıflandırılacağı hakkında öngörülerde bulunulması gerekir.
- Verification (Doğrulama): Bu bileşen ile hızla büyüyen ve sisteme ulaşan verilerin ne kadar güvenilir olduğu üzerinde durulur.
- Value (Değer): Yukarıda yer alan bileşenlerin filtrelediği verilerin firma için ne gibi bir değere sahip olduğu ele alınır.
Big Data Analizi
Tahmini analiz olarak da bilinen Big Data Analizi, bir tür veri madenciliğidir ve temelini de istatistik, modelleme, machine learning (makine öğrenmesi) ve yapay zeka oluşturmaktadır. Analiz yapılırken bu bileşenler kullanılmaktadır.
Büyük şirketler tarafından kullanılan veri analizi yönteminde;
- Yapılandırılmış
- Yapılandırılmamış
olarak 2 veri türü bulunur. Yapılandırılmış veriler somut ve kolayca tasnif edilebilen verilerdir. Mesela yaş, cinsiyet, ikamet edilen şehir yapılandırılmış veriler iken sosyal medya yorumları, müşterilerin çağrı merkezlerine bıraktığı notlar ise yapılandırılmamış verilerdir. Big data analizi ile bu veriler işlenir ve sonraki adımlarda ortaya çıkabilecek durumlar hakkında da tahminler üretilir.
Big Data Analizi Hangi Alanlarda Kullanılır?
Big data analizi, pek çok sektörde kullanılır ve şirketlere çalışmalarında ciddi kolaylıklar sağlar:
- Müşteri İlişkileri Planlaması: Bu yazılımlar sayesinde pazarlama işi yapan firmalar, müşterileri ilişkilerini ve satış stratejilerini bu yapar.
- Önleyici Sağlık: Big data analizi ile belli kronik hastalıklar belirlenip dönleyici tedaviler geliştirilebilir. Hekimler, bu sonuçları değerlendirerek tedaviler geliştirebilir.
- Endüstri Uygulamaları: Big data analizinin en çok kullanıldığı alanlar arasında finans hizmetleri, bankacılık, sigortacılık, pazarlama, iletişim, sağlık, seyahat, parekende ve petrol sektörü vardır.
En Çok Tercih Edilen Big Data Yazılımları
Verilerin tasnif edilerek kullanım sahasına aktarılmasını gerçekleştiren pek çok yazılım vardır. Bu yazılımların öne çıkanları şunlardır:
- Microsoft R
- Oracle Data Mining ODM
- Microsoft Azure Machine Learning
- RapidMiner Studio
- GMDH Shell
- IBM Predictive Analytics
- Statistica
- Anaconda