Veri Madenciliğinin Önemi – Bilginin Parasal Değeri

Web’de bir projeye başlarken, yani elinizde henüz veri yokken, veri madenciliği akla gelen son şey olabilir. Hatta aklınıza hiç gelmemiş olabilir. Enerjinizi projenizin asıl amacına yönelik kullanırsınız.

Veri madenciliği, elde veri olmadan düşünülmesi zor bir konudur. Projenin ilerleyen aşamalarının neler getireceği belirli olmadığından, kullanıcılar bu sistemin alışkanlıklarını edinirken vb, bunları ilk etapta tutmazlar.

Birinci önemli kısım burada kaçırılmış olur. Kullanıcının ilk andan itibaren alışkanlıkları kayıt altında tutulmalıdır.

Anasayfa linkine tıklayarak mı anasayfaya geldi, yoksa site altındaki footerdan mı tıkladı? Nerelerden tıklıyorlar? Ne yapıyorlar? Üye olma paneline gelip kaç kişi üye olmadan geri dönmüş, üye panelim mi zor acaba? soruların yanıtlarını giriş aşamasında, yani en önemli aşamada filtreleyememiş oluyorlar.

Bence veri madenciliği altyapısı temel özellikleri ile proje ilk başlarken gömülmeli, daha sonra ise geliştirmeler yapılmalıdır.

14 Şubat haftası herkesin birbirine çiçek alacağı hediye alacağı aşikar. Ama ya 27 şubat? Şubat’ın sonlarına doğru insanlar neler alıyor? Bunlardan güzel anlamlar çıkararak, size bir sonraki adımınız hakkında ipucu veriyor..

Sitenizde ziyaretçi sayısı kadar ziyaret var. O zaman sitenize bir gelen sonra hemen kaçıp gidiyor. Sitenizde insanları bağlayan bir şeyleriniz olması gerekir yorumunu yapıyorsunuz hemen…

Google webmaster tools, veri madenciliğinizin ilk aşamasına “bence” yetecek kadar özellik veriyor. Lakin projenizin amacı neyse, verileri toplayın, daha sonra bunları bilgiye dönüştürebileceğinizi bilin.

Bilginin parasal değeri ise şöyle hesaplanır. (Okuldaki hocamız sn. Mehmet Ahlatçıoğlu veya sn. Mustafa Sivri tarafından anlatılmıştı)

Örneğin; bir fırın günde 10 pasta üretiyor varsayalım. Tanesi 10 TL.  Pazartesi günleri en fazla 5 adet satabileceğini ben ona söylesem (istatistiklerime dayanarak, ki bunlar da veri madenciliğinden tecrübe ederek elde ettiğim şeyler), Pazartesi günü için 10 değil 5 pasta üretse, burada bilginin değeri ziyan olacak 5 pasta x 10 TL = 50 TL dir.

Aynı şekilde bir internet projesini de düşünün; bir eticaret sitesinde, klavye alan kişi %85 ihtimalle yanında mouse alıyor diye bir bilgi çıkarılsa, o sırada da sitede mouse satılmıyorsa,  klavye ürününün sayfasında mouseları da ekleyerek böylece, satışı mouse satışları kadar artırmış oluruz, klavyelere dokunmadan. Burada bilginin değeri mouse satışından elde edilecek kar kadardır..

Veri madenciliği nitekim önemlidir. Ama en baştan beri önemseyenler, bu işin karını daha erken alacak kişilerdir.

Veri madenciliği, veritabanı demektir. Verileri bilgiye dönüştüren kişi, insandır, bilgisayar değildir.

Veri Madenciliği dediğin şey de ne?

Hani sürekli söylenen bir laf vardır, “bilgi çağında yaşıyoruz artık” diye. Aslında bilgi çağında yaşamıyoruz, veri çağında yaşıyoruz. Cep telefonuyla konuşurken, kredi kartı ile ödeme gerçekleştirirken, sosyal bir ağda birşeyler paylaşırken ya da bir markette satın almak istediğimiz ürünlerin barkotlarını okuturken içinde bulunduğumuz veri uzayını sürekli genişletiyoruz. Yani hepimiz bir veri uzayındayız ve bu uzay sürekli büyüyor. İşte veri madenciliği temel olarak bu uzayda işimize yarayabilecek bilgileri sürekli oluşan verilerden üretmemizi sağlıyor. Yani veriden bilgi çıkarmamızı sağlıyor.

Peki ne tür verilerden bilgi çıkarılmaktadır diye sorarsanız, sağlıklı bilgi çıkarımı yapılabilecek verilerin belli başlı özellikleri olması gerekiyor:

  • Verinin uzun bir dönemde(birkaç yıllık veri genelde fena değildir) oluşması gerekiyor.
  • Verinin bir ön işlemden geçirilmesi gerekiyor. Yani sistemsel işlemler için kullanılan verilerin(OLTP) veri madenciliği uygulamalarına hazır(OLAP) hale getirilmeleri gerekiyor.
  • Verilerin içindeki kirli ya da boş verilerin normalize edilmesi gerekiyor. Bu normalizasyon olağan dışı verilerin boş ya da ortalama değerler ile doldurularak da gerçekleştirilebilmektedir.

Veriler hazırlandıktan sonra da bilgi çıkarımı için temel olarak şu işlemler yapılmaktadır:

  • Bilgi çıkarımı yapılacak verilerin seçimi.
  • Çıkarım metodlarının seçilmesi. Bu metodlar istatistiksel metodlardır ve veriler arasında sınıflandırma ya da kümelendirme yapmaya yararlar.
  • Verilerin belirli bir kısmının model oluşturma amacıyla seçilmesi ve çıkarım metodunun bu verilere uygulanarak model oluşturulması.
  • Verilerin diğer belirli bir kısmının test amacıyla seçilmesi ve seçilen çıkarım metodunun test verilerine uygulanarak model ile karşılaştırma yapılması.
  • Eğer yapılan karşılaştırma sonucu test belirli bir güven aralığında gerçekleşmiş ise oluşturulan modelin(yani aslında çıkarılan bilginin) daha anlamlı bir şekilde raporlanması.

Yukarıda bahsettiğim aşamalar biraz afaki gelebilir. Lakin bu aşamalar günlük hayata uygulandığında bir kitap sipariş sitesi en çok hangi türdeki müşterilerinin bilgisayar ile ilgili kitapları aldıklarını görebiliyor ya da bir sigorta şirketi kendisine başvuran müşterinin profilini belirleyip karar verebiliyor. Aynı şekilde bankalar da size ne kadar kredi limiti açacağını daha önceden yapmış olduğunuz ödemelere, harcamalara ve bu işlemlerin zamanlarına bakarak karar verebiliyor. Veri madenciliği biraz da şapkadan tavşan çıkarma hissiyatı veriyor çünkü anlamsız görünen veri yığını üzerinde bir çok işlem yaparak önemli ve anlamlı bilgilerin çıkarımına olanak sağlıyor. Hatta bazı süper bilgisayarların milyonlarca makaleyi okuyup analiz ederek Libya ve Mısır’daki isyanlardan önce oradaki işlerin kötüye gitmekte olduğu sonucunu çıkardığı bile iddia ediliyor(kaynak: http://www.popsci.com/technology/article/2011-09/supercomputer-analyzes-news-articles-predicts-revolutions).