Veri Madenciliği dediğin şey de ne?

Hani sürekli söylenen bir laf vardır, “bilgi çağında yaşıyoruz artık” diye. Aslında bilgi çağında yaşamıyoruz, veri çağında yaşıyoruz. Cep telefonuyla konuşurken, kredi kartı ile ödeme gerçekleştirirken, sosyal bir ağda birşeyler paylaşırken ya da bir markette satın almak istediğimiz ürünlerin barkotlarını okuturken içinde bulunduğumuz veri uzayını sürekli genişletiyoruz. Yani hepimiz bir veri uzayındayız ve bu uzay sürekli büyüyor. İşte veri madenciliği temel olarak bu uzayda işimize yarayabilecek bilgileri sürekli oluşan verilerden üretmemizi sağlıyor. Yani veriden bilgi çıkarmamızı sağlıyor.

Peki ne tür verilerden bilgi çıkarılmaktadır diye sorarsanız, sağlıklı bilgi çıkarımı yapılabilecek verilerin belli başlı özellikleri olması gerekiyor:

  • Verinin uzun bir dönemde(birkaç yıllık veri genelde fena değildir) oluşması gerekiyor.
  • Verinin bir ön işlemden geçirilmesi gerekiyor. Yani sistemsel işlemler için kullanılan verilerin(OLTP) veri madenciliği uygulamalarına hazır(OLAP) hale getirilmeleri gerekiyor.
  • Verilerin içindeki kirli ya da boş verilerin normalize edilmesi gerekiyor. Bu normalizasyon olağan dışı verilerin boş ya da ortalama değerler ile doldurularak da gerçekleştirilebilmektedir.

Veriler hazırlandıktan sonra da bilgi çıkarımı için temel olarak şu işlemler yapılmaktadır:

  • Bilgi çıkarımı yapılacak verilerin seçimi.
  • Çıkarım metodlarının seçilmesi. Bu metodlar istatistiksel metodlardır ve veriler arasında sınıflandırma ya da kümelendirme yapmaya yararlar.
  • Verilerin belirli bir kısmının model oluşturma amacıyla seçilmesi ve çıkarım metodunun bu verilere uygulanarak model oluşturulması.
  • Verilerin diğer belirli bir kısmının test amacıyla seçilmesi ve seçilen çıkarım metodunun test verilerine uygulanarak model ile karşılaştırma yapılması.
  • Eğer yapılan karşılaştırma sonucu test belirli bir güven aralığında gerçekleşmiş ise oluşturulan modelin(yani aslında çıkarılan bilginin) daha anlamlı bir şekilde raporlanması.

Yukarıda bahsettiğim aşamalar biraz afaki gelebilir. Lakin bu aşamalar günlük hayata uygulandığında bir kitap sipariş sitesi en çok hangi türdeki müşterilerinin bilgisayar ile ilgili kitapları aldıklarını görebiliyor ya da bir sigorta şirketi kendisine başvuran müşterinin profilini belirleyip karar verebiliyor. Aynı şekilde bankalar da size ne kadar kredi limiti açacağını daha önceden yapmış olduğunuz ödemelere, harcamalara ve bu işlemlerin zamanlarına bakarak karar verebiliyor. Veri madenciliği biraz da şapkadan tavşan çıkarma hissiyatı veriyor çünkü anlamsız görünen veri yığını üzerinde bir çok işlem yaparak önemli ve anlamlı bilgilerin çıkarımına olanak sağlıyor. Hatta bazı süper bilgisayarların milyonlarca makaleyi okuyup analiz ederek Libya ve Mısır’daki isyanlardan önce oradaki işlerin kötüye gitmekte olduğu sonucunu çıkardığı bile iddia ediliyor(kaynak: http://www.popsci.com/technology/article/2011-09/supercomputer-analyzes-news-articles-predicts-revolutions).

Bir Cevap Yazın