Pazar, Haziran 26, 2011

KNIME ve Haber Metinlerinin Sınıflandırılması 2

Uygulamamız, Başlıkdanda anlayacağınız gibi Haber Metinlerinin otomatik sınıflandırılması. Uygulamamız için gereken veriyi Kemik den aldık. Kemik  Yıldız  Teknik Üniversitesinin Doğal Dil İşleme Grubu.  Neden Kemik? sorusunuda "Çünkü dilin kemiği yoktur" diye cevaplıyorlar.

Gurubun yayınladığı veri kümelerinden 75Haber diye geçen veri kümesini kullanacağız Veri kümesi  M.Fatih Amasyalı tarafından hazırlanmış ve bu makalede
 Otomatik Haber Metinleri Sınıflandırma", M.Fatih Amasyalı, Tülay Yıldırım, SIU 2004
kullanılmıştır.

5 farklı haber sınıfına ait 15’şer, toplamda 75 haber içermektedir.
Haber metinlerinin sınıfları:
  1. ekonomi
  2. magazin
  3. sağlık
  4. siyasi
  5. spor 

KNIME ile veri okunup test ve eğitim olarak 2 ye ayrıldı ( 50 eğitim 25 test ) SVM ve Weka-Bayes ile sınıflandırma işlemi yapıldı
İşlemin akış şeması


ve Test verileri için sonuçlar şöyle
Bayes  25 yazıdan 22 sini doğru sınıflandırmış
 SVM  ise 25 yazıdan 13'ünü doğru sınıflandırmış

1 yorum:

openzeka dedi ki...

Merhaba;
Daha önce php ile kod yazarak içerikteki kelimelerden elde ettiğimiz istatistiki verilerden yola çıkarak etiketleme yapabiliyorduk. Kullandığımız yöntem şu an anlattığınız yönteme göre çok amatör kalıyormuş. Yazınızda belirttiğiniz makaleyi okuduktan sonra yaptığınız testi daha iyi anladım. Şu anda bulunduğum yerden 3G ile nete bağlandığımdan programı indirip testi kendim yapamadım. İnşallah ilerleyen günlerde ilk fırsatta kendimde Kemik'in test verilerinden faydalanarak uygulama yapacağım.
Yine güzel bir konuda bizi aydınlattığınız için teşekkür ederim.