Gurubun yayınladığı veri kümelerinden 75Haber diye geçen veri kümesini kullanacağız Veri kümesi M.Fatih Amasyalı tarafından hazırlanmış ve bu makalede
Otomatik Haber Metinleri Sınıflandırma", M.Fatih Amasyalı, Tülay Yıldırım, SIU 2004
kullanılmıştır.
5 farklı haber sınıfına ait 15’şer, toplamda 75 haber içermektedir.
Haber metinlerinin sınıfları:
- ekonomi
- magazin
- sağlık
- siyasi
- spor
KNIME ile veri okunup test ve eğitim olarak 2 ye ayrıldı ( 50 eğitim 25 test ) SVM ve Weka-Bayes ile sınıflandırma işlemi yapıldı
İşlemin akış şeması
ve Test verileri için sonuçlar şöyle
Bayes 25 yazıdan 22 sini doğru sınıflandırmış
SVM ise 25 yazıdan 13'ünü doğru sınıflandırmış
1 yorum:
Merhaba;
Daha önce php ile kod yazarak içerikteki kelimelerden elde ettiğimiz istatistiki verilerden yola çıkarak etiketleme yapabiliyorduk. Kullandığımız yöntem şu an anlattığınız yönteme göre çok amatör kalıyormuş. Yazınızda belirttiğiniz makaleyi okuduktan sonra yaptığınız testi daha iyi anladım. Şu anda bulunduğum yerden 3G ile nete bağlandığımdan programı indirip testi kendim yapamadım. İnşallah ilerleyen günlerde ilk fırsatta kendimde Kemik'in test verilerinden faydalanarak uygulama yapacağım.
Yine güzel bir konuda bizi aydınlattığınız için teşekkür ederim.
Yorum Gönder