Salı, Mayıs 01, 2018

b-sequence - 1

 
 
Nedir bu sayılardaki  düzen ?

1 2 3 5 7 10 11 12 14 16 19 20 21 23 25 28 29 30 32 34 
37 38 39 41 43 46 47 48 50 52 55 56 57 59 61 64 65 66 
68 70 73 74 75 77 79 82 83 84 86 88 91 92 93 95 97 100 
101 102 104 106 109 110 111 113 115 118 119 120 122 124 
127 128 129 131 133 136 137 138 140 142 145 146 147 149 
151 154 155 156 158 160 163 164 165 167 169 172 173 174 
176 178 181 182 183 185 187 190 191 192 194 196 199 200 
201 203 205 208 209 210 212 214 217 218 219 221 223 226 
227 228 230 232 235 236 237 239 241 244 245 246 248 250 
253 254 255 257 259 262 263 264 266 268 271 272 273 275 
277 280 281 282 284 286 289 290 291 293 295 298 299 300 
302 304 307 308 309 311 313 316 317 318 320 322 325 326 
327 329 331 334 335 336 338 340 343 344 345 347 349 352 
353 354 356 358 361 362 363 365 367 370 371 372 374 376 
379 380 381 383 385 388 389 390 392 394 397 398 399 401 
403 406 407 408 410 412 415 416 417 419 421 424 425 426 
428 430 433 434 435 437 439 442 443 444 446 448 451 452 
453 455 457 460 461 462 464 466 469 470 471 473 475 478 
479 480 482 484 487 488 489 491 493 496 497 498 500 502 
505 506 507 509 511 514 515 516 518 520 523 524 525 527 
529 532 533 534 536 538 541 542 543 545 547 550 551 552 
554 556 559 560 561 563 565 568 569 570 572 574 577 578 
579 581 583 586 587 588 590 592 595 596 597 599 601 604 
605 606 608 610 613 614 615 617 619 622 623 624 626 628 
631 632 633 635 637 640 641 642 644 646 649 650 651 653 
655 658 659 660 662 664 667 668 669 671 673 676 677 678 
680 682 685 686 687 689 691 694 695 696 698 700 703 704 
705 707 709 712 713 714 716 718 721 722 723 725 727 730 
731 732 734 736 739 740 741 743 745 748 749 750 752 754 
757 758 759 761 763 766 767 768 770 772 775 776 777 779 
781 784 785 786 788 790 793 794 795 797 799 802 803 804 
806 808 811 812 813 815 817 820 821 822 824 826 829 830 
831 833 835 838 839 840 842 844 847 848 849 851 853 856 
857 858 860 862 865 866 867 869 871 874 875 876 878 880 
883 884 885 887 889 892 893 894 896 898 901 902 903 905 
907 910 911 912 914 916 919 920 921 923 925 928 929 930 
932 934 937 938 939 941 943 946 947 948 950 952 955 956 
957 959 961 964 965 966 968 970 973 974 975 977 979 982 
983 984 986 988 991 992 993 995 997 1000 1001 1002 1004 
1006 1009 1010 1011 1013 1015 1018 1019 1020 1022 1024 
1027 1028 1029 1031 1033 1036 1037 1038 1040 1042 1045 
1046 1047 1049 1051 1054 1055 1056 1058 1060 1063 1064 
1065 1067 1069 1072 1073 1074 1076 1078 1081 1082 1083 
1085 1087 1090 1091 1092 1094 1096 1099 1100 1101 1103 
1105 1108 1109 1110 1112 1114 1117 1118 1119 1121 1123 
1126 1127 1128 1130 1132 1135 1136 1137 1139 1141 1144 
1145 1146 1148 1150 1153 1154 1155 1157 1159 1162 1163 
1164 1166 1168 1171 1172 1173 1175 1177 1180 1181 1182 
1184 1186 1189 1190 1191 1193 1195 1198 1199 1200 1202 
1204 1207 1208 1209 1211 1213 1216 1217 1218 1220 1222 
1225 1226 1227 1229 1231 1234 1235 1236 1238 1240 1243 
1244 1245 1247 1249 1252 1253 1254 1256 1258 1261 1262 
1263 1265 1267 1270 1271 1272 1274 1276 1279 1280 1281 
1283 1285 1288 1289 1290 1292 1294 1297 1298 1299 1301 
1303 1306 1307 1308 1310 1312 1315 1316 1317 1319 1321 
1324 1325 1326 1328 1330 1333 1334 1335 1337 1339 1342 
1343 1344 1346 1348 1351 1352 1353 1355 1357 1360 1361 
1362 1364 1366 1369 1370 1371 1373 1375 1378 1379 1380 
1382 1384 1387 1388 1389 1391 1393 1396 1397 1398 1400 
1402 1405 1406 1407 1409 1411 1414 1415 1416 1418 1420 
1423 1424 1425 1427 1429 1432 1433 1434 1436 1438 1441 
1442 1443 1445 1447 1450 1451 1452 1454 1456 1459 1460 
1461 1463 1465 1468 1469 1470 1472 1474 1477 1478 1479 
1481 1483 1486 1487 1488 1490 1492 1495 1496 1497 1499 
1501 1504 1505 1506 1508 1510 1513 1514 1515 1517 1519 
1522 1523 1524 1526 1528 1531 1532 1533 1535 1537 1540 
1541 1542 1544 1546 1549 1550 1551 1553 1555 1558 1559 
1560 1562 1564 1567 1568 1569 1571 1573 1576 1577 1578 
1580 1582 1585 1586 1587 1589 1591 1594 1595 1596 1598 
1600 1603 1604 1605 1607 1609 1612 1613 1614 1616 1618 
1621 1622 1623 1625 1627 1630 1631 1632 1634 1636 1639 
1640 1641 1643 1645 1648 1649 1650 1652 1654 1657 1658 
1659 1661 1663 1666 1667 1668 1670 1672 1675 1676 1677 
1679 1681 1684 1685 1686 1688 1690 1693 1694 1695 1697 
1699 1702 1703 1704 1706 1708 1711 1712 1713 1715 1717 
1720 1721 1722 1724 1726 1729 1730 1731 1733 1735 1738 
1739 1740 1742 1744 1747 1748 1749 1751 1753 1756 1757 
1758 1760 1762 1765 1766 1767 1769 1771 1774 1775 1776 
1778 1780 1783 1784 1785 1787 1789 1792 1793 1794 1796 
1798 1801 1802 1803 1805 1807 1810 1811 1812 1814 1816 
1819 1820 1821 1823 1825 1828 1829 1830 1832 1834 1837 
1838 1839 1841 1843 1846 1847 1848 1850 1852 1855 1856 
1857 1859 1861 1864 1865 1866 1868 1870 1873 1874 1875 
1877 1879 1882 1883 1884 1886 1888 1891 1892 1893 1895 
1897 1900 1901 1902 1904 1906 1909 1910 1911 1913 1915 
1918 1919 1920 1922 1924 1927 1928 1929 1931 1933 1936 
1937 1938 1940 1942 1945 1946 1947 1949 1951 1954 1955 
1956 1958 1960 1963 1964 1965 1967 1969 1972 1973 1974 
1976 1978 1981 1982 1983 1985 1987 1990 1991 1992 1994 
1996 1999 2000 2001 2003 2005 2008 2009 2010 2012 2014 
2017 2018 2019 2021 2023 2026 2027 2028 2030 2032 2035 
2036 2037 2039 2041 2044 2045 2046 2048 2050 2053 2054

Pazartesi, Nisan 02, 2018

Kelime Kök Ayırıcı



Artık Yapay Sinir Ağları Doğal Dil İşleme  ( NLP )  alanında da kendini gösteriyor. Yoğun olarak derin öğrenme algoritmalarının kullanıldığı yeni çözümler boy gösteriyor.
Yabancı kaynaklarda  Doğal Dil İşleme ile ilgilendiğinizde elinizdeki metin verisinin  temel temizleme yaklaşımı şu şekildedir.
  1. Kelimleri  ayır
  2. Kelimelrin kökünü bul  - stem -
  3. Anlama etki etmeyen genel kelimeleri at  - stop words -
Bu şekilde bir temizleme ile yapılmak istenen şey  Anlamı bozmadan Kelime sayısını azaltmaktır.  Böyle temizleme faliyetine girişmeksizin yapılan bir modellemede kelime sayısının astronomik boyutlara fırlamasına ve modelin çok kompleksleşip, öğrenememesine sebep olabiliyor.

İngilizce gibi bir dilde kök bulmanın genellikle pek bir ters etkisi olmuyor  Fakat,  Türkçede yapısı gereği sondan eklerle bazen fazlasıyla anlam değişikliği oluyor. Bu yüzden yapılacak çalışmada buna dikkat etmek gerekiyor.

bir örnek verelim

gözüm ağrıyordu. göz doktoruna gitttim.  gözlük numaram değişmiş. 
gözlüğümün çerçeveside eskimişti.  gözlükçüye gidince,  yeni bir gözlük çerçevesi de aldım.

göz, gözüm ,gözlük,, gözlüğümün gözlükçüye, gözlük ... diye geçen kelimelrin hepsinin köküne göz demek anlamı bozar.
gözüm => göz
gözlüğümün => gözlük
gözlükçüye => gözlükçü
daha doğru bir yaklaşım gibi. Elbette bir anlam kaybı var ama nispeten daha doğru gibi geliyor bana. Elbette farklı anlamlı , yazılışlı aynı kelimeler için  bir çözüm değil bu.
 
Ortada çözümü olmayan genel bir optimizasyon problemi var. Eğer sadece kökü kullansanız, bazı anlamları kaybetme ,htimaliniz var. Tamamını kullandığınızda kelime sayınız astronomik sayılar çıkıyor.

Kelime vektörleri bu işi çözmezmi  ? ,  Kelime vectörleri dediğimiz sistemde Kelimeler sabit uzunlukta vektörler olarak ifade ediliyor.  Temelindeki  fikir şudur. Aynı anlamı ifade eden kelimeler aynı bağlamda - context - de kullanılır. Büyük derlemde - corpus  - kelimeler birlikte kullanıldıkları kelimelere göre optimize edilerek her birisi için sabit bir vektöre ulaşılıyor. Yakın anlamlı kelimeler kelime vektör uzayında bir birine yakın konumlarda oluyorlar.  Burda şöyle bir problem var her kelimenin her türlü ekiyle birlikte yeterli miktarda kullanım metnin olması pek mümkün değil.

Çok sıkıcı bir girizgah oldu kusuruma bakmayınız.  Ama sebebi var.
Bizim bir çalışmamız oldu. Kök bulma işlemini seq2seq bir modele öğretmeye çalıştık. Sağolsun Ahmet Aksoy beyin yayınladığı bir veriyi kullanarak eğittik. Bu haliyle bırakmadık Yavuz Kömeçoğlu kardeş bu model için etkileşimli bir web sayfası hazırladı.

nlp-kokbulma.herokuapp.com/

Şimdiki haliyle kullanıcının vereceği kelime için model çalıştırıp bir cevap dönüyor. Kullanıcı Cevabın doğru yada yanlış olup olmadığını ve  doğrusunu bildirebiliyor.

* Bu projenin özelliği ne peki. Yukardaki girizgahdan anlayabileceğiniz gibi çok zor bir  problemi çözdük  gibi bir iddiamız yok. Bu projenin ana özelliği klasik yaklaşımın dışında bir çözüm getirmesi
Klasik yaklaşımda şöyle olursa nasıl yaparım böyle olursa nasıl yaparım diye kurlallar silsilesi kurgulamanız lazım.  Hatta karşımıza kurguladığımız hiç bir kurala uymayan bir kelime çıkarsa.
 if kelime BU ise kök ŞU dur.  
demek zorunda kalıyorsunuz.

Modern yaklaşımlarda Olabildiğince çok veri bularak , Bir birini takip eden bir yapının diziliminden örüntüler çıkarıp istenen sonuca ulaşılmaya çalışılır. Biz bu projede bunu yapmaya çalıştık. Verimizi sağlıklı bir şekilde büyütebilirsek, modelin  başarısı artacağını umuyoruz.

* Bir başka büyük özelliği etkileşimli bir şekilde sunuluyor olması.  Günümüzde Türkçede Doğal Dil İşleme üzerine çalışma yapacak kişin, ilk toslayacağı duvar, elde hazırda verinin olmayışıdır. Sağ olsunlar Yıldız Üniversitesinden Kemik gurubunun yıllar önce yaptıkları dışında açık şekilde ulaşılabilir bir veri malesef yok. Bu çalışmayla gönüllülerin girdiği yeni kelimeler ve düzeltmelerle çok daha geniş bir verisetine ulaşabilme imkanını sunuyor.

Bu proje bir rol model olarak düşünülüp çok daha kompleks DDİ ( NLP ) problemleri için çözüm ve veriseti toplama sistemleri düşünülebilir.

Elbette bunu özel sektörde çalışan ben ve Master tezini vermeye uğraşan Yavuz tek başımıza yapamayız. Kullananlar olması lazım. Kullanıcaların yazdıklarının toparlanıp ayıklanması lazım. Sistemin yeniden eğitilmesi lazım. Epey bir emek gerekiyor.  Hatta bence bu bu tip bir proje ve elbette daha gelişmişleri, Akademik olarak sahiplenilmesi gereken projelerden.  Biz projeyi çalıştırdık. Kodumuzuda deeplearningturkiye  gurubunun github hesabında  yayınladık

github.com/deeplearningturkiye/kelime_kok_ayirici

Bundan sonra Proje sahiplerini bekliyor.

Derin Öğrenme Kısmı:


Gelelim işin teknik kısmına Modelimiz Seq2Seq denen yapıda bir ağ.  Keras kullanıldı. Kelimeler harf bazlı kodlandı. Harf çeşit sayımız 34. Yani bir harfi 34 uzunluğunda vektör olarak kodluyoruz. Maksimum kelime uzunluğu eldeki veri setine göre 22 olarak belirlendi.
RNN ağ katmanı veriyi zaman bazında istiyor. Bizim durumumuzda kelime uzunluğu 22 olduğundan
22 seferde  34 uzunluklu vektörler. Ağın çıkışıda  aynı şekilde kodlanmış olarak sadece Kök kımı üretiliyor.

Ağın genel yapısına bakalım


çok sade bir çoklu girişden çoklu çıkış -seq2seq-  üreten RNN li bir model . Fazladan diyebileceğimiz  sadece başta Dikkat - Attention - kısmı var. Giriş deki verilerin önem derecesini öğrenmesi için bir YSA katmanı yerleştiriyoruz ve katmanın çıkışını veri için bir önek katsayısı olarak kullanıyoruz.

Modeli sade tuttuk çünkü eğitim eğrisi gayet güzel test verisi başarısıda epey yüksek.



Elbette Verilerin çoğalması ile Modelede ilaveler gerekebilir. Kodda kerasın çeşitli callback fonksiyonları kullanıldı. Onlardanda bahsedelim.

  • EarlyStopping : Eğitim esnasında takip ettiğiniz  değerde belirleyeceğiniz adım -epoch - boyunca iyileşme yoksa eğitim veridiğiniz adım sayısından önce durduruluyor. Bizim kodumuzda 9 adım boyunca test verisi başarımında bir iyileşme olmuyorsa duryor.
  • ReduceLROnPlateau : Eğitim esnasında takip ettiğiniz  değerde belirleyeceğiniz adım -epoch - boyunca iyileşme yoksa Öğrenme hızını sizin belirleyeceğiniz bir katsayıyla çarparak küçültüyor. Bizim kodumuzda 2 adım boyunca test verisi başarımında bir iyileşme olmuyorsa Öğrenme hızı 0.5 çarpılarak yarıya indiriliyor.
  • ModelCheckpoint : Eğitim esnasında her adım sonunda belirleyeceğiniz şartlara göre modelin komple yada sadece ağırlıklarının kaydedilmesi işini yapar. Bizim kodumuzda test verisi başarım değerinde bir yükselme olmuşsa kaydediyor.
  • CSVLogger : Eğitim esnasında her adım sonunda , hem eğitim hem test verisi için , Hata değeri - loss - başarım değeri - acc - . Ve  öğrenme hızı - learning rate -  değerlerini kaydeder.

Bizim anlatacaklarımız bu kadar. Bayda uzamız buraya kadar sabırla okuğunuz için teşekkürler . Her türlü görüş ve önerilerinizi bekleriz.

Perşembe, Mart 15, 2018

Sesim nasıl görünüyor ?


Fırsat buldukça Kaggle daki yarışmalara bakıyoruz. Pek çok alanda verilerle uğraşabilme imkanı veriyor. Geçenlerde Kaggle da Ses tanıma üzerine bir yarışma açıldı.
TensorFlow Speech Recognition Challenge
Binlerce farklı kişi tarafından seslendirilmiş  30 kelimelik 1 saniye uzunluğunda bir veriseti.  65.000 kayıt var. Seçilmiş on kelime
yes, no, up, down, left, right, on, off, stop, go
ve bu kelimelerin dışındaki kelimelere - unknown - bilinmiyor. Veya sessizlik yada konuşma dışı seslere - silence - sessizlik  ilavesi ile  12 sınıflı bir sınıflandırma problemi olarak verilmişti.

Klasik spektrogram dönüşümleri ve arkasına evrişimli sinir ağları ile sınıflandırma işlemleri yapılıyordu bizde öyle yaptık ilk etapta. Yarışma sonunda 0.82579 lik  bir  başarıya ancak ulaşa bildik yarışmanın birincisinin başarısı 0.91060. pekde parlak bir sonuç değil  1315 katılımcının içinde 441. olabilmişiz. Neyse asıl konumuz bu değil.

Hazır elimizde veri varken ses verisini poincare plot  metoduyla bir görüntüye dönüştürsek ve üzerinde (CNN ) Evrişimli Sinir Ağı denesek diye bir çalışma yaptık.  Hatırlarsanız bu konuda benim büyük bir umudum var. Bir çalışmaya başlamıştım ama devam edememişdim.
Poincare Plot Feature Extraction
Ses için öznitelik çıkarma yerine doğrudan ölçeklendirip renkli bir görüntüye çevirmeyi denedik.

Yukarda 'two'  ve 'stop' kelimeleri için üretilmiş resimlerden örnekler görüyorsunuz.
Sonuçlar hiçde iyi çıkmadı malesef. Üzerinde çalışmak gerekiyor elbette. Ama estetik ve fraktalvari grafiklerde çıkmıştı. Kaybolup gitmesindedik ve koda döküp yayınladık.
github.com/birolkuyumcu/sound2image
 sound2img.py ;  ses dosyasını okuyor ve rastgele belli büyüklükteki - kodda 4096 -  parçalarını seçip görüntüye dönüştürüyor ve png formatında kaydediyor. Mesela en üstte gördüğünüz resim  "sesim nasıl görünüyor" sesinin tamamının  resme dönüştürülmüş hali.

play_sound_with_imgs ;  ses dosyasını okuyor. Bir taraftan ses çalınırken diğer taraftan  çalınan kısmıda görüntüye dönüştürüp ekranda gösteriliyor.



mesala yukardakiler Çetin Akdenizin bağlamayla çaldığı Şeyh Şamil ezgisinden.


Birilerinin işine yaraması umuduyla. Her türlü görüş ve önerilerinizi bekleriz.

Perşembe, Mart 08, 2018

Bir Yapay Zeka etkinliği



Dün Yapay Zeka ve Makine Öğrenmesi Meetup gurubunun etkinliğine katıldık. Öncelikle emeği geçenleri tebrik etmek lazım.  Böyle önemli konularda insanları bir araya getirmek çok önemli. Hele birde bu vesileyle birlikte bir şeyler yapmaya başlarsa...

Etkinlik TOBB üniversitesindeydi. Yerin bizim nezdimizde ayrı bir yeri var. Yıllar önce 2010 yılında ben ve Ahmet Kakıcı TOBB üniversitesinde bir sınıfda Yapay Sinir Ağları konusunda sunum yapmıştık.
Yazılım Atölyesi 2 ( Handwritten Digit Recognation ) 

TTGV den gelenlerin ufak bir konuşması oldu. Ideaport tan bahsettiler. Yapay Zeka işleri için çok önemli olan ekosistemin oluşması konusunda uğraş vereceklerinden bahsettiler. Belkide konuşmanın kısalığından, neler yapabileceklerinden çokda anlatmadılar.
İletişime geçilmesi istendi
etkilesim.ideaport.org.tr/
Bence duyrularının yayılabilmesi için uğraşmaları lazım. Yaptıkları çok güzel çalışmalar etkinlikler oluyor ama bizzat ağlarında değilseniz haberiniz olmuyor.
mesela bu vesile olmasa


TTGV kıvılcımdaki bu etkinlikten haberim olmayacaktı...

Programdaki asıl konuşmayı Prof. H. Altay Güvenir hoca yaptı. "Tıp Alanında Makine Öğrenmesi Uygulamalarından Örnekler " başlıklı konuşmasında  çeşitli Tıbbi problemler için yaptıkları çalışmalardan bahsettiler. Başlıklar şöyleydi ;
  • Kalp işaretlerinden ritim bozukluğu tanısı koymanın öğrenilmesi. 
  • Dermotolojide Erythemato-Squamous hastalığının türünün belirlenmesi. 
  • Mide kanserlerinin (gastric carcinoma) derecesinin belirlenmesi. 
  • Sıralama öğrenme. Tüp bebek tedavisinde başarı şansının tahmin edilmesi ve uygun tedavinin önerilmesi. 
  • Kalpte Artial Fibrilasyon riskini etkileyen faktörlerin belirlenmesi. 
  • Hasta kayıtlarının güvenliğini koruyarak makine öğrenmesi uygulamaları.

Akılda kalan  şey  1997 de geliştirilmiş bir metod var.  Voting Fetures Interval

differential diagnosis of erythemato-squamous diseases using voting feature

hatta wekaya da eklenmiş metod olarak.  Ama devamı gelmemiş malesef. 

Yukarda bahsettiğimiz eko sistemin  önemi büyük, yapılan çalışmaların serpilip büyüye bilmesi için pek çok faktör var.  Bizzat yaşayarak da görmüşlüğümüz var.  Yapay Zeka Tıbbın hizmetinde diye bir dizi yazı yazmıştım  ( 1, 2,3,4,5 )  ilkini 2008 de yazmışım. Malesef öyle yada böyle filizlenen nadir çalışmalarda diğer faktörlerin - finans, otorite, pazarlama vs... -  yokluğundan  heba olup gidiyor.

Ideaportta ;
2018 yılı için tematik teknoloji alanı olarak yapay zekayı ve belirlenen bu teknolojik alanın kesişimlerinin inceleneceği uygulama sahası olarak da sağlık sanayini belirledik.
denmiş.  İnşallah bir şeylerin değişmesine vesile olur...

Pazartesi, Ocak 22, 2018

Bir derin öğrenme deneyi ( dropout ve batch normalization )

Derin öğrenme artık hemen her alanda kullanılmaya başladı. Popüler oldular çünkü yapay öğrenme algoritmalarından en güçlüsü olduklarını kanıtladılar. Buraya şöyle bir not düşeyim güçlü olması her zaman en doğru çözüm olmasını gerektirmiyor. Neyse konumuza dönelim.  Gerçek bir uygulamaya başlayan insanların hemen farkına varacağı tuhaf bir durumu var. Ağ yapısının bir standardı yok. Çeşitli uygulamalar için başarılı olmuş modeller var elbette.  Lakin "benim şöyle bir problemim var buna en UYGUN ağ yapısı nedir ?"  sorusunun  bir cevabı yok.
Problem, ağın sadece yapısında değil. Standart bir ağ yapısıda kullansanız ;
  • bazı katmanların varlığı yada yokluğu,  ( batchnormalization, dropout, pooling,...)
  • bazı katmanların çeşitleri ( relu , elu,.... )
  • hiper parmetrelerin değerleri. ( filtre büyüklükleri, sayıları , ... )
  • Ağ parameterelerinin başlangıç değer atama metodları ( gaussian , xaiver,... )
  • vs ..
gibi pek çok konuda belirsizlikler var. Bu gibi belirsizlikler alanı  tecrübi yani deneysel hale getiriyor.
Lafı çok dolandırmadan devam edelim. Geçen hafta sonu bizde gpu nun boşkalmasından istifade bir deney yapalım istedik.

Deneyimizin konusu Droput ve BatchNormalization denen  katmanlar hakkında.
Kısaca bahsedelim;


Dropout Katmanı  ; Ağ içindeki bazı bağlantıların kaldırılmasıyla  eğitim performansı artacağı varsayılıyor.  Dropout katmanına  0 dan büyük 1 den küçük bir oran veriyorsunuz. Eğitim esnasında bu oran miktarındaki bağlantıyı rastgele kapatıyor.

Batch Normalization ;  Ara Normalizasyon diyeceğiz. Normalde ağın girişini ve çıkışını başlangıçda normalizasyon işlemine sokmanız zaten gerekiyor. Ama ağın içinde işlemler sonucunda da veri dağılımı değişebiliyor. Bu katmanda ağın katmanları arasındaki geçişde verileri normalize ediyor. Olumlu etkilediği söyleniyor.
Deneyimiz için cifar 100 veri setini seçiyoruz. 
bakınız 
www.cs.toronto.edu/~kriz/cifar.html

32x32 lik renkli görüntülarin 100 sınıf için sınıflandırılmasını gerektiren bir veri seti.
Ağ yapısı olarakda VGG benzeri bir ağ yapısı kullanacağız. Şöyle;


 Deneyimiz de  bu ağ yapısında dropout katmanına  sırasıyla  [0.1,0.2,0.3,0.4,0.5] değerlerini vereceğiz ve Bunu hem ara normalizasyon  - Batch Normalization - katmanı varken hemde yokken   deyeceğiz. Sonuçlara bakacağız. Yani Toplamda  5x2 = 10 defa cifar 100 verisi için ağı eğiteceğiz.
  • Ağı eğitmek için maksimum epoch değeri olarak 250 yi seçdik. 
  • Erken durma - Early Stopping - işleminide koyduk. 13 kez Test başarımında - validation acccuracy - bir iyileşme olmuyorsa eğitim sonlandırılıyor.
  • Öğrenme hızınıda Test Başarımına  bağladık. 3 epoch boyunca  Test başarımında bir düşme olmuyorsa öğrenme hızımızı yarıya düşürüyoruz.
  • optimzasyon algoritması için "adam" kullandık
  • batch size : 128
  •  loss='categorical_crossentropy' 
  •  metrics=["accuracy"]
Ara Normalizasyon  olmaksızın sonuçlar


Ara Normalizasyonlu sonuçlar


başlıkların anlamlarını verelim
  • 'Dropout' ; dropout oranı 
  • 'MaxAccuracy' ; Eğitim esnasında ulaşılan maksimum Başarı değeri 
  • 'MaxValAccuracy' ; Test verisiyle ulaşılan maksimum Başarı değeri 
  • 'MinLoss' ;   Eğitim esnasında ulaşılan minimum Hata değeri 
  • 'MinValLoss' ; Test verisiyle ulaşılan minimum Hata değeri
 Başarı değerinin büyük hata değerin küçük olması daha iyi. Problemimin sınıflandırma olduğundan başarı değeri daha önemlidir. Başarı değerininde Test için olan değeri daha anlamlıdır. Ağ yapıları çok güçlü olduklarından veri setiniz büyük bile olsa ezbere kayabilmekdedirler. Tablolarda en iyi değerleri kırmızı olarak yazdırdık.

İlk tabloda gördüğümüz gibi dropout oranı arttıkça Eğitim başarısı  düşüyor. Fakat 0.2 ye kadar Test verisi başarısını artırıyor. 

İki tabloyu karşılaştırdığımızda bariz bir şekilde görüyoruz ki ara normalizasyon eğitimimizi olumlu etkilemiş

Ara normalizasyonlu tabloda  dropout oranı arttıkça Eğitim başarısı  düşüyor. Fakat 0.4'e kadar Test verisi başarısını artırıyor. 

 Ezberleyince eğitim grafiğimiz nasıl oluyor bakalım
Başarı grafiği


Hata değeri grafiği

Eğitim başarı değerimiz 0.99 sevyesine çıkmasına rağmen test  başarı değerimiz 0.45 civarında kalıyor.

deneyimizdeki en başarılı test değerine 0.4 dropout ile ulaşılmış 0.589 Ama 0.3 de ona çok yakın bir değer vermiş 0.585 aslında ralarındak fark çokda büyük değil. Eğitim başarısına bakarsak.
0.3 için 0.962
0.4 için 0.911
Bence 0.35 dropout değeri ile yeniden bir eğitim yapmak lazım.  İlla birini seçeceksen 0.3 dropout değerini seçeriz.  En başarılı sonucumuzun grafiklerinede bakalım
Başarı Grafiği





Özetlersek ;
  • Ara Normalizasyon iyi etkiliyor
  • Dropout u kullanmak lazım ama fazlası zarar 
  • En başarılı modelimiz bile 0.60 başarı sevyesine ancak geliyor başka bir ağ yapısını denemek lazım
Bizden bu kadar.  Akadamik camiadan  daha geniş deneysel çalışmalarıda bekliyoruz...

Perşembe, Ocak 18, 2018

OpenZeka MARC Mini Otonom Araç Yarışması





Duyanlarınız vardır muhakkak ,MIT de önderliğinde ABD de  Mini otonom araç yarışması düzenlenenmektedir. 
Bu yarışmanın Türkiye versiyonu ilk defa düzenleniyor.  Türkiyede bu  sorumluluğun altına OpenZeka firması girdi. OpenZeka, Türkiyede derin öğrenme farkındalığının öncülerinden olan Ferhat Kurt beyin bir girişimidir.

OpenZeka Marc
En son teknoloji ürünü sensör ve yapay zeka algoritmalarını kullanmak ve uygulama geliştirmek,
Takım çalışması ve takımlara arası etkileşim kültürünü artırmak,
Kendine güvenen ve robotik alanında ülkemizi temsil edecek genç girişimcileri yetiştirmektir.

Bu yarışmaya katılan takımlara yarışmada kullanılacak mini otonom aracın tasarımı ve yapay zeka algoritmalarının kullanımı konusunda ücretsiz eğitim verilecektir.

Open Zeka, bu yarışmayla yakın gelecekte hayatın her alanında yer bulacak otonom sistemleri tasarlama ve algoritma geliştirme seviyesini lise düzeyine indirerek ülkemizde teknoloji firmalarının ihtiyaç duyacağı otonom sistemleri geliştirebilen insan kaynağını oluşmasına katkı sağlamayı hedeflemektedir.
diye  anlatılmış etkinliğin web sayfasında. Bizcede Bu yarışma,Yapay Zeka ve uygulamaları konusunda bir sosyal sorumluluk projesidir.


Etkinlik kapsamında verilecek eğitimler için elimizden geldiğince yardımcı olmaya çalıştık.

Etkinlik kapsamında
  • ROS, 
  • kontrol teorisi
  • lidardan veri okuma
  • lidar verisiyle duvarı takip
  • Kameradan veri okuma 
  • Renk Filtreleme 
  • Duba takibi ( Renk  Filtreleme )
  • Parkur ve joyistik kaydı
  • Kayıtı kulanarak Derin Öğreneme Modeli Eğitimi
  • Eğitilmiş Model ile aracın otonom olarak parkurda hareket etmesi
Anlatıldı. Bizde  OpenCv anlattık ve Derin Öğrenme modeli için veri seti toplama, eğitme ve eğitilmiş modelin kullanımı konusunda yardımcı olduk. Pek çok ilgili bilgili insanlarla tanışıp, konuşmakda ayrıca mutlu etti bizi.

Yarışmalar önümüzdeki ay başlayacağını burdan duyurmuş olalım.

Yarışmanın ülkemiz açısından önemi büyük,  pek çok kesimde bilgi birikimi ve tecrübe kazanma vesilesi olacak bir etkinlik.   Bu yüzden uzun ömrülü bir etkinlik olmasını arzu ediyoruz.  Yapay Zeka konusunda  ilgili herkesinde destek olmasını canı gönülden istiyoruz.

Salı, Ocak 16, 2018

2017 de neler yaptık

2018 in ilk yazısı olarak geçen sene neler yaptığımıza dair bir yazıyla başlamak istiyorum.  Öncelikle blogdan başlayalım.

Blog da yine uygulamalı ve pratik örnekler vermeye çalıştım. Yazılarımızın pek çoğu Derin öğrenme ile ilgiliydi.  Derin Öğrenme ile ilgili pek çok kütüphane ortaya çıkdı. Avantajlar , dezavatajları neler, Hangisini tercih etmek lazım ? gibi sorulara cevap niteliğinde  yazılar yazdık


Özetle Elbette Caffede kullanıyoruz ama tercihimizi Keras dan yana yaptık.  Bu yüzden  Caffenin yanı sıra bu yıl Kerası da kullanmaya ve öğrendiklerimi anlatmaya başladım
 ilki temel açıklamalar hakkında bir giriş yazısı ikincide LSTM anlatılıyor ve zaman serisi ile bir uygulama yazıyoruz.

 
Semantik bölütleme bilgisayarlı görü ile ilgili autoencoder denen bir Ağ tipiyle Uydu görüntüsünden bina bulma işlemi yapdık. 



Duygu analizi diye geçen yazıdan Doğal dil işlemenin bir uygulamasını yapıyoruz.

Caffe ilede ilgili iki yazımız var
 İlkinde FCN ağ yapısında hazır bir caffe modelinin kullanımıyla semantik bölütleme yapılıyor.
Ağ yapısından bahsediliyor.

İkicisi aslında Caffe modellerini görselleştirip hangi katmanda neler oluyor görebilmemizi sağlayan bir uygulama.





 Açık kaynak kodlu bir proje olarak paylaşıyoruz.


 Elbette OpenCv hakkında da yazılar yazdık
 Yazılar  OpenCv nin pythondan kullanımı ve Derin Öğrenme modellerinin opencv içinden çağrılmasıyla ilgili.


Bu rda bahsettiklerimiz dışında da yazılarımız var. Bu senede klasik olan şey malesef  yine ilgi çok tepki yok  durumunun devam ediyor olması. Ben yinede hatırlatmış olayım her türlü görüş önerilerinizi bekleriz.