Natural Language Process



SENTIMENT ANALYSIS (DUYGU ANALİZİ)

Merhaba arkadaşlar,

Bugün ki konumuz python ile yorumların olumlu ya da olumsuz olduğunu anlayan bir model kurmak olacak. Bir e-ticaret sitesi üzerinden kullanıcıların yapmış olduğu yorumları veri seti olarak kullanacağız. Veri seti kullanıcıların ürünlere yapmış olduğu yorumlar ve yorumlara vermiş olduğu yıldızlardan oluşacak. 1 ve 2 yıldızlı yorumlar olumsuz yorum olarak, 4 ve 5 yıldızlı yorumlar olumlu yorum olarak gösterilip, 3 yıldızlı yorumlar ise veri setinden çıkartılacak.

Veri setimiz 243.497 satırdan oluşmaktadır.

Veri setini %80 train (eğitim), %20 test şeklinde ayırıyoruz.Dilersek %70 train, %30 test olarak da ayırabiliriz.

İlk olarak tokenlara ayırma işlemi gerçekleştiriyoruz. Tokenlara ayırma yaparken her yorum kelimelere ayrılacak ve her kelimeye karşılık bir sayı gelecek. Kelime haznemizde en fazla kaç tane kelime olacağını belirliyoruz. Bu sayıyı kendimiz belirliyoruz. Hiç belirtmeyebiliriz de. Ben bu sayıyı 10.000 olarak belirttim. Yani veri setimizde en çok geçen 10.000 kelimeyi tokenlara ayırmış olacağız. Bunun dışında kalan kelimeleri yok sayıyoruz.

Tokenlara ayırma işlemini keras kullanarak yaptım.




Örnek olarak 300. yoruma bakalım







Aynı yorum token olarak nasıl görünüyor ona bakalım.


Unknown Business Intelligence Specialist

Karar Destek Sistemi, Oracle İş Zekası, Business Intelligence, Obiee 11g, PlSql, R Programming, ODI, Veri madenciliği, Data Mining, Big Data, Python.

Hiç yorum yok:

Yorum Gönder