Text Classification

โจทย์ส่วนใหญ่ของ NLP นั้นสามารถแก้ได้ด้วยการสร้างเครื่องจำแนกประเภทข้อความ (Text Classifier) ซึ่งมี machine learning algorithm เป็นแกนหลัก (สามารถศึกษาพื้นฐานของ machine learning จาก module sentiment analysis) ปัจจุบันนี้คนหันมาใช้ Neural Network กันมากขึ้นโดยใช้พื้นฐานของความหมายของคำที่กำหนดโดยบริบทและการใช้ภาษา (Distributed semantic model หรือ distributional semantic model)ในคลังข้อมูลเป็นหลัก

Logistic regression (MaxEnt)

Logistic Regression หรือ Maximum Entropy Model (MaxEnt) นับว่าเป็น machine learning model ที่สำคัญที่สุด เพราะไม่ต้องปรับจูนเยอะและสามารถพัฒนามาประยุกต์ใช้ได้อย่างรวดเร็ว และมีประสิทธิภาพพอสมควรโดยไม่ต้องลงแรงมาก

MaxEnt โดยใช้ sklearn (Python)

scikit-learn เป็น Python package ที่มีฟังก์ชันและโมเดล machine learning ต่างๆ ไว้เพรียบพร้อม และทันสมัยอัพเดทตลอด คนที่ต้องใช้ NLP หรือ Machine learning ทุกคนควรจะเรียนรู้ไว้เป็นพื้นฐานในการทดสอบการสร้าง classifier

วิธีการฝึกโมเดลด้วย scikit-learn
Sparse features and sparse matrix
Data structure: numpy array and dense matrix
Data structure: Sparse Matrix