Information Extraction

NLP เป็นเทคนิคที่สำคัญในการสกัดความรู้ออกจากข้อมูลที่เป็นข้อความที่มีขนาดใหญ่เกินที่คนจะสามารถอ่านเองได้หมด ข้อมูลที่สกัดนี้มักจะถูกจัดอยู่ในรูปแบบที่เป็นมาตรฐานที่สามารถนำไปวิเคราะห์ต่อไปได้

Named-Entity Recognition (NER)

NER คือการดึงข้อมูลที่เราอยากได้ออกจากข้อความ เหมือนกับการให้เครื่องทา highlight ส่วนของข้อความที่เราสนใจโดยอัตโนมัติ

Sequence Labeling model

Sequence labeling model เป็นโมเดลประเภทหนึ่งที่สามารถดึงส่วนข้อความที่สนใจออกจากข้อความหลัก โมเดล Sequece labeling ที่เป็นที่นิยมคือ Conditional Random Fields (CRF) และ Recurrent Neural Network

Conditional Random Fields

Conditional Random Fields (CRF) เป็น sequence model ที่ได้รับความนิยมมากที่สุดเนื่องจากทำงานได้ดี train ได้โดยใช้เวลาไม่มาก ไม่ต้อง tune hyperparamters ให้ยุ่งยาก คนทำ NLP ทุกคนจำเป็นต้องใช้ model นี้ให้คล่อง