NLP เป็นเทคนิคที่สำคัญในการสกัดความรู้ออกจากข้อมูลที่เป็นข้อความที่มีขนาดใหญ่เกินที่คนจะสามารถอ่านเองได้หมด ข้อมูลที่สกัดนี้มักจะถูกจัดอยู่ในรูปแบบที่เป็นมาตรฐานที่สามารถนำไปวิเคราะห์ต่อไปได้
NER คือการดึงข้อมูลที่เราอยากได้ออกจากข้อความ เหมือนกับการให้เครื่องทา highlight ส่วนของข้อความที่เราสนใจโดยอัตโนมัติ
Sequence labeling model เป็นโมเดลประเภทหนึ่งที่สามารถดึงส่วนข้อความที่สนใจออกจากข้อความหลัก โมเดล Sequece labeling ที่เป็นที่นิยมคือ Conditional Random Fields (CRF) และ Recurrent Neural Network
Conditional Random Fields (CRF) เป็น sequence model ที่ได้รับความนิยมมากที่สุดเนื่องจากทำงานได้ดี train ได้โดยใช้เวลาไม่มาก ไม่ต้อง tune hyperparamters ให้ยุ่งยาก คนทำ NLP ทุกคนจำเป็นต้องใช้ model นี้ให้คล่อง