Home > Publication & Database

CMRI Publication

เอกสารเผยแพร่

โครงการเทคโนโลยีประมวลภาษาธรรมชาติสำหรับข้อความการเงินภาษาไทย เฟส 1: โมเดลภาษา และการรู้จำนามเฉพาะ

Can Udomcharoenchaikit, Ph.D. , Chayapat Uthayopas , Sarana Nutanong, Ph.D.

05 Aug 2024
SHARE

Abstract

สถาบันวิทยสิริเมธีภายใต้การสนับสนุนของกองทุนส่งเสริมการพัฒนาตลาดทุน (CMDF) ได้สร้างชุดข้อมูลและเทคโนโลยีสำหรับเป็นโครงสร้างพื้นฐานในการเทคโนโลยีประมวลผลภาษาธรรมชาติสำหรับข้อความด้านการเงินภาษาไทย ซึ่งจะประกอบด้วย:

(1) โมเดลภาษา (Language Model) ที่สร้างมาเพื่อวิเคราะห์ข้อมูลทางการเงินโดยเฉพาะ ซึ่งโมเดลภาษาเป็นส่วนประกอบหลักของแทบทุกเทคนิคสมัยใหม่ในการทำเทคโนโลยีประมวลผลภาษาธรรมชาติ โดยโมเดลภาษาจะแปลงข้อความภาษามนุษย์ให้อยู่ในรูปแบบของเวกเตอร์ที่สามารถนำไปประมวลต่อด้วยคอมพิวเตอร์ได้ 

(2) โมเดลและชุดข้อมูลรู้จำชื่อเฉพาะ (Named-Entity Recognition) เพื่อนำไปสร้างโมเดลที่สามารถดึงข้อมูลเกี่ยวกับบุคคล บริษัทและองค์กร หน่วยงานต่าง ๆ ในตลาดทุนได้ นอกจากนี้ชุดข้อมูลรู้จำชื่อเฉพาะสามารถต่อยอดเพื่อไปสร้างชุดข้อมูลอื่นเช่น ชุดข้อมูลสำหรับการสกัดหาความสัมพันธ์ในข้อความ (Relation Extraction) ซึ่งสามารถนำไปสร้างโมเดลที่ใช้ระบุความสัมพันธ์ระหว่างบุคคล องค์กร หรือสินทรัพย์ต่าง ๆ ได้ เช่น (Entity1: ก.ล.ต., relation: สั่งฟ้อง, Entity2: บริษัท บิทคับ ออนไลน์) นอกจากนี้ ยังสามารถไปต่อยอดเป็นชุดข้อมูลเชื่อมโยงชื่อเฉพาะ (Entity Linking) ที่สามารถระบุได้ว่าชื่อเฉพาะเชื่อมกับข้อมูลใดในฐานข้อมูลคลังความรู้เช่น เวลาเห็นคำว่า GLOBAL โมเดลที่สร้างจากชุดข้อมูลนี้จะสามารถแยกแยะได้ว่าข้อความนี้กำลังพูดถึง บริษัท สยามโกลบอลเฮ้าส์ จำกัด (มหาชน) และสามารถเชื่อมโยงไปยังข้อมูลเกี่ยวกับบริษัทนี้ในฐานข้อมูลตลาดหลักทรัพย์ได้

(3) โมเดลและชุดข้อมูลจำแนกอารมณ์จากข้อความตามเป้าหมาย (Target-based Sentiment Analysis) ข่าวการเงินในหลายครั้งมักจะประกอบด้วยข้อมูลที่เกี่ยวข้องกับหลายบริษัท Target-based Sentiment Analysis ช่วยให้เราสามารถแยกแยะและวิเคราะห์ความรู้สึกที่มีต่อเป้าหมายเฉพาะเจาะจง เช่น บริษัทหนึ่ง ๆ หรือหุ้นตัวหนึ่ง โดยไม่ถูกกวนด้วยข้อมูลอื่น ๆ ที่ไม่เกี่ยวข้อง