SCB 10X และ SCBX ร่วมมือกับ Stanford CRFM เปิดตัว ThaiExam Leaderboard HELM: ช่องทางใหม่ในการประเมินโมเดลภาษาไทยบนแพลตฟอร์มระดับโลกของ HELM


         กรุงเทพฯประเทศไทย – วันที่ 8 ตุลาคม 2567  SCB 10X และ SCBX ร่วมมือกับ ศูนย์วิจัยสแตนฟอร์ดด้านโมเดลโครงสร้างพื้นฐาน (Stanford CRFM)   เปิดตัว ThaiExam leaderboard ซึ่งเป็นมาตรฐานที่ออกแบบมาเพื่อประเมินโมเดลภาษาขนาดใหญ่ (LLM) ในบริบทภาษาไทย โดยใช้กรอบการประเมินของ HELM (Holistic Evaluation of Language Models) ผู้นำด้านการออกแบบการประเมินโมเดลภาษาขนาดใหญ่ โดยความร่วมมือในครั้งนี้ช่วยให้การประเมินโมเดลครอบคลุมมากขึ้นโดยเน้นภาษาไทยเป็นหลัก


         ThaiExam Leaderboard ออกแบบมาเพื่อประเมินโมเดลภาษาไทยขนาดใหญ่ ซึ่งได้มาจากการสอบวัดความรู้เชิงวิชาการระดับชั้นมัธยมศึกษาและการสอบวิชาชีพทางการเงิน เช่น ONET, TGAT, A-Level และการสอบผู้แนะนำการลงทุน (IC) เพื่อประเมินโมเดลภาษาไทยชั้นนำต่างๆ รวมถึง ไต้ฝุ่น (Typhoon) โดยให้ความโปร่งใสอย่างเต็มรูปแบบตั้งแต่การตั้งคำถาม หรือ โจทย์โดยโมเดลสาธารณะที่ใช้กรอบการประเมินของ HELM โครงการนี้เป็นการเปิดตัว leaderboard ในรูปแบบสาธารณะ และเป็นครั้งแรกที่ออกแบบมาโดยเฉพาะสำหรับการประเมินภาษาไทย มีวัตถุประสงค์เพื่อขับเคลื่อนการพัฒนาและการประเมินโมเดลภาษาไทย


         นายกสิมะ ธารพิพิธชัย Head of AI Strategy บริษัท เอสซีบี เท็นเอกซ์ จำกัด (SCB 10X) กล่าวว่า "ความร่วมมือกับ Stanford CRFM ในครั้งนี้ตอกย้ำถึงความมุ่งมั่นของเราในการพัฒนา NLP ภาษาไทยและกำหนดมาตรฐานสำหรับการประเมินโมเดลภาษาหลายภาษาเรามั่นใจเป็นอย่างยิ่งว่า ThaiExam Leaderboard จะสามารถกระตุ้นการพัฒนาโมเดลภาษาไทยและส่งเสริมความร่วมมือในชุมชนวิจัย AI เพื่อสนับสนุนภาษาเฉพาะถิ่นที่ไม่ได้เป็นภาษาสากลและเป็นภาษาที่มีข้อมูลจำกัด"


แก้ไขช่องว่างในการประเมินโมเดลภาษาที่หลากหลายโดยเฉพาะภาษาที่มีข้อมูลจำกัด 

         แม้ว่าโมเดลขั้นสูง เช่น GPT-4 และ Claude 3 จะมีความสามารถหลายภาษา แต่กรอบการประเมินจะมุ่งเน้นการประเมินเป็นภาษาอังกฤษส่วนใหญ่ อย่างไรก็ตามThaiExam leaderboard จะเป็นกรอบการประเมินของ HELM ซึ่งมีวัตถุประสงค์เพื่อเติมเต็มช่องว่างที่สำคัญ กล่าวคือมอบระบบการประเมินที่ถูกปรับแต่งสำหรับภาษาไทยโดยเฉพาะ ซึ่งเป็นภาษาที่ซับซ้อนที่มีลักษณะทางภาษาที่ไม่เหมือนใคร ผ่านวิธีการที่เข้มงวดของ HELM นักวิจัยและนักพัฒนาสามารถประเมินประสิทธิภาพของโมเดลในภาษาไทยได้อย่างแม่นยำและโปร่งใส ด้วยข้อความภาษาไทยดั้งเดิมและชุดการประเมินที่ครอบคลุม โครงการนี้เสนอมาตรฐานที่จำเป็นสำหรับการทำความเข้าใจว่าโมเดลภาษาทำงานได้ดีแค่ไหนในบริบทภาษาไทย

 

ผลลัพธ์จากการประเมินโมเดลบน ThaiExam Leaderboard

         ThaiExam Leaderboard ได้ประเมิน โมเดลภาษาไทยที่โดดเด่น 34 โมเดล  โดย หนึ่งในนั้นมีโมเดลของ Typhoon ซึ่งผลจากการประเมินระบุว่า Typhoon 1.5X Instruct (70B) มีประสิทธิภาพเหนือกว่าโมเดลปิด เช่น GPT-4 Turbo และ Claude 3 Sonnet ที่เน้นความสามารถด้านภาษาไทยที่แข็งแกร่งด้วยความแม่นยำ 61.7% แม้แต่โมเดล Typhoon ขนาดเล็ก (8B) ก็ยังเหนือกว่า GPT-3.5 Turbo ในขณะที่โมเดล เช่น Claude 3 Haiku และ Llama 3 (70B) ก็แสดงผลลัพธ์ที่น่าสนใจ แม้จะไม่ได้รับการฝึกอบรมโดยเฉพาะสำหรับภาษาไทย ผลลัพธ์เหล่านี้เน้นย้ำถึงพลังของการปรับแต่งภาษาไทยที่เน้นภาษาไทยในการเพิ่มประสิทธิภาพภาษาท้องถิ่น


ส่งเสริม AI ภาษาไทยผ่านความร่วมมือระดับโลกและระดับภูมิภาค

         SCB 10X มุ่งมั่นที่จะส่งเสริมนวัตกรรม AI ผ่านการร่วมมือเชิงกลยุทธ์กับบริษัท AI และสถาบันชั้นนำทั่วเอเชียตะวันออกเฉียงใต้และทั่วโลก ด้วยการทำงานอย่างใกล้ชิดกับผู้เล่น AI ที่โดดเด่น SCB 10X ใช้ประโยชน์จากความเชี่ยวชาญร่วมกันเพื่อขับเคลื่อนนวัตกรรมในระบบนิเวศ LLM ของไทย ซึ่งยกระดับคุณภาพและความเกี่ยวข้องของโซลูชัน AI ที่ปรับแต่งมาโดยเฉพาะสำหรับตลาดเอเชียตะวันออกเฉียงใต้ โครงการที่โดดเด่น ได้แก่ การเปิดตัว ThaiLLM Leaderboard” ร่วมกับ VISTEC และ SEACrowd Project ซึ่งประเมิน LLM โดยใช้ 10 ชุดข้อมูลในงานหลักเพื่อส่งเสริมการเติบโตของงานวิจัย NLP ภาษาไทย  นอกจากนี้ SCB 10X ยังร่วมมือกับสถาบันระหว่างประเทศ เช่น มหาวิทยาลัยเคมบริดจ์ (University of Cambridge) และมหาวิทยาลัยทิงหัว (Tsinghua University) เกี่ยวกับการตรวจจับภาพลวงตาหลายรูปแบบด้วย "CrossCheckGPT" และกับมหาวิทยาลัยมหิดลเพื่อใช้ประโยชน์จาก AI สำหรับการพัฒนาทั้งส่วนบุคคลและระดับชาติ อีกทั้ง SCB 10X ยังเป็นผู้มีส่วนร่วมในโครงการ เช่น SEA-LION v2 และ Project SEALD ร่วมกับ AI Singapore (AISG)   เพื่อส่งเสริมโมเดลภาษาสำหรับภูมิภาค ความพยายามเหล่านี้ทำให้ประเทศไทยมีบทบาทอย่างแข็งขันในการพัฒนาเทคโนโลยี AI ทั่วโลก

>

เกี่ยวกับ HELM และ Typhoon

         HELM มีชื่อเสียงในด้านออกแบบการประเมินที่ครอบคลุมและโปร่งใสสำหรับโมเดลภาษาขนาดใหญ่ ซึ่งเสนอแพลตฟอร์มที่เชื่อถือได้สำหรับการสร้างมาตรฐานโมเดล ด้วยการเพิ่ม ThaiExam เข้าสู่ leaderboard HELM ไม่เพียงแต่เปิดโอกาสใหม่สำหรับการประเมินโมเดลที่เน้นภาษาไทยเท่านั้น แต่ยังเพิ่มชื่อเสียงในฐานะผู้กำหนดมาตรฐานสำหรับการประเมินความสามารถหลายภาษาของ LLM ทั่วโลก


         โมเดล Typhoon ขับเคลื่อนโดย SCB 10X และ SCBX ซึ่งได้รับการปรับให้เหมาะสำหรับงานภาษาไทย เช่น การแปล การสรุป และการวิเคราะห์ความรู้สึก ได้มีบทบาทสำคัญในการพัฒนา NLP ภาษาไทย โมเดล Typhoon-1.5X มอบผลลัพธ์ที่ยอดเยี่ยมบน ThaiExam และมาตรฐานภาษาอื่นๆ


ศึกษาข้อมูลเพิ่มเติมเกี่ยวกับ ThaiExam Leaderboard บน HELM และผลการประเมินโมลเดลภาษาได้ที่   [Link]