top of page
Search

การประเมินประสิทธิภาพของโมเดลในการตอบคำถามด้วยระบบ RAG

  • chakrit00
  • Mar 30
  • 2 min read

ในช่วงไม่กี่ปีที่ผ่านมา ระบบปัญญาประดิษฐ์ประเภทภาษา (Large Language Models: LLMs) ได้พัฒนาอย่างก้าวกระโดด โดยเฉพาะในด้านการประยุกต์ใช้งานร่วมกับกระบวนการสืบค้นข้อมูล เช่น ระบบ Retrieval-Augmented Generation (RAG) ซึ่งเป็นเทคนิคที่ผสานความสามารถในการสร้างข้อความของโมเดลเข้ากับฐานความรู้ภายนอก เพื่อให้ได้ผลลัพธ์ที่แม่นยำและมีความเกี่ยวข้องกับเนื้อหาเฉพาะด้านมากยิ่งขึ้น

อย่างไรก็ตาม ความสามารถของแต่ละโมเดลในการตอบคำถามจากระบบ RAG อาจแตกต่างกันอย่างมีนัยสำคัญ ทั้งในแง่ของความแม่นยำ ความเข้าใจในบริบท และแนวทางการอ้างอิงข้อมูลที่เหมาะสม บทความฉบับนี้จึงมีวัตถุประสงค์เพื่อประเมินและเปรียบเทียบประสิทธิภาพของโมเดล LLMs หลายรุ่นในการตอบคำถามจากระบบ RAG โดยใช้ชุดข้อมูลที่มีความเฉพาะทาง ได้แก่ เอกสารทางกฎหมายในรูปแบบ PDF


สภาพแวดล้อมและแนวทางการทดสอบ

ในการศึกษานี้ เราได้ทำการประเมินระบบ Retrieval-Augmented Generation (RAG) โดยใช้เอกสารในรูปแบบ PDF ซึ่งเนื้อหาเกี่ยวข้องกับพระราชบัญญัติประกันภัยรถจักรยานยนต์



ตัวอย่างเอกสารนำเข้า RAG
ตัวอย่างเอกสารนำเข้า RAG

โดยมีการจัดเตรียมชุดคำถาม (Test Set) ซึ่งประกอบด้วย:

  • Question: ชุดคำถามที่จัดเตรียมไว้สำหรับการทดสอบโมเดล LLM

  • Ground Truth: คำตอบที่อ้างอิงจากเนื้อหาในเอกสาร เพื่อใช้เป็นเกณฑ์เปรียบเทียบกับผลลัพธ์ที่ได้จากโมเดล



ตัวอย่างคำถามตอบสำหรับทดสอบ RAG
ตัวอย่างคำถามตอบสำหรับทดสอบ RAG

ขั้นตอนการสร้างระบบ RAG

เราดำเนินการแปลงเอกสารต้นทางให้กลายเป็นฐานความรู้ด้วยระบบ Softnix GenAI ผ่านกระบวนการสำคัญ ดังนี้:


1. สร้างบริการ (Service) ที่กำหนดคำสั่ง (Prompt Instruction) เพื่อควบคุมรูปแบบการตอบของ AI ให้ตอบคำถามในขอบเขตของ พ.ร.บ. รถจักรยานยนต์ เท่านั้น

2. ดำเนินการ Mapping หรือ Pointing เอกสารเข้าสู่ระบบฐานความรู้ เพื่อใช้เป็นข้อมูลอ้างอิงขณะโมเดลตอบคำถาม



หน้า การนำเข้าเอกสาร
หน้า การนำเข้าเอกสาร

หน้า Prompt Instruction ของ Softnix GenAI
หน้า Prompt Instruction ของ Softnix GenAI

หน้าเลือก Model ของ Softnix GenAI
หน้าเลือก Model ของ Softnix GenAI


การทดสอบเบื้องต้นด้วย GPT-4o-mini


เราเริ่มต้นการทดสอบด้วยโมเดล GPT-4o-mini เพื่อใช้เป็นเกณฑ์มาตรฐาน โดยผลลัพธ์ที่ได้มีความแม่นยำถึง 96% จากการตอบคำถามจำนวน 10 ข้อ ซึ่งนับว่าน่าสนใจอย่างยิ่ง



รายชื่อโมเดลที่เข้าร่วมการทดสอบ


ในการทดสอบครั้งนี้ เราเลือกใช้โมเดล LLM จำนวน 5 รุ่น ได้แก่:


1. GPT-4o-mini

2. Qwen2.5-7B-Instruct-Q8

3. DeepSeek-R1

4. LLaMA 3.2-Vision-11B

5. Sailor2-8B


แนวทางการประเมินผล


การให้คะแนนอยู่ในช่วง 0–5 โดยใช้ AI Agent เป็นผู้ประเมินคำตอบของแต่ละโมเดลเมื่อเปรียบเทียบกับ Ground Truth:


  • 5 คะแนน: ตอบได้ครบถ้วนและถูกต้อง

  • 3 คะแนน: ตอบบางส่วนและใกล้เคียง

  • 0 คะแนน: ตอบผิดหรือไม่สามารถตอบได้



หน้าสร้าง AI Agent Evaluate Service ใช้ในการประเมินด้วย Qwen 2.5-Coder
หน้าสร้าง AI Agent Evaluate Service ใช้ในการประเมินด้วย Qwen 2.5-Coder

ผลลัพธ์ที่ได้

จากคำถามทั้งหมด 10 ข้อ พบว่า GPT-4o-mini ให้คำตอบที่ถูกต้องถึง 8 ข้อ โดยในจำนวนนี้ 5 ข้อได้รับคะแนนเต็ม 5 และอีก 2 ข้อได้คะแนน 4


สรุปคะแนนรวมจากแต่ละโมเดลมีดังนี้:



ผลการ Record ของ Gpt-4o-mini ด้วย MLflow
ผลการ Record ของ Gpt-4o-mini ด้วย MLflow


ผลคะแนนทั้ง 10 ของของ  Gpt-4o-mini ด้วย MLflow
ผลคะแนนทั้ง 10 ของของ Gpt-4o-mini ด้วย MLflow

ซึ่งนั่นหมายความว่าผลจากการ RAG หรือดึงข้อมูลจาก Knowledge AI นั้นส่งข้อมูลมาถูกต้องครบถัวน เพียงแต่การนำข้อมูลมาตอบของแต่ละ Model มาความฉลาดมากน้อยกว่ากันเพียงใดนั่นเอง


ผลลัพธ์ที่ได้


จากคำถามทั้งหมด 10 ข้อ พบว่า Sailor2-8B ให้คำตอบที่ถูกต้องถึง 8 ข้อ โดยในจำนวนนี้ 5 ข้อได้รับคะแนนเต็ม 5 และอีก 2 ข้อได้คะแนน 4


สรุปคะแนนรวมจากแต่ละโมเดลมีดังนี้:


โมเดล

ความแม่นยำ

GPT-4o-mini

96%

Sailor2 8B

96%

LLaMA 3.2-Vision 11B

88%

Qwen2.5-7B

74%

DeepSeek R1

68%


ค่า Accuracy แต่ละ Model จาก AI Agent Evaluate Service
ค่า Accuracy แต่ละ Model จาก AI Agent Evaluate Service

วิเคราะห์ผลการทดสอบ


แม้ว่า GPT-4o-mini และ Sailor2 จะได้คะแนนเท่ากัน แต่มีกรณีศึกษาที่พบว่า Sailor2 ให้คำตอบที่ผิดพลาด เช่น การตอบคำถามเกี่ยวกับเบี้ยประกันภัยของรถจักรยานยนต์ขนาด 110 cc โดยตอบว่า 160 บาท ทั้งที่ตามตารางแล้วควรอยู่ที่ 86 บาท ซึ่งอาจเป็นผลจากการที่ข้อมูลใน RAG ไม่ได้ถูกดึงมาอย่างครบถ้วน หรือมีการอนุมานค่าขนาดเครื่องยนต์ที่ใกล้เคียงมากเกินไป



อัตราเบี้ยประกันภัย พ.ร.บ. รถจักรยานยนต์



ประเภทรถจักรยานยนต์

ขนาดเครื่องยนต์ (cc)

เบี้ยประกันภัย (บาท)

รถจักรยานยนต์ทั่วไป

ไม่เกิน 75 cc

55 บาท

รถจักรยานยนต์ทั่วไป

75 - 125 cc

86 บาท

รถจักรยานยนต์ทั่วไป

125 - 150 cc

160 บาท

รถจักรยานยนต์ทั่วไป

เกิน 150 cc

324 บาท

รถจักรยานยนต์รับจ้าง

ทุกขนาดเครื่องยนต์

324 บาท

ในกรณีของ DeepSeek R1 แม้จะได้คะแนนรวมเพียง 68% เมื่อกำหนดค่า K=5 แต่เมื่อลด K ลงเหลือ 3 กลับพบว่าคะแนนเพิ่มขึ้นเป็น 88% ซึ่งบ่งชี้ว่า DeepSeek อาจวิเคราะห์บริบทได้ดีขึ้นเมื่อได้รับข้อมูลจำนวนน้อยกว่า



สรุปผลการศึกษา


จากการประเมินประสิทธิภาพของโมเดล LLMs ทั้ง 5 รุ่นในการตอบคำถามผ่านระบบ Retrieval-Augmented Generation (RAG) พบว่าแม้บางโมเดลจะมีคะแนนโดยรวมสูงใกล้เคียงกัน เช่น GPT-4o-mini และ Sailor2 8B แต่เมื่อพิจารณารายละเอียดเชิงคุณภาพ จะพบความแตกต่างในการวิเคราะห์บริบท ความแม่นยำเชิงตัวเลข และความสามารถในการสรุปข้อมูลจากแหล่งอ้างอิงที่ให้มา


โดยเฉพาะในกรณีของ Qwen2.5-7B และ DeepSeek R1 ซึ่งมีแนวโน้มจะนำข้อมูลภายนอกมาผสมกับการอนุมานของโมเดลเอง ทำให้เกิดคำตอบที่แม้ใกล้เคียงแต่ไม่ตรงกับเนื้อหาในเอกสารอ้างอิง ขณะที่โมเดลอย่าง Sailor2 8B แม้จะมีคะแนนรวมสูง แต่ก็แสดงให้เห็นข้อจำกัดในการตีความข้อมูลบางประเด็น เช่น การใช้ตัวเลขที่ใกล้เคียงเกินไปโดยไม่คำนึงถึงขอบเขตของข้อมูลจริง


ผลการศึกษาครั้งนี้สะท้อนให้เห็นว่า ความแม่นยำของระบบ RAG มิได้ขึ้นอยู่กับขีดความสามารถของโมเดลเพียงอย่างเดียว แต่ยังขึ้นอยู่กับวิธีการจัดเตรียมข้อมูล (knowledge grounding), การกำหนดพารามิเตอร์ เช่น ค่า K ในการสืบค้น และการออกแบบ prompt ที่เหมาะสมกับบริบทของการใช้งาน


ดังนั้น ผู้พัฒนาและผู้ใช้งานระบบ AI ควรพิจารณาองค์ประกอบเหล่านี้ร่วมกัน เพื่อให้ได้ระบบตอบคำถามที่มีความน่าเชื่อถือ ถูกต้องตามข้อเท็จจริง และสามารถนำไปประยุกต์ใช้ได้อย่างมีประสิทธิภาพในบริบททางวิชาการ ธุรกิจ หรือกฎหมายอย่างแท้จริง

 
 
 

Comments

Rated 0 out of 5 stars.
No ratings yet

Add a rating
bottom of page