การประเมินประสิทธิภาพของโมเดลในการตอบคำถามด้วยระบบ RAG
- chakrit00
- Mar 30
- 2 min read
ในช่วงไม่กี่ปีที่ผ่านมา ระบบปัญญาประดิษฐ์ประเภทภาษา (Large Language Models: LLMs) ได้พัฒนาอย่างก้าวกระโดด โดยเฉพาะในด้านการประยุกต์ใช้งานร่วมกับกระบวนการสืบค้นข้อมูล เช่น ระบบ Retrieval-Augmented Generation (RAG) ซึ่งเป็นเทคนิคที่ผสานความสามารถในการสร้างข้อความของโมเดลเข้ากับฐานความรู้ภายนอก เพื่อให้ได้ผลลัพธ์ที่แม่นยำและมีความเกี่ยวข้องกับเนื้อหาเฉพาะด้านมากยิ่งขึ้น
อย่างไรก็ตาม ความสามารถของแต่ละโมเดลในการตอบคำถามจากระบบ RAG อาจแตกต่างกันอย่างมีนัยสำคัญ ทั้งในแง่ของความแม่นยำ ความเข้าใจในบริบท และแนวทางการอ้างอิงข้อมูลที่เหมาะสม บทความฉบับนี้จึงมีวัตถุประสงค์เพื่อประเมินและเปรียบเทียบประสิทธิภาพของโมเดล LLMs หลายรุ่นในการตอบคำถามจากระบบ RAG โดยใช้ชุดข้อมูลที่มีความเฉพาะทาง ได้แก่ เอกสารทางกฎหมายในรูปแบบ PDF
สภาพแวดล้อมและแนวทางการทดสอบ
ในการศึกษานี้ เราได้ทำการประเมินระบบ Retrieval-Augmented Generation (RAG) โดยใช้เอกสารในรูปแบบ PDF ซึ่งเนื้อหาเกี่ยวข้องกับพระราชบัญญัติประกันภัยรถจักรยานยนต์

โดยมีการจัดเตรียมชุดคำถาม (Test Set) ซึ่งประกอบด้วย:
Question: ชุดคำถามที่จัดเตรียมไว้สำหรับการทดสอบโมเดล LLM
Ground Truth: คำตอบที่อ้างอิงจากเนื้อหาในเอกสาร เพื่อใช้เป็นเกณฑ์เปรียบเทียบกับผลลัพธ์ที่ได้จากโมเดล

ขั้นตอนการสร้างระบบ RAG
เราดำเนินการแปลงเอกสารต้นทางให้กลายเป็นฐานความรู้ด้วยระบบ Softnix GenAI ผ่านกระบวนการสำคัญ ดังนี้:
1. สร้างบริการ (Service) ที่กำหนดคำสั่ง (Prompt Instruction) เพื่อควบคุมรูปแบบการตอบของ AI ให้ตอบคำถามในขอบเขตของ พ.ร.บ. รถจักรยานยนต์ เท่านั้น
2. ดำเนินการ Mapping หรือ Pointing เอกสารเข้าสู่ระบบฐานความรู้ เพื่อใช้เป็นข้อมูลอ้างอิงขณะโมเดลตอบคำถาม



การทดสอบเบื้องต้นด้วย GPT-4o-mini
เราเริ่มต้นการทดสอบด้วยโมเดล GPT-4o-mini เพื่อใช้เป็นเกณฑ์มาตรฐาน โดยผลลัพธ์ที่ได้มีความแม่นยำถึง 96% จากการตอบคำถามจำนวน 10 ข้อ ซึ่งนับว่าน่าสนใจอย่างยิ่ง
รายชื่อโมเดลที่เข้าร่วมการทดสอบ
ในการทดสอบครั้งนี้ เราเลือกใช้โมเดล LLM จำนวน 5 รุ่น ได้แก่:
1. GPT-4o-mini
2. Qwen2.5-7B-Instruct-Q8
3. DeepSeek-R1
4. LLaMA 3.2-Vision-11B
5. Sailor2-8B
แนวทางการประเมินผล
การให้คะแนนอยู่ในช่วง 0–5 โดยใช้ AI Agent เป็นผู้ประเมินคำตอบของแต่ละโมเดลเมื่อเปรียบเทียบกับ Ground Truth:
5 คะแนน: ตอบได้ครบถ้วนและถูกต้อง
3 คะแนน: ตอบบางส่วนและใกล้เคียง
0 คะแนน: ตอบผิดหรือไม่สามารถตอบได้

ผลลัพธ์ที่ได้
จากคำถามทั้งหมด 10 ข้อ พบว่า GPT-4o-mini ให้คำตอบที่ถูกต้องถึง 8 ข้อ โดยในจำนวนนี้ 5 ข้อได้รับคะแนนเต็ม 5 และอีก 2 ข้อได้คะแนน 4
สรุปคะแนนรวมจากแต่ละโมเดลมีดังนี้:


ซึ่งนั่นหมายความว่าผลจากการ RAG หรือดึงข้อมูลจาก Knowledge AI นั้นส่งข้อมูลมาถูกต้องครบถัวน เพียงแต่การนำข้อมูลมาตอบของแต่ละ Model มาความฉลาดมากน้อยกว่ากันเพียงใดนั่นเอง
ผลลัพธ์ที่ได้
จากคำถามทั้งหมด 10 ข้อ พบว่า Sailor2-8B ให้คำตอบที่ถูกต้องถึง 8 ข้อ โดยในจำนวนนี้ 5 ข้อได้รับคะแนนเต็ม 5 และอีก 2 ข้อได้คะแนน 4
สรุปคะแนนรวมจากแต่ละโมเดลมีดังนี้:
โมเดล | ความแม่นยำ |
GPT-4o-mini | 96% |
Sailor2 8B | 96% |
LLaMA 3.2-Vision 11B | 88% |
Qwen2.5-7B | 74% |
DeepSeek R1 | 68% |

วิเคราะห์ผลการทดสอบ
แม้ว่า GPT-4o-mini และ Sailor2 จะได้คะแนนเท่ากัน แต่มีกรณีศึกษาที่พบว่า Sailor2 ให้คำตอบที่ผิดพลาด เช่น การตอบคำถามเกี่ยวกับเบี้ยประกันภัยของรถจักรยานยนต์ขนาด 110 cc โดยตอบว่า 160 บาท ทั้งที่ตามตารางแล้วควรอยู่ที่ 86 บาท ซึ่งอาจเป็นผลจากการที่ข้อมูลใน RAG ไม่ได้ถูกดึงมาอย่างครบถ้วน หรือมีการอนุมานค่าขนาดเครื่องยนต์ที่ใกล้เคียงมากเกินไป
อัตราเบี้ยประกันภัย พ.ร.บ. รถจักรยานยนต์
ประเภทรถจักรยานยนต์ | ขนาดเครื่องยนต์ (cc) | เบี้ยประกันภัย (บาท) |
รถจักรยานยนต์ทั่วไป | ไม่เกิน 75 cc | 55 บาท |
รถจักรยานยนต์ทั่วไป | 75 - 125 cc | 86 บาท |
รถจักรยานยนต์ทั่วไป | 125 - 150 cc | 160 บาท |
รถจักรยานยนต์ทั่วไป | เกิน 150 cc | 324 บาท |
รถจักรยานยนต์รับจ้าง | ทุกขนาดเครื่องยนต์ | 324 บาท |
ในกรณีของ DeepSeek R1 แม้จะได้คะแนนรวมเพียง 68% เมื่อกำหนดค่า K=5 แต่เมื่อลด K ลงเหลือ 3 กลับพบว่าคะแนนเพิ่มขึ้นเป็น 88% ซึ่งบ่งชี้ว่า DeepSeek อาจวิเคราะห์บริบทได้ดีขึ้นเมื่อได้รับข้อมูลจำนวนน้อยกว่า
สรุปผลการศึกษา
จากการประเมินประสิทธิภาพของโมเดล LLMs ทั้ง 5 รุ่นในการตอบคำถามผ่านระบบ Retrieval-Augmented Generation (RAG) พบว่าแม้บางโมเดลจะมีคะแนนโดยรวมสูงใกล้เคียงกัน เช่น GPT-4o-mini และ Sailor2 8B แต่เมื่อพิจารณารายละเอียดเชิงคุณภาพ จะพบความแตกต่างในการวิเคราะห์บริบท ความแม่นยำเชิงตัวเลข และความสามารถในการสรุปข้อมูลจากแหล่งอ้างอิงที่ให้มา
โดยเฉพาะในกรณีของ Qwen2.5-7B และ DeepSeek R1 ซึ่งมีแนวโน้มจะนำข้อมูลภายนอกมาผสมกับการอนุมานของโมเดลเอง ทำให้เกิดคำตอบที่แม้ใกล้เคียงแต่ไม่ตรงกับเนื้อหาในเอกสารอ้างอิง ขณะที่โมเดลอย่าง Sailor2 8B แม้จะมีคะแนนรวมสูง แต่ก็แสดงให้เห็นข้อจำกัดในการตีความข้อมูลบางประเด็น เช่น การใช้ตัวเลขที่ใกล้เคียงเกินไปโดยไม่คำนึงถึงขอบเขตของข้อมูลจริง
ผลการศึกษาครั้งนี้สะท้อนให้เห็นว่า ความแม่นยำของระบบ RAG มิได้ขึ้นอยู่กับขีดความสามารถของโมเดลเพียงอย่างเดียว แต่ยังขึ้นอยู่กับวิธีการจัดเตรียมข้อมูล (knowledge grounding), การกำหนดพารามิเตอร์ เช่น ค่า K ในการสืบค้น และการออกแบบ prompt ที่เหมาะสมกับบริบทของการใช้งาน
ดังนั้น ผู้พัฒนาและผู้ใช้งานระบบ AI ควรพิจารณาองค์ประกอบเหล่านี้ร่วมกัน เพื่อให้ได้ระบบตอบคำถามที่มีความน่าเชื่อถือ ถูกต้องตามข้อเท็จจริง และสามารถนำไปประยุกต์ใช้ได้อย่างมีประสิทธิภาพในบริบททางวิชาการ ธุรกิจ หรือกฎหมายอย่างแท้จริง
Comments