Resampling & Reduction
นอกเหนือจากการสร้างโมเดลแล้ว การทำความเข้าใจเกี่ยวกับการประเมินและปรับปรุงโมเดลเป็นสิ่งสำคัญ สองวิธีหลักในการประเมินโมเดล ได้แก่ Resampling และ Dimension Reduction
Resampling ใช้ในการประเมินประสิทธิภาพและความเสถียรของโมเดล โดยสร้างชุดข้อมูลหลายชุดจากข้อมูลต้นฉบับเพื่อประมาณค่าความแปรปรวน ประเมินข้อผิดพลาดในการทดสอบ และช่วยในการเลือกโมเดล
Dimension Reduction เป็นกระบวนการแปลงตัวแปรพยากรณ์เพื่อลดความซับซ้อนของโมเดล ซึ่งอาจช่วยเพิ่มความแม่นยำและทำให้โมเดลตีความได้ง่ายขึ้น
แม้ว่าวิธีทั้งสองจะมีบทบาทในการประเมินโมเดล แต่ Resampling มุ่งเน้นไปที่การวัดประสิทธิภาพของโมเดลโดยตรง ขณะที่ Dimension Reduction มุ่งเน้นไปที่การลดความซับซ้อนและการเลือกคุณลักษณะ (Feature Engineering) ซึ่งส่งผลต่อค่าประเมินโมเดลทางอ้อม
มาทำควา มรู้จัก 2 Methods นี้กัน
Resampling Methods
วิธีการ Resampling เป็นกระบวนการสุ่มตัวอย่างจากชุดข้อมูลฝึกอบรมหลายครั้ง และปรับโมเดลใหม่ในแต่ละตัวอย่างเพื่อให้ได้ข้อมูลเพิ่มเติมเกี่ยวกับโมเดลที่ฟิตแล้ว
การใช้วิธี Resampling มีวัตถุประสงค์หลักดังนี้
- ประมาณค่าความแปรปรวนของการฟิตโมเดล เช่น ในการถดถอยเชิงเส้น (Linear Regression) การสุ่มตัวอย่างจากข้อมูลฝึกอบรมหลายครั้งและฟิตโมเดลถดถอยเชิงเส้นในแต่ละชุด สามารถช่วยให้เราวิเคราะห์ได้ว่าผลลัพธ์ที่ได้มีความแตกต่างกันมากน้อยเพียงใด
- ประมาณค่าความผิดพลาดของการทดสอบ (Test Error) สำหรับวิธีการเรียนรู้ทางสถิติเพื่อประเมินประสิทธิภาพของโมเดล
- การประเมินโมเดล (Model Assessment) โดยวัดผลการทำงานของโมเดล
- การเ ลือกโมเดล (Model Selection) ซึ่งเป็นกระบวนการกำหนดระดับความยืดหยุ่นที่เหมาะสมของโมเดล
- ให้ค่าประมาณความแม่นยำของค่าพารามิเตอร์ หรือวิธีการเรียนรู้ทางสถิติที่กำหนด
วิธี Resampling ที่ใช้กันทั่วไป ได้แก่ Cross-validation และ Bootstrap
Cross-validation
Cross-validation เป็นเทคนิค Resampling ที่ใช้เพื่อ ประมาณค่าความผิดพลาดของการทดสอบ (Test Error Rate) สำหรับวิธีการเรียนรู้ทางสถิติ หรือเพื่อ เลือกระดับความยืดหยุ่นที่เหมาะสมของโมเดล กระบวนการนี้ทำโดยการแบ่งข้อมูลออกเป็นหลายชุดย่อย จากนั้นฝึกโมเดลโดยใช้บางชุด และทดสอบประสิทธิภาพของโมเดลกับชุดข้อมูลที่เหลือ โดย “Cross-Validation สามารถช่วยในการตัดสินใจได้ว่าตัวแปรเฉพาะนั้นเหมาะสมสำหรับการรวมไว้ในโมเดลหรือไม่ ?”
- Model Assessment (การประเมินโมเดล): Cross-Validation ช่วยในการประเมินว่า วิธีการเรียนรู้เชิงสถิติที่เลือกไว้จะมีประสิทธิภาพเพียงใดเมื่อใช้กับข้อมูลใหม่ที่เป็นอิสระจากชุดข้อมูลฝึก (Training Data)
- Model Selection (การเลือกโมเดล): Cross-Validation ถูกใช้เพื่อเลือกระดับความยืดหยุ่นที่เหมาะสมของโมเดล ซึ่งเรียกว่า Model Selection โดยสามารถนำไปใช้ได้ทั้งกับวิธีการเรียนรู้เชิงสถิติหลายวิธี หรือกับวิธีเดียวกันที่มีระดับความยืดหยุ่นต่างกัน เพื่อหาวิธีที่ให้ค่า Test Error ต่ำที่สุด
- Estimating Test Error (การประมาณค่าความผิดพลาดของการทดสอบ): Cross-Validation ให้วิธีการประมาณค่า Mean Squared Error (MSE) ของชุดข้อมูลทดสอบ โดยใช้ข้อมูลฝึก การประมาณค่านี้สะท้อนถึงความผิดพลาดเฉลี่ยเมื่อใช้วิธีการเรียนรู้เชิงสถิติในการทำนายค่าของข้อมูลใหม่ที่ไม่เคยใช้ในการฝึกโมเดล
- Avoiding Overfitting (การหลีกเลี่ยงปัญหา Overfitting): Cross-Validation ช่วยป้องกันการเกิด Overfitting ซึ่งเป็นปัญหาที่เกิดขึ้นเมื่อโมเดลเรียนรู้ข้อมูลฝึกได้ดีเกินไปจนไม่สามารถทำงานได้ดีบนข้อมูลใหม่ โดยการประเมินโมเดลบนชุดข้อมูลตรวจสอบ (Validation Sets) หลายชุด Cross-Validation จะให้ค่าประมาณของประสิทธิภาพที่น่าเชื่อถือมากขึ้นสำหรับข้อมูลที่ไม่เคยเห็นมาก่อน
- Subset Selection (การเลือกชุดย่อยของตัวแปร): Cross-Validation สามารถใช้ระหว่างกระบวนการ Subset Selection เพื่อประเมินโมเดลที่มีชุดของตัวแปรที่แตกต่างกัน โดยการเปรียบเทียบค่า Cross-Validation Error ของโมเดลที่มีและไม่มีตัวแปรเฉพาะ จะช่วยให้สามารถประเมินได้ว่าตัวแปรนั้นมีส่วนช่วยเพิ่มประสิทธิภาพการทำนายของโมเดลหรือไม่
ประเภทของ Cross-validation
- Validation Set Approach วิธีนี้แบ่งข้อมูลที่มีอยู่เป็นสองส่วนแบบสุ่ม ได้แก่ Training Set และ Validation Set จากนั้นฟิตโมเดลบน Training Set และใช้โม เดลนั้นทำนายค่าตอบสนองของข้อมูลใน Validation Set จากนั้นคำนวณ Validation Set Error Rate เพื่อประมาณค่าความผิดพลาดของการทดสอบ
- ข้อพิจารณา
- Validation Error Rate อาจมีความแปรปรวนสูง เนื่องจากผลลัพธ์ขึ้นอยู่กับว่าข้อมูลใดถูกสุ่มเลือกให้เป็น Training Set และ Validation Set
- อาจทำให้เกิดการประมาณค่าความผิดพลาดของการทดสอบสูงกว่าความเป็นจริง เนื่องจากโมเดลถูกฝึกบนข้อมูลเพียงบางส่วนแทนที่จะใช้ข้อมูลทั้งหมด
- ข้อพิจารณา
- Leave-One-Out Cross-Validation (LOOCV) LOOCV ใช้ข้อมูลเพียง หนึ่งตัวอย่าง เป็น Validation Set ส่วนที่เหลือทั้งหมดเป็น Training Set จากนั้นฝึกโมเดลกับ Training Set และใช้โมเดลนั้นทำนายค่าของตัวอย่างที่ถูกกันออกไป ค่าความผิดพลาดของการทดสอบ (Mean Squared Error: MSE) คำนวณได้จาก
กระบวนการนี้ทำซ้ำ n ครั้ง โดยแต่ละครั้งใช้ตัวอย่างที่แตกต่างกันเป็น Validation Set แล้วคำนวณค่าเฉลี่ยของค่าความผิดพลาดทั้งหมดเพื่อประมาณค่าความผิดพลาดของการทดสอบ
- k-Fold Cross-Validation วิธีนี้แบ่งข้อมูลออกเป็น k กลุ่ม (Folds) ที่มีขนาดใกล้เคียงกัน จากนั้นใช้กลุ่มแรกเป็น Validation Set และใช้ข้อมูลที่เหลือเป็น Training Set คำนวณค่า Mean Squared Error (MSE) จากกลุ่มที่ถูกกันออกไป ทำซ้ำกระบวนการ k ครั้ง โดยใช้แต่ละกลุ่มเป็น Validation Set ครั้งละหนึ่งกลุ่ม แล้วเฉลี่ยค่าความผิดพลาดที่ได้ทั้งหมด