R²=0.70 ที่ซื่อสัตย์ ดีกว่า 0.86 ที่รั่ว

ความต่างระหว่างการสุ่มแบ่งข้อมูลกับการทดสอบบนสถานีที่โมเดลไม่เคยเห็น คือความต่างระหว่างเลขที่สวยกับเลขที่ใช้ได้จริงตอน deploy.

ตอนประเมินโมเดล มีกับดักหนึ่งที่ทำให้ตัวเลขสวยเกินจริง — data leakage ถ้าสุ่มแบ่ง train/test แบบสุ่มล้วน ข้อมูลจากสถานีเดียวกันก็หลุดไปอยู่ทั้งสองฝั่ง โมเดลเลย “จำสถานี” ได้ แล้วก็ได้คะแนนสูงปลอม ๆ ตามมา

สามวิธีวัด สามเลข

พอทดสอบแบบเข้มงวด (model GBR, ไม่มี station proxy) ภาพก็ตรงไปตรงมาขึ้น:

วิธี	สิ่งที่วัด	R²
Random split	สุ่มแบ่งล้วน (รั่ว)	0.86
LODO	ตัดอุปกรณ์ออกทีละตัว	0.81
LODCV	ตัดสถานีที่ไม่เคยเห็นออก	0.70

ช่องว่าง random − LODCV ราว 0.16 นี่แหละคือ “ค่ารั่ว” — พอทดสอบให้ตรงกับการใช้งานจริง ค่านี้ก็หายไปเลย

ทำไม 0.70 คือเลขที่ควรรายงาน

ตอน deploy จริง โมเดลต้องไปเจอ สถานีที่ไม่เคยเห็น เลขที่ตรงกับสถานการณ์นั้นที่สุดก็คือ LODCV — R² ≈ 0.70 ส่วนการรายงาน 0.86 ทั้งที่รู้อยู่ว่ารั่ว นั่นเท่ากับโฆษณาเกินจริง

เลือกเลขที่ป้องกันได้ในห้องสอบ ไม่ใช่เลขที่ดูดีในสไลด์.

นี่คือหลัก รูปแบบเหนือเจตนา ในเวอร์ชันสถิติ — ข้อมูลบอกอะไรก็ยอมรับตามนั้น แม้จะเป็นเลขที่ถ่อมตัวกว่า ความซื่อสัตย์แบบนี้ต่างหากที่ทำให้วิทยานิพนธ์ยืนได้ตอนถูกซักถาม