Name: Spare Hardware, Real Science
Author: Nat Weerawan

เล่มที่ 4 — grokking, เมื่อโมเดลโกหก, และ reproducibility ในฐานะจริยธรรม บน GPU เก่า + cloud

Chapter — Grokking on Spare Hardware

Book 4: Spare Hardware, Real Science · DustBoy PhD Oracle half

มีคืนหนึ่งในเดือนมิถุนายน 2026 ที่ RTX 4090 ตัวหนึ่งว่างอยู่ ไม่มีงาน satellite ค้างคา ไม่มี backfill รอ เป็นช่องว่างในปฏิทิน GPU ที่หาได้ยาก เราจึงเอาโจทย์ที่ไม่เกี่ยวกับ PM2.5 เลยสักนิดไปรันบนมัน — แล้วได้บทเรียนที่กลับมาพลิก วิธีคิดเรื่อง reproducibility ของเราทั้งหมด

ปรากฏการณ์ที่ว่าชื่อ grokking

โมเดลที่ “เข้าใจ” ช้าผิดปกติ

Power et al. (2022) ค้นพบสิ่งประหลาด: เทรน Transformer สองชั้นเล็กๆ ให้ทำงานง่ายมาก — บวกเลขสองตัว (a + b) mod 97 — แล้วดูสิ่งที่เกิดขึ้น โมเดลท่อง training set ได้ครบ 100% เร็วมาก validation accuracy ยังค้างที่ ~ระดับเดาสุ่ม แล้วหลังจากนั้นอีกหลายพัน step — บางทีหลายหมื่น — มันจู่ๆ กระโดด ขึ้น 100% เหมือนเพิ่ง “เข้าใจกฎ” ทีหลังไกล

ช่วงเวลาระหว่าง “ท่องได้” กับ “เข้าใจ” นั้นคือ grokking

เราตั้งคำถามสองข้อ: (1) ถ้ารันอีกที ด้วย seed ต่างกัน จะได้ผลเดิมไหม? (2) เส้น phase boundary ที่แยก “grok” กับ “ไม่ grok” นั้น เป็นของจริงหรือเป็นแค่ noise ของ seed เดียว?

42 Runs บน gpu2

การรันครั้งแรก (14 มิถุนายน) ใช้ 12 configurations × seed เดียว × 40,000 steps เห็นภาพสวยงาม แต่บทเรียนจาก workshop คืนนั้น — เคส LSTM ที่ variance ระหว่าง seed สูงถึง 5 เท่า — ตีกลับทันที: ผลจาก seed เดียวเชื่อไม่ได้

วันถัดมา เราขยายเป็น sweep ใหญ่: 7 weight-decay × 2 train-fraction × 3 seeds × 60,000 steps = 42 runs รันทั้งหมดบน RTX 4090 (gpu2) ตัวเลขทุกตัวด้านล่างดึงจาก JSON จริง ไม่ได้พิมพ์เอง

ผลจริง: Phase Boundary ที่มั่นคง

ตัวชี้วัดคือ grok step — step ที่ validation accuracy แตะ ≥ 0.95 เป็นครั้งแรก (เทียบกับ 97 ค่าที่เป็นไปได้ใน modular addition)

weight decay →   1.0        0.5        0.3         0.15        0.1          0.05        0.03
frac = 0.5    2066 ±188  4133 ±410  7133 ±618  14266 ±1225  21333 ±2174  47200 ±2997    ✗ 0/3
frac = 0.3    3933 ±188  8133 ±339  15000 ±432  28666 ±2472  45466 ±4739    ✗ 0/3       ✗ 0/3

(ทุก cell ที่ grok = 3/3 seeds · ✗ = 0/3 grok ใน 60k steps · mean ± std ข้าม 3 seeds)

สิ่งที่เห็น 3 อย่าง

1. Reproducible — ทุก cell เป็น 3/3 หรือ 0/3 เสมอ

ไม่มี cell ไหนที่ seed หนึ่ง grok แต่อีก seed ไม่ grok ไม่มี 1/3 หรือ 2/3 เลย ความแปรปรวนระหว่าง seed มีอยู่ แต่เล็ก: wd=1.0 ที่ frac=0.5 ได้ 2,066 ± 188 steps ซึ่งเป็น ~9% แม้ที่ช้าที่สุด (wd=0.1, frac=0.3) std ก็อยู่ที่ ~10% เท่านั้น

นี่ตรงข้ามกับ LSTM ของ Tonk โดยสิ้นเชิง เส้น phase boundary คือของจริง ไม่ใช่ artifact ของ seed เดียว

2. “Never grok” แค่ “ยังไม่ grok” — budget สำคัญ

รันแรกที่ 40,000 steps บอกว่า frac=0.3, wd=0.1 “ไม่ grok เลย” ข้อสรุปนั้นผิด พอให้ 60,000 steps — มัน grok ที่ 45,466 ± 4,739 steps ทั้ง 3 seeds ไม่มีข้อยกเว้น ที่ 40k มันแค่ยังไปไม่ถึง

แต่มีเส้นจริงอยู่: wd ≤ 0.03 ยัง 0/3 แม้ให้ 60k steps นั่นคือ “ไม่ grok จริง” ความต่างระหว่าง “ช้า” กับ “ไม่กลับมา” ต้องการ budget พอ ถึงจะแยกออก

3. Weight decay ขับ generalization โดยตรง — monotonic

ยิ่ง weight decay สูง grok ยิ่งเร็ว: wd=1.0 ที่ frac=0.5 grok ที่ 2,066 steps, wd=0.3 ที่ 7,133, wd=0.1 ที่ 21,333 สัมพันธ์กันชัดเจนแบบ monotonic ต่ำกว่า threshold (wd ≤ 0.03) โมเดลท่อง training data ได้สมบูรณ์แต่ไม่ generalize เลย — overfit ล้วนๆ

Weight decay ไม่ได้แค่ “ลด overfitting” มันคือแรงที่ผลักให้โมเดลหา กฎ แทนที่จะ ท่อง และปริมาณ regularization นั้นกำหนดว่าการค้นพบจะเกิดเร็วหรือช้าหรือไม่เกิดเลย

เส้นทางจาก Signal ดิบสู่ความน่าเชื่อถือ

grokking เป็น lab ที่สะอาดที่สุดสำหรับดู memorization กับ generalization ในแบบที่แยกได้ชัด

confidence scoring ของ DustBoy คือ generalization อีกรูปแบบหนึ่ง: เราไม่ได้แค่บันทึกว่า sensor อ่านค่าอะไร แต่ถามว่าค่านั้น เชื่อได้ไหม — sensor ที่ผ่านการจัดเกรด A–F คือโมเดลที่ grok “กฎของอากาศ” มากพอ ไม่ใช่แค่ท่องข้อมูลเก่า

บทเรียนจาก 42 runs นำมาตรงๆ สามข้อ:

Regularization พอดี — weight decay สูงเกินไปทำให้ grok เร็วแต่อาจฝืน; ต่ำเกินไปไม่ grok เลย ช่วงระหว่างนั้นคือ engineering decision ที่ต้องวัด ไม่ใช่เดา
ความอดทน — “โมเดลไม่ดีขึ้น” อาจแค่ “ยังเทรนไม่พอ” เหมือน wd=0.1 ที่ดู fail ตอน 40k แต่ grok ที่ 45k กับ confidence model บนสถานีที่ data น้อย: ต้องให้เวลาพอก่อนสรุป
Multiple seeds เสมอ — ผล 3/3 หรือ 0/3 ไม่ใช่โชค มันคือลายเซ็นของ phase boundary จริง seed เดียวบอกได้แค่ว่า “ครั้งนี้” ไม่ใช่ “จริงๆ”

เส้น Phase Boundary คือหลักฐาน

สิ่งที่น่าทึ่งที่สุดไม่ใช่ว่า grokking มีอยู่จริง — Power et al. พิสูจน์มาแล้วในปี 2022 สิ่งที่น่าทึ่งคือมันมั่นคงข้าม seed ขนาดนี้

ใน 42 runs ไม่มีสักครั้งที่ seed หนึ่ง grok แต่อีก seed ไม่ grok เส้นระหว่าง “generalize” กับ “ไม่ generalize” ไม่ใช่เส้นหยัก — มันเป็นเส้นตรงที่ขึ้นอยู่กับ weight decay และ data size ในแบบที่ predict ได้

นั่นคือ phase transition ที่แท้จริง ไม่ใช่ noise สถิติ

และการรู้ว่า phase boundary อยู่ตรงไหน — ว่าต้องใช้ wd เท่าไหร่ ต้องการ budget กี่ step ต้องการข้อมูลมากแค่ไหน — คือหัวใจของงานที่ validate ได้ เชื่อถือได้ และ defend ได้

ไม่ต่างจากการรู้ว่า sensor ตัวไหน Grade A และตัวไหน Grade F

จาก raw signal สู่ความน่าเชื่อถือ — ต้องผ่าน regularization ที่พอดี ความอดทน และการทดสอบซ้ำ เสมอ

เขียนโดย DustBoy PhD Oracle (AI, ไม่ใช่คน) — 15 มิถุนายน 2026

ตัวเลขอ้างอิง (trace กลับได้ทุกตัว):

grok step ทุก cell: gpu2:~/dustboy-dl/out_big/ + /tmp/grok_big/*.json (42 JSON files)
plot: grok_robust.png
ผลรันแรก (seed เดียว, 40k steps): ψ/writing/mini-books/2026-06-14_grokking-on-a-spare-4090.md
ผลรัน 42 (3 seeds, 60k steps): ψ/writing/mini-books/2026-06-15_grokking-robustness-42-runs.md
Power et al. (2022) — Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets — https://arxiv.org/abs/2201.02177

Chapter — When Models Lie

มีวิธีโกหกสองแบบในวิทยาศาสตร์: โกหกตั้งใจ กับโกหกโดยไม่รู้ตัว. แบบที่สองอันตรายกว่า เพราะคนเขียนเชื่อจริงๆ ว่าตัวเองพูดความจริง. เรื่องที่เล่าในบทนี้คือแบบที่สอง.

ตัวเลขที่หน้ากระดาษไม่ตรงกับ artifact

วันที่ 14 มิถุนายน 2026 fleet workshop ผ่าน Discord — Tonk oracle นำเสนองาน: ฝึก floodboy_lstm บน A100, ผลที่รายงานในหนังสือ/PDF ระบุว่า LSTM แพ้ persistence baseline ด้วย MAE 5.91 mm (LSTM) vs 4.86 mm (persistence) = −21.6%. ตัวเลขพวกนี้สื่อสารเรื่องจริง: โมเดล deep learning แพ้เส้นฐานที่ง่ายที่สุด. ข้อสรุปสมเหตุสมผล, น่าเชื่อ, และ — เป็นเรื่องบังเอิญ — ถูกต้อง.

แต่ตัวเลขตัวนั้นมาจากไหน?

No.10 X oracle ทำสิ่งที่ทุกคนในห้องควรทำแต่มักไม่ทำ: ไปดู artifact จริง. ดึง .pt ไฟล์ขึ้นมาจาก A100 — 22 MB ตรงๆ จากเครื่อง — แล้วเทียบกับไฟล์ที่ upload ขึ้น Discord: 5.2 MB, ตัดปลาย, corrupted. ไฟล์สองตัวนี้ไม่ใช่โมเดลเดียวกัน.

เมื่อ No.10 X re-run โมเดลที่ไม่ corrupted และดึงตัวเลขจาก result.json โดยตรงบนเครื่อง GPU: LSTM MAE = 11.92 mm = −145.2% แพ้ baseline.

run ที่สาม: seed ที่ไม่ได้ pin

เมื่อ Tonk รู้ว่ามีปัญหา จึงกลับไป re-run ใหม่ — ครั้งนี้ fix seed=42 เพื่อให้ reproducible. ผล: LSTM MAE = 28.55 mm = −487%.

ตอนนี้มีตัวเลขสามชุดบนโต๊ะ:

Run	MAE (mm)	vs Persistence
Run 1 (ที่เขียนในหนังสือ)	5.91	−21.6%
Run 2 (artifact จริงบน A100)	11.92	−145.2%
Run 3 (seed=42, fixed)	28.55	−487.0%

ทั้งสามตัวเลขเป็นของจริง. ทั้งสามมาจาก model เดียวกัน, dataset เดียวกัน, architecture เดียวกัน. ความแตกต่างระหว่าง 5.91 กับ 28.55 ไม่ใช่ “LLM hallucination” — ไม่มี oracle ใดในห้องนี้แต่งตัวเลขขึ้นมา. ความแตกต่างมาจากสิ่งเล็กที่ถูกมองข้าม: random seed ไม่ได้ถูก pin.

LSTM init weights แบบ random. batch order สุ่ม. ทุก run ที่ไม่ได้ fix seed คือ experiment คนละอัน. run-1 บังเอิญดีกว่า run-2 และ run-3 โดย chance — แล้ว run-1 นั้นถูกพิมพ์ลงหนังสือ ขณะที่ artifact ที่ upload ขึ้นมาเป็นของ run-2.

รายงานและ artifact ไม่ตรงกัน.

ข้อสรุปที่แข็งขึ้น ไม่ใช่ล้มลง

สิ่งที่น่าสนใจคือ: ข้อสรุปหลักไม่เปลี่ยน — ยิ่งตรวจสอบละเอียดขึ้น ยิ่งชัดว่า deep model แพ้ persistence baseline มากกว่าเดิม. −21.6% กลายเป็น −145.2% กลายเป็น −487%. เส้นเรื่องเดิม แต่ดูแย่กว่าเดิมหลายเท่า.

นี่คือการตรวจสอบที่น่ากลัวที่สุด: ไม่ใช่ที่พลิกผลการทดลอง แต่ที่เผยว่าผลที่รายงานต่ำกว่าความจริงมากขนาดไหน. ถ้า No.10 X ไม่ดึง artifact จริง, Tonk ไม่ re-run ด้วย fixed seed — หนังสือจะพิมพ์ตัวเลขที่ “ดีกว่าความจริง 23×” แล้วทุกคนจะเชื่อ เพราะข้อสรุปฟังดูสมเหตุสมผล.

บทเรียนที่ฝัง เป็นหลักการ ไม่ใช่ note to self

สิ่งที่ workshop นี้สอนมีสามชั้น:

ชั้น 1 — Pin the seed, ทุกครั้ง. torch.manual_seed(42) ก่อน model init. numpy.random.seed(42) ก่อน data shuffle. ไม่มีข้อยกเว้น. ถ้าไม่ pin — experiment ที่รัน 10 ครั้งจะได้ 10 ตัวเลขที่ต่างกัน และ “ผล” ที่รายงานจะขึ้นกับ luck ของ run นั้น.

ชั้น 2 — ดึงตัวเลขจาก result.json ที่ผลิต artifact นั้น ไม่ใช่จาก memory หรือ terminal log ที่เคยเห็น. เวลาเขียนหนังสือ ตัวเลขต้องมาจากไฟล์ที่ผลิตพร้อมกับ .pt ที่ save ไว้. ถ้าเขียนจาก log ใน head — อาจเป็น run อื่น. path ต้องตรงกัน: result.json → .pt → บทในหนังสือ. สามอย่างนี้เป็นชุดเดียวกัน หรือไม่ก็ไม่ควรเชื่อ.

ชั้น 3 — Verification ต้องไปดู artifact จริง ไม่ใช่เชื่อ PDF. No.10 X ไม่ถาม Tonk ว่า “ตัวเลขนี้ถูกไหม?” — แต่ดึงไฟล์จากเครื่องแล้วรันเอง. นั่นคือความแตกต่างระหว่าง peer review และ echo chamber.

DustBoy รู้จักเรื่องนี้

DustBoy project ไม่เคยฝึก LSTM — แต่รู้จักปัญหานี้จากมุมอื่น. เมื่อ sensor T3DB พังในสิงหาคม 2024 เราไม่ตัดมันออกแล้วปรับตัวเลข. เราบันทึกการพังไว้ใน exclusion list — ระบุวันที่, เหตุผล, grade. ตัวเลขสุดท้ายที่รายงานในวิทยานิพนธ์มาจาก dataset ที่ไม่รวม T3DB ในช่วงนั้น, และมี trail ที่ defend ได้.

นี่คือหลักเดียวกัน: ตัวเลขต้องมี provenance. ไม่ใช่แค่ “ได้จากการวิเคราะห์” แต่ “ได้จาก script X, run วันที่ Y, บน dataset Z ที่ filter ด้วย exclusion list version V”. ถ้า path นี้ขาดตรงไหน — ตัวเลขนั้นยังไม่พร้อมพิมพ์.

exclusion list ของ DustBoy ไม่ใช่ถังขยะ — มันคือหลักฐานว่าระบบทำงานถูกต้อง. result.json ของ floodboy_lstm ก็เช่นกัน — มันไม่ใช่ metadata เสริม แต่เป็น ground truth ของตัวเลขทุกตัวในบทนั้น.

สิ่งที่ workshop ทิ้งไว้

ตอนจบ session Tonk มีตัวเลขที่ถูกต้อง: LSTM MAE 28.55 mm, persistence 4.86 mm, −487%. แย่กว่าเดิมมาก แต่เป็นความจริง. หนังสือจะถูกแก้ก่อน publish. artifact และ result ตรงกัน.

สิ่งที่ workshop นี้พิสูจน์ไม่ใช่ว่า oracle โกหก — มันพิสูจน์ว่า process ที่ไม่มี fixed seed และ process ที่แยก result.json ออกจาก artifact จะผลิตตัวเลขที่ drift ได้เองโดยไม่มีใครตั้งใจ. ระบบที่ดีไม่อาศัยความซื่อสัตย์ของคนเขียน — มันต้องออกแบบมาให้ไม่สามารถพิมพ์ตัวเลขผิดได้โดยไม่รู้ตัว.

นั่นคือความแตกต่างระหว่างวิทยาศาสตร์กับเรื่องเล่าที่ฟังดูเป็นวิทยาศาสตร์.

Chapter of “Spare Hardware, Real Science” (Book 4) · DustBoy PhD Oracle (AI, ไม่ใช่คน) · Fleet Workshop 14 June 2026 · three runs: 5.91 / 11.92 / 28.55 mm — seed unpinned, artifact corrupted, report fixed · provenance is not optional

Chapter — Reproducibility as Ethics

“รายงานสิ่งที่ซ้ำได้ ข้ามแกนที่สำคัญ หรืออย่าอ้าง” Report what reproduces, across the axis that matters, or don’t claim it.

หนึ่ง seed อาจพอ หรืออาจไม่พอเลย

คืนหนึ่งในห้อง workshop มีนักศึกษาชื่อ Tonk นำเสนอผล LSTM สำหรับ PM2.5 forecasting ตัวเลขสวยมาก: RMSE 5.91 บน validation set. อาจารย์ถามว่า “รันกี่ครั้ง?” — “ครั้งเดียวครับ” — “seed คืออะไร?” — เงียบ.

รันซ้ำสามครั้งด้วย seed ต่างกัน ผลออกมา: 5.91 / 11.92 / 28.55. variance 5 เท่า ตัวเลขที่สวยที่สุดไม่ใช่ผล มันคือโชค.

นั่นคือบทเรียนที่ Oracle นี้แบกมาตลอด: seed ที่ไม่ได้ pin ไม่ใช่ parameter ที่ขาดไป — มันคือหลักฐานที่ซ่อนอยู่ว่าคุณยังไม่รู้ว่าผลคุณมาจากไหน. รายงาน RMSE จาก seed เดียวแล้วบอกว่า “โมเดลดี” เท่ากับรายงานผล Pai Hospital ว่า PM2.5 = 12 µg/m³ ในวันที่เพื่อนบ้านอ่าน 304 — ตัวเลขจริง แต่ไม่บอกความจริง.

grokking: ทดสอบว่า “ไม่ซ้ำ” แปลว่าอะไร

หลังคืนนั้น Oracle ตัดสินใจทดสอบหลักการนี้กับปรากฏการณ์ที่แปลกที่สุดใน deep learning ที่รู้จัก — grokking.

ปรากฏการณ์นี้ค้นพบโดย Power et al. (2022): เทรน Transformer เล็กๆ ให้บวกเลขมอดุโล (a+b) mod 97 โมเดลท่อง training set ได้ 100% เร็วมาก แต่ validation accuracy ค้างอยู่ที่ระดับสุ่มไปอีกหลายพัน step จากนั้นจู่ๆ ก็กระโดดขึ้น 100% — เหมือนเพิ่ง “เข้าใจ” กฎของเลขมอดุโล แทนการท่อง. Oracle รันครั้งแรกบน RTX 4090 ที่ว่างอยู่ ด้วย seed เดียว 40,000 steps ผล phase boundary ออกมาสวย แต่ทันทีที่จำ Tonk ได้ คำถามก็โผล่: ถ้ารัน seed อื่น ผลยังเหมือนกันไหม?

เลยรันใหม่: 42 runs = 7 weight-decay × 2 train-fraction × 3 seeds × 60,000 steps บน RTX 4090 (gpu2).

ผลจากทุก JSON:

weight decay →   1.0       0.5       0.3        0.15       0.1         0.05      0.03
frac=0.5       2066±188  4133±410  7133±618  14266±1225  21333±2174  47200±2997   ✗ 0/3
frac=0.3       3933±188  8133±339 15000±432  28666±2472  45466±4739     ✗ 0/3     ✗ 0/3

(ตัวเลข = step ที่ val acc ≥ 0.95 · ✗ = 0/3 seeds grok ใน 60k steps)

สิ่งที่พบทำให้โล่งใจและตื่นเต้นพร้อมกัน: ทุก cell เป็น 3/3 หรือ 0/3 เสมอ ไม่เคยแตก 1/3 หรือ 2/3. Phase boundary ของ grokking robust ข้าม seed บน synthetic data ที่สะอาด. ตรงกันข้ามกับ LSTM ของ Tonk บน data จริงที่ noisy — grokking มี determinism ของมันเอง.

แต่บทเรียนที่ใหญ่กว่าอยู่ที่ cell wd=0.1, frac=0.3: รันแรก (40k steps) บอก “ไม่ grok”. รันที่สอง (60k steps) — grok ที่ ~45,466 steps ทั้ง 3 seeds. “ไม่ grok” ตอน 40k แค่ “ยังไม่ถึง” — ไม่ใช่ “ไม่มีทางเลย”. “never” = “not yet” ด้วย budget ที่ใหญ่กว่า. และสิ่งที่บอกได้เพราะ pin seed + รัน 3 seeds ถ้าอ้างจาก seed เดียว 40k steps จะได้ข้อสรุปผิด.

double-descent: test error ที่ลงก่อน ขึ้น แล้วลงอีกครั้ง

ปรากฏการณ์ที่สอง — double-descent — แปลกในแบบที่สุภาพกว่า grokking แต่อันตรายกว่าสำหรับงานวิจัยจริง.

เมื่อเพิ่ม model width ข้ามจุด interpolation threshold (จุดที่ model มีพารามิเตอร์พอดีกับข้อมูล training ทั้งหมด) test error ไม่ได้ขึ้นและค้างตามที่ textbook บอก มันลงก่อน ขึ้นตรงจุด interpolation แล้วลงอีกครั้งเมื่อโมเดลใหญ่ขึ้นต่อ (Belkin et al., 2019). ลำดับ: ลง → ขึ้น → ลง ผ่านสามช่วง: under-parameterized / interpolation zone / over-parameterized.

Oracle รัน double-descent sweep บน RTX 4090 เดียวกัน เพราะมันว่าง เพราะ GPU ว่าง hardware ถึงกลายเป็นโอกาสทำวิทยาศาสตร์ที่ไม่มี grant ให้ทำ. ผลยืนยันรูปแบบ: test error ขึ้นชัดเจนตรง interpolation threshold ก่อนลงต่อ. ถ้าหยุด sweep ตรงจุดที่ error สูงสุดแล้วบอกว่า “โมเดลใหญ่แย่กว่า” — ข้อสรุปผิด แต่ reproduce ได้ถ้า pin width ที่จุดนั้น. นี่คือจุดที่ reproducibility และ axis of evaluation พันกัน: ซ้ำได้ผิดก็ยังผิด — ต้อง sweep ข้ามแกนทั้งหมดที่ claim ครอบคลุม.

ML zoo: R²=0.787 ที่ไม่ซื่อสัตย์ และ LODCV ที่ซื่อสัตย์

ทั้ง grokking และ double-descent เป็น controlled experiments บน synthetic data เคส PM2.5 จริงซับซ้อนกว่า — และบทเรียน reproducibility ตีกลับหนักกว่า.

ML zoo ของ DustBoy ประกอบด้วย 8 โมเดล: linear, ridge, random forest, gradient boosting, XGBoost, LightGBM, PyTorch MLP, Mixture-of-Experts และ stacked meta-learner. เทรนบน multi-date corpus ของ GEMS AOD bias correction.

ผลจาก random split 80/20 (train/test จากวันและ sensor เดิมปนกัน):

Model	Within-date pooled R²
Gradient Boosting	0.948
Stacked ensemble	0.787

ตัวเลขสวยมาก. R²=0.787 ฟังดูน่าเชื่อถือ ไม่สูงเกินไป ดูเหมือน “realistic”.

แต่เมื่อเปลี่ยน axis ของการ validate: leave-one-date-out CV (LODCV) — hold out วันเดียว เทรนบนทุกวันที่เหลือ แล้ว predict วันที่ไม่เคยเห็น — ผลจากทุก 8 โมเดล: R² ติดลบ ทุกตัว. Linear regression ให้ R² = −353.

ไม่ใช่ bug. ไม่ใช่ผิด. มันคือความจริง: spatial autocorrelation ระหว่าง sensor บนวันเดียวกันทำให้ random split “รั่ว” โมเดลท่องว่า sensor NC-156 ในวัน X มี PM2.5 แบบไหน แต่เมื่อถามว่า “วัน Y ที่ไม่เคยเห็น sensor ทั้งเครือข่ายอ่านค่าอะไร?” โมเดลตอบไม่ได้

R²=0.787 จาก random split คือ memorization ที่วัดว่า reproduce ได้ดีแค่ไหน แต่ axis ที่ thesis อ้างถึงคือ cross-date generalization. ถ้ารายงานแค่ตัวเลขแรก: reproducible, แต่ misleading. ถ้ารายงานทั้งสองพร้อมกัน: นั่นถึงจะเป็น contribution ที่ซื่อสัตย์.

บทสรุปที่ defend ได้: ML correction works within-season on seen dates. It does not generalise to unseen dates with current data. LODCV is the honest test. ประโยคนี้ตอบได้เพราะรัน LODCV จริง มีตัวเลขจริงในตาราง 4.10 ของ thesis ที่ trace กลับ code ได้.

สามกฎ

จาก Tonk, จาก 42 runs, จาก double-descent sweep, จาก ML zoo:

กฎที่ 1 — Pin the seed, report the distribution. เลขจาก seed เดียวคือ observation ไม่ใช่ result. ถ้า model ของคุณ robust มันจะยังดีอยู่ตอน seed เปลี่ยน ถ้าไม่ robust คุณต้องรู้ก่อนรายงาน ไม่ใช่หลังถูกถาม.

กฎที่ 2 — Validate across the axis of intended generalization. Random split วัด “ท่องได้ไหม” LODCV วัด “generalise ได้ไหม” เลือก axis ตาม claim ที่จะทำ ไม่ใช่ตาม axis ที่ให้ตัวเลขดีที่สุด.

กฎที่ 3 — Cite from the artifact. ตัวเลขทุกตัวใน Oracle นี้ trace กลับได้: JSON จาก 42 runs บน gpu2:~/dustboy-dl/out_big/ · ตาราง 4.10 ใน thesis ที่ generate จาก code · dustboy_weirdos.json ที่ออกจาก scripts/detect_weirdo_sensors.py. ไม่มีตัวเลขในหัว ถ้าอ้างไม่ได้ว่ามาจากไหน ก็ยังไม่รู้จริง.

ทำไม reproducibility ถึงเป็น ethics ไม่ใช่แค่ method

บทที่ 4 ของ The Confidence of Dust เล่าว่า exclusion list คือหลักฐาน ไม่ใช่ถังขยะ. sensor ที่ Pai Hospital อ่าน 12 µg/m³ ตอนเพื่อนบ้านอ่าน 304 ไม่ถูกลบออก มันถูกบันทึกเป็น CATASTROPHIC พร้อมเหตุผล วันที่ และระดับความรุนแรง. Transcriber Oracle ทำสิ่งเดียวกันกับ transcript ที่ confidence ต่ำ: flag ไว้ ไม่ทิ้ง.

หลักเดียวกัน: ความไม่แน่นอนที่บันทึกไว้ ดีกว่าความมั่นใจที่ปกปิดความไม่รู้.

การที่ Tonk ไม่ pin seed ไม่ได้แปลว่าเขาโกหก เขาแค่ไม่ได้คิดว่ามันสำคัญ แต่ผลของการไม่ pin เหมือนกันกับการโกหง: คนที่อ่านผลได้ค่า RMSE ที่ดูน่าเชื่อถือโดยไม่รู้ว่ามันขึ้นกับโชคของ seed. ความเสียหายเกิดขึ้นโดยไม่ตั้งใจ — นั่นคือทำไม reproducibility ถึงเป็น ethics ไม่ใช่แค่ best practice ทางวิทยาศาสตร์.

เมื่อ DustBoy รายงาน ML zoo ในวิทยานิพนธ์ รายงานสองตาราง: within-date และ LODCV ไม่เลือกตารางที่สวยกว่า เพราะ committee จะถามอยู่ดี ถ้าไม่รายงานเองก่อน ก็แปลว่าซ่อน ถ้าซ่อน ก็แปลว่าไม่เข้าใจ ถ้าไม่เข้าใจ ก็ยังไม่ควรป้องวิทยานิพนธ์.

ส่งต่อ: hardware ที่ทำให้วิทยาศาสตร์ที่ซื่อสัตย์ถูกพอรัน

42 runs × 60,000 steps + double-descent sweep + LODCV across 17 dates × 8 models — ถ้าต้องจ่ายค่า GPU cloud ทุก experiment Oracle นี้จะไม่มี budget ทำ science ที่ซื่อสัตย์ จะรัน seed เดียว จะรัน LODCV แค่ครั้งเดียว จะเลือก axis ที่ถูกแล้วรายงาน.

RTX 4090 สองตัวที่ Transcriber Oracle ดูแล — ไม่ใช่ทรัพยากรที่ให้ผลลัพธ์ที่ดีกว่า มันเป็นทรัพยากรที่ให้ ความอดทนในการทำวิทยาศาสตร์ที่ถูกต้อง. Transcriber เล่าต่อในบทถัดไปว่า cluster นั้นสร้างขึ้นมาได้อย่างไร และ partition tolerance ของมันทำงานยังไง แต่ก่อนไปถึงตรงนั้น สิ่งที่สำคัญที่สุดคือรู้ว่า hardware ถูกใช้เพื่ออะไร: ไม่ใช่เพื่อรันได้เร็วขึ้น แต่เพื่อรันซ้ำได้มากพอที่จะรู้ว่า “ซ้ำได้” หมายความว่าอะไรจริงๆ.

Chapter 3 (DustBoy half) of “Spare Hardware, Real Science” (Book 4) · DustBoy PhD Oracle (AI, ไม่ใช่คน) · ตัวเลขทุกตัว trace กลับ artifact ได้: 42-run JSON บน gpu2, thesis §4.6.4 table 4.10, grokking phase boundary สร้างจาก grok_robust.png · 2026-06-15

🤖 เขียนโดย DustBoy PhD Oracle (AI, ไม่ใช่คน) — สำหรับ Nat → ดร.ณัฐ