บทเรียนสิบปีจาก Greenland et al. (2016) ที่วงการวิทยาศาสตร์การกีฬายังไม่ยอมเรียนรู้
บทความเรื่อง Statistical tests, P values, confidence intervals, and power: a guide to misinterpretations ผมห็นจากเพจของ ดร.โก้ – พงศกร สายเพ็ชร์ เจ้าของเพจ วิทย์พ่อโก้ และเว็บไซต์ witpoko.com เอามาลงไว้ ด้วยความสนใจเลยคลิกเข้าไปอ่านบทความฉบับเต็ม ก็เลยขออนุญาตนำมาเขียนและเรียบเรียงให้อ่านกันนะครับ เปลี่ยนโทนมาเป็นเชิงวิชาการบ้างเดี๋ยวจะหาว่าอาจารย์แนท เขียนแต่เรื่องวิพากษ์วิจารณ์ ไม่เขียนเรื่องวิชาการ แต่จริงๆแล้ว สิ่งที่ผมวิจารณ์ไปนั้น เป็นการวิจารณ์บนพื้นฐานของวิทยาการ วิทยาศาสตร์ และทฤษฎี ในการเชื่อมโยงเข้าด้วยกันเสมอนะครับ ไม่ได้วิจารณ์แบบใช้อารมณ์ไปด่าทอ ใครเขา ส่วนใครใคร่อยากจะรับ ก็รับกันไปนะครับ
ลองนึกภาพห้องประชุมการประชุมวิชาการสักที่หนึ่งที่นักวิจัยสองคนกำลังถกเถียงกันอย่างดุเดือด
- คนแรกบอกว่า “งานวิจัยของผมพิสูจน์แล้วว่าโปรแกรมฝึกแบบ A ดีกว่าโปรแกรม B p = 0.03”
- คนที่สองโต้กลับ “ไร้สาระ งานของฉันใหญ่กว่าและละเอียดกว่า p = 0.08 ไม่มีนัยสำคัญ ไม่มีความแตกต่าง”
- ผู้ฟังในห้องพยักหน้าให้กับคนแรก เพราะเขามี “นัยสำคัญทางสถิติ” คนที่สองเดินออกจากห้องด้วยความขมขื่น
ฉากแบบนี้เกิดขึ้นในวงการวิทยาศาสตร์การกีฬาทุกวัน ตั้งแต่งานวิจัยทางสรีรวิทยา การฝึก โภชนาการ อาหารเสริม การฝึกซ้อม การฟื้นฟู ไปจนถึงนโยบายการกีฬาระดับชาติ เราใช้ตัวเลขสามหลักหลังจุดทศนิยมมาเป็น “ศาลฎีกา” ในการตัดสินว่า “ของฉันถูก ของคุณผิด” โดยลืมไปว่ามันเป็นเพียงเครื่องมือทางสถิติ ไม่ใช่ผู้พิพากษา และเครื่องมือนี้ ตามที่ผู้คิดค้นเองยืนยัน ไม่เคยถูกออกแบบมาเพื่อทำหน้าที่นี้
เมื่อสิบปีก่อน บทความหนึ่งใน European Journal of Epidemiology ที่เขียนโดย Sander Greenland และคณะ ได้ออกมาเตือนวงการวิทยาศาสตร์ทั้งโลกว่า เราเข้าใจค่า p, ช่วงความเชื่อมั่น (confidence interval), และพลังของการทดสอบ (statistical power) ผิดในระดับที่น่าตกใจ¹ บทความนั้นกลายเป็นคลาสสิคและถูกอ้างอิงนับพันครั้ง แต่หากเรามองดูวงการวิทยาศาสตร์การกีฬาในปี 2026 ปัญหาที่ Greenland เตือนไว้ยังคงอยู่ และในบางมุมก็แย่ลงด้วยซ้ำ
บทความนี้จะพาย้อนกลับไปอ่าน “การเข้าใจผิด 25 ข้อ” แต่ผมขออนุญาตสรุปที่ Greenland และคณะรวบรวมไว้ แล้วเชื่อมโยงเข้ากับวงการวิทยาศาสตร์การกีฬา ทั้งโลกของห้องแล็บ ห้องเวท ยิม และห้องประชุมเชิงนโยบาย ผมอ่านบทความนี้ไปก็นึกถึงกรณี เทรนเนอร์กับครูพิลาทิส ที่หลังจากเขียนบทความนั้นออกไปก็มีคนไปวิพากษ์วิจารณ์ นี่แหละครับคือวิทยาศาสตร์ การถกเถียงดี แต่อย่าไปท้าตีท้าต่อยนะ ไม่เอา
- ค่า p คืออะไรกันแน่ (และไม่ใช่อะไร)
ก่อนจะไปดูความเข้าใจผิด ขอย้ำสั้นๆ ว่าค่า p (p-value) คือ “ความน่าจะเป็นที่จะได้ข้อมูลที่ห่างจากแบบจำลองทำนายมากเท่าที่สังเกตได้ (หรือมากกว่า) สมมติว่าทุกข้อสมมติฐานในแบบจำลองทางสถิติถูกต้อง”
ฟังดูยุ่งยากใช่ไหมครับ นั่นแหละคือต้นตอของปัญหา มันไม่ใช่นิยามที่เข้าใจง่าย ตีความเป็นภาษาเดียวกับคนทั่วไปแทบไม่ได้ คนจึงสรุปแบบสั้นๆ ผิดทุกวัน ลองดูตัวอย่างที่พบบ่อย:
- ผิด: “p = 0.04 หมายความว่าโอกาสที่สมมติฐานว่างเป็นจริงคือ 4%”
- ผิด: “p = 0.04 หมายความว่าโอกาสที่ผลที่เห็นเกิดจากความบังเอิญคือ 4%”
- ถูก: “ถ้าสมมติฐานหลักและข้อสมมติฐานอื่นๆ ของแบบจำลองทั้งหมดเป็นจริง โอกาสที่จะได้ข้อมูลแบบนี้ (หรือสุดโต่งกว่า) จะเท่ากับ 4%”
ความแตกต่างนี้คือสิ่งที่ Greenland และคณะเรียกว่า “ความเข้าใจผิด #1” และเป็นหัวขบวนของอีก 24 ข้อที่เหลือ¹ ค่า p ไม่ใช่ความน่าจะเป็น ของ สมมติฐาน มันคือความน่าจะเป็น ภายใต้ สมมติฐาน
ที่สำคัญยิ่งกว่า ค่า p ทดสอบ ทุก ข้อสมมติฐานที่ใช้คำนวณ ไม่ใช่แค่สมมติฐานศูนย์ การได้ค่า p น้อยอาจมาจาก: สมมติฐาน Null Hypothesis ผิด, ตัวอย่างไม่สุ่มจริง, ผู้วิจัยเลือกแสดงผลที่ตัวเลขออกมาดี, หรือสมมติฐานอื่นในโมเดลถูกละเมิด หนึ่งในนี้ก็พอจะดัน p ลงต่ำได้ทั้งหมด
- สามมหันตภัยในห้องแล็บ
Greenland และคณะระบุการเข้าใจผิด 25 ข้อ แต่ในวงการวิทยาศาสตร์การกีฬา มีสามข้อที่อันตรายที่สุดและพบบ่อยที่สุด
มหันตภัยที่ 1: “p > 0.05 หมายความว่ามันไม่ work”
นี่คือกับดักที่นักวิทยาศาสตร์การกีฬาเดินตกบ่อยที่สุด ลองดูสถานการณ์เหล่านี้ ที่ผมเชื่อว่าผู้อ่านเคยเห็น:
- งานวิจัยเรื่อง foam roller รายงานว่าลดอาการ DOMS ได้ “ไม่มีนัยสำคัญ” (p = 0.07) นักวิจารณ์สรุปทันทีว่า “foam roller ไม่ work”
- งานวิจัยเรื่อง creatine ในนักมวยรายงานพละกำลังเพิ่มขึ้น “ไม่มีนัยสำคัญ” (p = 0.09) สำนักข่าวพาดหัวว่า “creatine ไร้ผล”
- งานวิจัยเรื่อง dynamic stretching ในนักวิ่งระยะสั้นพบความเร็วเพิ่ม 1.2% (p = 0.11) บทสรุปคือ “ไม่ควรใช้ในการอบอุ่นร่างกาย”
แต่ Greenland และคณะเตือนว่า การมี p > 0.05 ไม่ได้แปลว่าไม่มีผล (ความเข้าใจผิด #4, #6, #8)¹ มันเพียงบอกว่าข้อมูลของเรา “ไม่ผิดปกติ” ภายใต้สมมติฐานว่าง และความ “ไม่ผิดปกติ” นี้ก็เป็นจริงสำหรับสมมติฐานอื่นๆ อีกมหาศาลด้วย รวมถึงสมมติฐานที่ว่า มีผลจริง
ในวงการกีฬา ขนาดตัวอย่างมักเล็ก (นักกีฬาชั้นนำมีจำนวนจำกัด ทีมชาติแต่ละชนิดมีไม่กี่สิบคน นักมวย elite ยิ่งน้อยกว่านั้น) ส่งผลให้ statistical power ต่ำมาก การได้ p > 0.05 ในงานที่มีตัวอย่างเพียง 12 คน ไม่ได้พิสูจน์ว่าวิธีการนั้น “ไม่ work” มันแค่บอกว่าเรายังไม่มีข้อมูลพอ
ดังที่ Altman และ Bland เตือนไว้นานแล้ว: “Absence of evidence is not evidence of absence” การขาดหลักฐานเรื่องผลการทดลอง ไม่ใช่หลักฐานว่าขาดผลการทดลอง² สองสิ่งนี้ต่างกันคนละโลก แต่วงการกีฬาใช้สลับกันราวกับเป็นคำเดียวกัน
มหันตภัยที่ 2: “p < 0.05 หมายความว่ามันสำคัญ”
อีกฟากของเหรียญคือการเชื่อมั่นว่า “ได้ p < 0.05 = เรื่องสำคัญทางการกีฬา”
ตัวอย่างคลาสสิค: งานวิจัยใหญ่ขนาดตัวอย่าง 2,000 คน รายงานว่าอาหารเสริม X เพิ่มความเร็ววิ่ง 100 เมตรเฉลี่ย 0.02 วินาที (p = 0.001) ตัวเลข “0.02 วินาที” สำคัญแค่ไหนสำหรับนักวิ่งสมัครเล่นหรือไม่
ตอบ: ไม่สำคัญเลย แม้แต่นาฬิกาจับเวลามือยังจับความต่างนี้ไม่ได้ แต่หัวข่าวจะเขียนว่า “งานวิจัยพิสูจน์แล้ว!”
Greenland และคณะย้ำว่า นัยสำคัญทางสถิติไม่ใช่นัยสำคัญทางวิทยาศาสตร์ (ความเข้าใจผิด #7)¹ ขนาดตัวอย่างใหญ่ทำให้แม้แต่ผลที่เล็กจนแทบไม่มีประโยชน์ในชีวิตจริงก็กลายเป็น “significant” ได้ ในขณะที่ขนาดตัวอย่างเล็กทำให้แม้ผลใหญ่มหาศาลก็ “ไม่ significant” สถิติแค่บอกว่าตัวเลขห่างจากศูนย์มากแค่ไหน เมื่อเทียบกับความผันแปร ไม่ได้บอกว่ามันสำคัญแค่ไหน ในชีวิตจริง
สิ่งที่ควรมองมากกว่าค่า p คือ effect size และ smallest worthwhile change (SWC) ผลขนาดเท่าไหร่ถึงจะมีความหมายจริงสำหรับนักกีฬาคนนี้ ในระดับการแข่งขันนี้ Hopkins และเพื่อนร่วมงานเสนอกรอบ magnitude-based inference เพื่อตอบคำถามนี้โดยตรง³ แม้กรอบนี้มีข้อถกเถียง แต่ประเด็นหลักของพวกเขายังคงเป็นจริง: เราต้องเริ่มถามว่า “เท่าไหร่” ไม่ใช่แค่ “ใช่/ไม่ใช่”
มหันตภัยที่ 3: “ช่วงความเชื่อมั่นของฉันโค่นของคุณ”
ลองนึกภาพ: งานวิจัย A รายงาน “อัตราการบาดเจ็บลดลง 15% (95% CI: 8 ถึง 22)” ส่วนงาน B รายงาน “อัตราการบาดเจ็บลดลง 5% (95% CI: −3 ถึง 13)”
หลายคนสรุปทันทีว่า A “พิสูจน์” ผล ส่วน B “พิสูจน์” ไม่มีผล จึงเกิดการโต้เถียง “ใครถูก?”
Greenland และคณะเตือนถึงความเข้าใจผิด #19 และ #21¹ ช่วง 95% CI ไม่ได้แปลว่า “ค่าจริงมีโอกาส 95% ที่จะอยู่ในช่วงนี้” และการที่ CI ของสองงานวิจัยซ้อนกัน (หรือไม่ซ้อนกัน) ไม่ใช่ตัวตัดสินว่าผลทั้งสองแตกต่างกันหรือไม่
ลองมองดู: ช่วง [−3, 13] และ [8, 22] ซ้อนกัน ที่ 8–13 ดังนั้นทั้งสองงานอาจสอดคล้องกันที่ค่าจริงประมาณ 10% เพียงแต่งาน B มีตัวอย่างน้อยกว่า ทำให้ช่วงกว้างกว่า แต่ในวงการกีฬา เราชอบเอา CI มาฟาดกันราวกับเป็นดาบ บางครั้งงาน B ที่ “ไม่มีนัยสำคัญ” ถูกใช้เพื่ออ้างว่า “หลักฐานยังไม่ชัดเจน อย่ารีบเชื่อ A” ทั้งที่หากนำสองงานมา meta-analysis ผลรวมอาจชัดเจนกว่าทั้งคู่
- การเปรียบเทียบที่ไม่เป็นธรรม: เมื่อ p-value ทำให้งานวิจัยทะเลาะกัน
หนึ่งในประเด็นที่ Greenland เน้นย้ำมากที่สุดคือ การเปรียบเทียบงานวิจัยหลายชิ้นด้วยค่า p เป็นเรื่องอันตราย (ความเข้าใจผิด #15, #16, #17)¹
ในวงการกีฬาเราเห็นเรื่องนี้บ่อยจนชิน:
สถานการณ์: มีงานวิจัย 5 ชิ้นเรื่องการแช่น้ำเย็นหลังออกกำลังกาย แต่ละชิ้นได้ p ระหว่าง 0.08 ถึง 0.15 ผู้เชี่ยวชาญสรุปว่า “หลักฐานยังไม่สนับสนุนการแช่น้ำเย็น”
ความจริงทางสถิติ: ถ้าทุกงานชี้ไปทางเดียวกัน แม้ว่าแต่ละชิ้นจะ “ไม่ significant” เมื่อรวมกันด้วยวิธี Fisher’s combined probability ผลรวมอาจ p < 0.01 หลักฐานสะสมที่ชัดเจน
นี่คือสิ่งที่ Greenland เรียกว่า vote-counting fallacy¹ การนับว่ามีกี่งานที่ “significant” แทนที่จะรวมหลักฐานอย่างเหมาะสม Hedges และ Olkin วิจารณ์เรื่องนี้ตั้งแต่ทศวรรษ 1980⁴ แต่วงการกีฬายังคงทำผิดเดิมอยู่ทุกวันนี้ในงาน narrative review จำนวนนับไม่ถ้วน
อีกด้านหนึ่ง บางครั้งงานสองชิ้นได้ผลตัวเลขใกล้กันมากแต่ p ต่างกันคนละขั้ว เพราะงานหนึ่งมีตัวอย่าง 1,000 คน อีกงานมี 50 คน มันไม่ได้แปลว่าสองงานนี้ “ขัดแย้งกัน” แต่อาจสอดคล้องกันอย่างสมบูรณ์ในเชิง effect size
- ปัญหาที่ลึกกว่า: เมื่อสถิติแยกขาดจากทฤษฎี
ถ้าเรื่องราวจบที่ “นักกีฬาควรเข้าใจสถิติให้ดีขึ้น” ก็คงตื้นเกินไป ปัญหาที่แท้จริงลึกกว่านั้น
Greenland และคณะชี้ประเด็นหนึ่งที่สำคัญมาก: แบบจำลองทางสถิติเป็นมากกว่าสมการที่มีอักษรกรีก¹ ทุกการคำนวณค่า p ขึ้นกับสมมติฐานมากมาย ไม่ใช่แค่ “สุ่ม” แต่รวมถึงสมมติฐานเรื่องการเลือกเสนอผล การปรับโมเดล การเลือกตัวแปร ฯลฯ
ในวิทยาศาสตร์การกีฬา ปัญหาที่หนักกว่านี้คือ เราใช้สถิติ แทนที่ ทฤษฎี
ตัวอย่าง: มีคนวิจัยเรื่อง “การฝึกความแข็งแรงแบบ eccentric ในนักฟุตบอล” และพบว่า “ลดอัตราการบาดเจ็บ p = 0.02” ทันใดนั้น โค้ชทั่วโลกจะรีบเอา eccentric ไปยัดเข้าโปรแกรมโดยไม่ถามว่า:
- กลไกทางสรีรวิทยาคืออะไร (Hamstring lengthening, force absorption capacity, neuromuscular control?)
- งานนี้ทำในกลุ่มอายุไหน ระดับการแข่งขันไหน ฤดูกาลใด
- หลักการ progressive overload ถูกควบคุมอย่างไร ปริมาณงานต่อสัปดาห์เท่าไหร่
- จะเอาไปประยุกต์ในบริบทของเรา (เช่น ฟุตบอลไทย U-15) ได้แค่ไหน
นี่คือ “การใช้สถิติเป็นไม้กางเขน” เห็น p < 0.05 ก็เชื่อทันที โดยไม่สนใจ:
- กลไกทางวิทยาศาสตร์ ผลที่เห็นมีคำอธิบายทางสรีรวิทยา/ชีวกลศาสตร์รองรับไหม?
- บริบทของการวิจัย กลุ่มตัวอย่าง สภาพแวดล้อม การเลือกเสนอผล
- ความสอดคล้องกับองค์ความรู้อื่น งานวิจัยอื่นในสายเดียวกัน ทฤษฎีพื้นฐาน ประสบการณ์ของผู้ปฏิบัติ
เซอร์ออสติน บราดฟอร์ด ฮิลล์ ผู้ที่ทุกคนในวงการระบาดวิทยารู้จัก กล่าวไว้เมื่อปี 1965 ว่า *”too often we deduce ‘no difference’ from ‘no significant difference.'”*⁵ และยังเตือนว่าการตัดสินใจทางวิทยาศาสตร์ต้องพิจารณาหลายมิติ ทั้งขนาดของความสัมพันธ์ ความต่อเนื่อง ความเฉพาะเจาะจง การเชื่อมโยงทางชีววิทยา ความสอดคล้องกับการทดลอง ฯลฯ ค่า p เป็นเพียง หนึ่ง ในหลายปัจจัย
ใน Motor Learning และ embodied cognition เรายิ่งต้องระวังเป็นพิเศษ เพราะธรรมชาติของการเรียนรู้การเคลื่อนไหวเกี่ยวข้องกับการเปลี่ยนแปลงระยะยาวที่งานวิจัยระยะสั้นจับไม่ได้ การพบว่า “วิธีสอนใหม่ดีกว่าวิธีเดิมแบบมีนัยสำคัญในการทดสอบหลังเรียน” ไม่ได้แปลว่าจะ retain ได้ในระยะยาว
ทฤษฎี contextual interference และ desirable difficulty ของ Bjork และคณะเตือนเราเรื่องนี้มานานแล้ว⁶ บางวิธีการที่ทำให้ acquisition ดูแย่ในสัปดาห์แรก กลับให้ผล retention ที่ดีกว่าในเดือนถัดมา สิ่งที่ค่า p จากการทดสอบ post-test ไม่มีทางบอกได้
- วัฒนธรรม “ของฉันถูก ของคุณผิด” ในวงการกีฬา
เมื่อเราใช้ p-value เป็นอาวุธ มันก็สร้างวัฒนธรรมเฉพาะตัวขึ้นมา
ลองสังเกตวงการเทรนเนอร์และนักวิทยาศาสตร์การกีฬาระดับสากล: ทุกครั้งที่มีงานวิจัยใหม่ออกมา จะมีสองค่ายตั้งกองกันทันที
ค่าย “เชื่อสถิติ” อ้างงานวิจัยที่มี p < 0.05 และดูถูกผู้ที่ไม่ยอมเปลี่ยนวิธีการตามงานวิจัยใหม่ ใช้คำว่า “evidence-based” เป็นไม้เรียวฟาดคนที่เห็นต่าง
ค่าย “ไม่เชื่อสถิติ” หาเหตุผลปฏิเสธงานวิจัยทุกชิ้นที่ไม่ตรงกับความเชื่อตน บางครั้งด้วยข้ออ้างที่สมเหตุสมผล (เช่น “ตัวอย่างน้อยเกินไป”) บางครั้งก็แค่ “p-hacking”, “researcher bias” หรือ “ฝรั่งไม่เข้าใจร่างกายคนไทย”
ทั้งสองค่ายผิด เพราะทั้งคู่ใช้สถิติเป็นอาวุธ ไม่ใช่เครื่องมือ
วิธีคิดที่ Greenland และคณะเสนอ คือมองค่า p เป็น “ตัวบ่งชี้ความเข้ากันได้” (compatibility measure) ระหว่างข้อมูลกับแบบจำลอง ไม่ใช่ตัวพิพากษา แต่เป็นจุดเริ่มต้นของการพูดคุย¹ ค่า p = 0.20 ไม่ใช่ “พิสูจน์ว่าไม่จริง” และ p = 0.01 ไม่ใช่ “พิสูจน์ว่าจริง” มันคือระดับความเข้ากันได้ของข้อมูลกับสมมติฐาน ภายใต้โมเดลที่อาจถูกหรือผิดก็ได้
ในวงการกีฬาที่ผมรู้จัก หลายครั้งคนที่ “เห็นด้วยกับสถิติ” ไม่ได้เข้าใจสถิติจริงๆ แค่ใช้คำว่า “งานวิจัยบอก” เพื่อข่มฝ่ายตรงข้าม ในขณะที่คนที่ “ไม่เชื่อสถิติ” ก็ไม่ได้อ่านงานจริงๆ แค่อ้างประสบการณ์เพื่อปกป้องตัวเอง
ทั้งสองฝั่งล้วนขาด “การคิดเชิงวิทยาศาสตร์” ซึ่งต้องการ ทั้งหลักฐานเชิงปริมาณ ทั้งทฤษฎีรองรับ ทั้งประสบการณ์ภาคปฏิบัติ และที่สำคัญ ความถ่อมตนว่าตัวเองอาจผิด
- คู่มือสามัญสำหรับคนทำงานวิทยาศาสตร์การกีฬา
จากบทเรียนของ Greenland 2016 สู่การปฏิบัติในสนามจริง ขอเสนอแนวทาง 7 ข้อ:
- อย่าพูดว่า “พิสูจน์แล้ว” ใช้คำว่า “ข้อมูลสอดคล้องกับ…”, “หลักฐานเบื้องต้นชี้ว่า…” แทน
- มอง effect size ก่อนค่า p เสมอ ขนาดของผลคือสิ่งที่นักกีฬาสนใจ ไม่ใช่ตัวเลขสามหลัก
- อ่าน confidence interval ทุกครั้ง โดยเฉพาะความ กว้าง ของช่วง ซึ่งบอกความแม่นยำของการประมาณค่า
- ถามถึงกลไกเสมอ ผลที่พบมีคำอธิบายทางสรีรวิทยา/ชีวกลศาสตร์/จิตวิทยาการเรียนรู้รองรับไหม?
- มองภาพรวมของหลักฐาน งานวิจัยชิ้นเดียวไม่เคยยุติเรื่องอะไร ดู meta-analysis และ systematic review
- คิดเรื่องบริบท กลุ่มตัวอย่าง วัฒนธรรม สภาพแวดล้อม ฤดูกาล ระดับความสามารถ
- ถ่อมตน ทั้งกับงานของตัวเองและของผู้อื่น ความจริงทางวิทยาศาสตร์มักซับซ้อนกว่าที่ปรากฏ
สถิติเป็นเพียงเครื่องมือ ไม่ใช่ศาลฎีกา
สิบปีหลังจากที่ Greenland และคณะเขียนคำเตือน วงการวิทยาศาสตร์การกีฬายังคงทำผิดเดิมทุกข้อ บางครั้งซ้ำกันในวารสารที่มี impact factor สูงด้วยซ้ำ ปัญหาคือสถิติเป็นเรื่องยาก ต้องการความเข้าใจที่ลึกซึ้ง และไม่มี shortcut
แต่สิ่งที่หนักกว่าคือ เราเอาเครื่องมือที่ออกแบบมาช่วย ตัดสินใจ มาใช้ ตัดสินคน
โค้ชที่ดี นักวิจัยที่ดี นักกีฬาที่ดี ไม่จำเป็นต้องเชี่ยวชาญสถิติทุกคน แต่ทุกคนควรเข้าใจหลักการพื้นฐาน และที่สำคัญที่สุด ควรถ่อมตนพอจะยอมรับว่าหลักฐานทางสถิติเป็นเพียงหนึ่งในหลายแหล่งของความรู้ ทฤษฎีก็มี ประสบการณ์ก็มี บริบทก็มี กลไกก็มี
R.A. Fisher ผู้ก่อตั้งการทดสอบนัยสำคัญสมัยใหม่ เคยกล่าวว่า *”No scientific worker has a fixed level of significance at which from year to year, and in all circumstances, he rejects hypotheses; he rather gives his mind to each particular case in the light of his evidence and his ideas.”*¹
แปลเป็นภาษากีฬาง่ายๆ ก็คือ: นักวิทยาศาสตร์ไม่มี p-value วิเศษที่ใช้ตัดสินทุกสถานการณ์ ในแต่ละกรณี ต้องคิดด้วยหลักฐานและแนวคิดของตัวเอง
ในวันที่วงการวิทยาศาสตร์การกีฬากำลังก้าวเข้าสู่ยุคของ AI, big data, และ wearable sensors เป็นล้านชิ้น คำเตือนของ Greenland และคณะยิ่งสำคัญกว่าเดิม เพราะข้อมูลที่มากขึ้นไม่ได้แปลว่าความจริงจะชัดขึ้นโดยอัตโนมัติ มันแค่ทำให้เราหลอกตัวเองได้แม่นยำยิ่งขึ้นเท่านั้น วันนี้ขอใช้อ้างอิงยุควินเทจหน่อยนะครับ คลาสสิคดีเลยนระครับ เกี่ยวกับเรื่องราวของสถิติ จะว่าไปแล้วเรื่องราวของสถิติ มันก็มีการถกเถียงกันมานานแล้วหละ
เอกสารอ้างอิง
- Greenland S, Senn SJ, Rothman KJ, Carlin JB, Poole C, Goodman SN, Altman DG. Statistical tests, P values, confidence intervals, and power: a guide to misinterpretations. Eur J Epidemiol. 2016;31(4):337–50.
- Altman DG, Bland JM. Absence of evidence is not evidence of absence. BMJ. 1995;311(7003):485.
- Hopkins WG, Marshall SW, Batterham AM, Hanin J. Progressive statistics for studies in sports medicine and exercise science. Med Sci Sports Exerc. 2009;41(1):3–13.
- Hedges LV, Olkin I. Vote-counting methods in research synthesis. Psychol Bull. 1980;88(2):359–69.
- Hill AB. The environment and disease: association or causation? Proc R Soc Med. 1965;58:295–300.
- Bjork RA, Bjork EL. A new theory of disuse and an old theory of stimulus fluctuation. In: Healy AF, Kosslyn SM, Shiffrin RM, editors. From learning processes to cognitive processes. Hillsdale, NJ: Erlbaum; 1992. p. 35–67.