รู้จักกับสถิติ
สามารถดู video ของหัวข้อนี้ก่อนได้ ดู video
การวิเคราะห์ทางสถิติคืออะไร?
การวิเคราะห์ทางสถิติ คือ กระบวนการใช้เทคนิคและวิธีการทางสถิติเพื่อรวบรวม สรุป วิเคราะห์ และแปลผลข้อมูลที่ได้จากการเก็บรวบรวมในรูปแบบต่าง ๆ
- การเก็บรวบรวมข้อมูล: นี่เป็นขั้นตอนแรก ซึ่งประกอบด้วยการรวบรวมข้อมูลที่เกี่ยวข้องกับปัญหาหรือประเด็นที่กำลังศึกษา ข้อมูลอาจเป็น ข้อมูลปฐมภูมิ ที่เก็บโดยตรงเพื่อการศึกษานั้น ๆ หรือ ข้อมูลทุติยภูมิ ที่ได้จากแหล่งข้อมูลที่มีอยู่แล้ว
- การจัดระเบียบ ข้อมูล: ข้อมูลที่เก็บรวบรวมมาอาจยังอยู่ในรูปแบบดิบและจำเป็นต้องจัดระเบียบก่อนการวิเคราะห์ ซึ่งรวมถึง การจัดจำแนก (classifying) ข้อมูลออกเป็นกลุ่มตามลักษณะร่วม และ การจัดทำตาราง (tabulating) ข้อมูลในรูปแบบแถวและคอลัมน์เพื่อการนำเสนอและทำความเข้าใจที่ง่ายขึ้น
- การวิเคราะห์ข้อมูล: ขั้นตอนนี้เกี่ยวข้องกับการใช้วิธีการและมาตรการทางสถิติต่าง ๆ เพื่อทำความเข้าใจกับคุณลักษณะของข้อมูลและสรุปผลที่มีความหมาย ประเด็นสำคัญของการวิเคราะห์ข้อมูลประกอบด้วย:
- การคำนวณการวัดแนวโน้มเข้าสู่ศูนย์กลาง (Measures of central tendency): ซึ่งหมายถึงการหาค่าที่แสดงถึงค่ากลางหรือค่าที่เป็นตัวแทนของข้อมูล เช่น ค่าเฉลี่ย (Mean) มัธยฐาน (Median) และฐานนิยม (Mode)
- การกำหนดการวัดการกระจาย (Measures of dispersion): เป็นการหาค่าที่แสดงถึงความกระจายตัวห รือความแปรปรวนของข้อมูล เช่น พิสัย (Range) ส่วนเบี่ยงเบนเฉลี่ย (Mean deviation) ส่วนเบี่ยงเบนมาตรฐาน (Standard deviation) และความแปรปรวน (Variance)
- การระบุรูปแบบและความสัมพันธ์: รวมถึงการวิเคราะห์ข้อมูลอนุกรมเวลา (Time series) เพื่อทำความเข้าใจแนวโน้มและคาดการณ์พฤติกรรมในอนาคต และการศึกษาความสัมพันธ์ระหว่างตัวแปรโดยใช้การวิเคราะห์สหสัมพันธ์ (Correlation) และการวิเคราะห์ถดถอย (Regression analysis)
- การตีความและการนำเสนอผลลัพธ์: ขั้นตอนสุดท้ายคือการตีความผลลัพธ์จากการวิเคราะห์และนำเสนอในรูปแบบที่ชัดเจนและเข้าใจง่าย โดยใช้ตาราง แผนภาพ และกราฟ
สถิติเป็นศาสตร์ที่เกี่ยวข้องกับการศึกษา การวิเคราะห์ และการตีความข้อมูล เพื่อช่วยให้เราเข้าใจและนำข้อมูลไปใช้ในการตัดสินใจหรือคาดการณ์ โดยทั่วไปสถิติสามารถแบ่งออกเป็นสองแขนงหลัก ได้แก่ Descriptive Statistics ซึ่งเน้นการสรุปและนำเสนอข้อมูลในรูปแบบที่เข้าใจง่าย เพื่อแสดงภาพรวมของข้อมูล และ Inferential Statistics ที่มุ่งเน้นการใช้ข้อมูลตัวอย่างในการอนุมานหรือคาดการณ์ผลลัพธ์ในระดับประชากร ทั้งสองแขนงนี้ทำงานร่วมกันเพื่อช่วยให้เราสามารถวิเคราะห์ข้อมูลได้อย่างมีประสิทธิภาพและลึกซึ้ง
- Descriptive Statistics คือศาสตร์ที่เกี่ยวข้องกับการเก็บรวบรวมข้อมูล การสรุปผล และการนำเสนอข้อมูลในรูปแบบที่เข้าใจง่าย เช่น การหาค่าเฉลี่ย (Mean), มัธยฐาน (Median), ฐานนิยม (Mode), การวัดการกระจายตัว เช่น ส่วนเบี่ยงเบนมาตรฐาน (Standard Deviation) หรือช่วงข้อมูล (Range) รวมถึงการแสดงผลด้วยกราฟต่าง ๆ เช่น กราฟแท่ง (Bar Chart), ฮิสโทแกรม (Histogram) หรือไดอะแกรมวงกลม (Pie Chart) โดยเป้าหมายของ Descriptive Statistics คือการอธิบายข้อมูลให้เห็นภาพรวมและลักษณะสำคัญของข้อมูลชุดนั้น ๆ โดยไม่ทำการสรุปหรือคาดการณ์อะไรเพิ่มเติม
- Inferential Statistics คือศาสตร์ที่ใช้ในการวิเคราะห์และตีความข้อมูลเพื่อทำการอนุมาน (Inference) หรือคาดการณ์ผลลัพธ์ในระดับประชากร (Population) โดยใช้ข้อมูลจากตัวอย่าง (Sample) การวิเคราะห์เชิงอนุมานจะใช้เทคนิคทางสถิติ เช่น การทดสอบสมมติฐาน (Hypothesis Testing), การวิเคราะห์ความสัมพันธ์ (Correlation), การวิเคราะห์ความแปรปรวน (ANOVA) หรือการสร้างโมเดลเชิงพยากรณ์ (Predictive Modeling) เป้าหมายหลักคือการสรุปผลและนำเสนอข้อมูลที่สามารถใช้ในการตัดสินใจหรือคาดการณ์ในสถานการณ์ที่ไม่สามารถเก็บข้อมูลทั้งหมดได้
เราจะเริ่มมาทำความรู้จักกับ Descriptive Statistics กันก่อน
Descriptive Statistics
Descriptive Statistics (สถิติเชิงพรรณนา) คือ สาขาหนึ่งของสถิติที่เกี่ยวข้องกับการสรุปและอธิบายลักษณะของข้อมูลที่รวบรวมมา โดยไม่มีการ คาดการณ์หรืออ้างอิงถึงประชากร (population) ทั้งหมด แต่เน้นแค่ข้อมูลชุดที่มีอยู่ (sample) เพื่อทำให้ข้อมูลนั้นง่ายต่อการทำความเข้าใจและสื่อสารผลได้อย่างชัดเจน
ตัวอย่างของการใช้งาน Descriptive Statistics ได้แก่
- การวัดแนวโน้มเข้าสู่ศูนย์กลางของข้อมูล (Measures of Central Tendency): เช่น ค่าเฉลี่ย (Mean), มัธยฐาน (Median), ฐานนิยม (Mode)
- การวัดการกระจายตัวของข้อมูล (Measures of Dispersion): เช่น พิสัย (Range), ส่วนเบี่ยงเบนมาตรฐาน (Standard Deviation), ความแปรปรวน (Variance)
- การแสดงข้อมูลในรูปแบบภาพ: เช่น ตารางความถี่ (Frequency Table), ฮิสโตแกรม (Histogram), แผนภูมิแท่ง (Bar Chart)
จุดประสงค์หลักของ Descriptive Statistics
- สรุปข้อมูลให้อยู่ในรูปแบบที่เข้าใจง่าย เช่น การใช้ตัวเลขเพียงไม่กี่ตัวหรือตาราง/กราฟ
- ใช้เพื่อเปรียบเทียบข้อมูลจากกลุ่มตัวอย่างหรือจากแหล่งข้อมูลที่แตกต่างกัน
ตัวอย่างเช่น
- ถ้าคุณมีคะแนนสอบของนักเรียน 30 คน คุณอาจใช้ค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานเพื่อบอกลักษณะทั่วไปของคะแนนนั้น เช่น คะแนนเฉลี่ยของนักเรียนคือ 75 และส่วนเบี่ยงเบนมาตรฐานคือ 10 ซึ่งแปลว่าคะแนนส่วนใหญ่อยู่ในช่วง 65-85
Descriptive Statistics ช่วยให้เราเข้าใจข้อมูลในภาพรวมก่อนที่จะก้าวไปสู่การวิเคราะห์ขั้นสูง เช่น Inferential Statistics ที่จะใช้ในการทำนายหรือสรุปผลสำหรับประชากรทั้งกลุ่ม
เราจะมาทำความรู้จักแต่ละตัวละครผ่าน python code กัน
Mean (ค่าเฉลี่ย)
ค่าเฉลี่ยคือผลรวมของข้อมูลทั้งหมดหารด้วยจำนวนข้อมูล ใช้เพื่อแสดงค่ากลางของข้อมูลชุดนั้น
สูตร
ตัวอย่าง Python
- ใช้
numpy.mean()
ในการหาค่าเฉลี่ย
import numpy as np
data = [10, 20, 30, 40, 50]
mean = np.mean(data)
print("Mean:", mean) # 30
โดย Mean นั้น เหมาะสำหรับการวิเคราะห์ข้อมูลที่มีการกระจายตัวสมดุลและไม่มี Outlier ที่รบกวนค่าเฉลี่ยมากเกินไป
Use Case ที่เหมาะสมเช่น
- วิเคราะห์รายได้เฉลี่ยของพนักงาน: เพื่อวางแผนนโยบายหรือจัดการงบประมาณ
- คำนวณคะแนนเฉลี่ยในชั้นเรียน: เพื่อดูภาพรวมของผลการเรียน
- ประเมินค่าเฉลี่ยของอุณหภูมิ: ในการวิจัยการเปลี่ยน แปลงของสภาพอากาศในแต่ละวัน
Median (ค่ามัธยฐาน)
ค่ามัธยฐานคือค่ากลางของข้อมูลเมื่อเรียงลำดับจากน้อยไปมาก หากจำนวนข้อมูลเป็นเลขคู่ จะใช้ค่าเฉลี่ยของสองตัวกลาง
ตัวอย่าง Python:
- ใช้
numpy.median()
ในการหา Median
import numpy as np
data = [10, 20, 30, 40, 50]
median = np.median(data)
print("Median:", median) # 30.0
# **กรณีข้อ มูลเลขคู่**
data_even = [10, 20, 30, 40]
median_even = np.median(data_even)
print("Median (Even):", median_even) # 25.0
โดย Median เหมาะสำหรับข้อมูลที่มี Outlier สูง เช่น ค่าที่กระโดดมากเกินไปจะไม่ส่งผลต่อมัธยฐาน
Use Case ที่เหมาะสม
- วิเคราะห์ราคากลางของบ้านในตลาดอสังหาริมทรัพย์: เพื่อสะท้อนราคาที่แท้จริงในพื้นที่โดยไม่ถูกราคาบ้านหรูเกินไปดึงค่า
- ประเมินรายได้ของประชากร: เพื่อดูความเหลื่อมล้ำโดยลดอิทธิพลจากรายได้สูงมาก
- คำนวณเวลามัธยฐานในการเดินทาง: เพื่อดูเวลาปกติในการเดินทางของคนในพื้นที่