2.1 การเก็บรวบรวมข้อมูล

เทคโนโลยี (วิทยาการคำนวณ) ม.5

1. ไฟล์

ไฟล์ ไฟล์ที่มีนามสกุล xIs, xIsx หรือ odp เป็นไฟล์ที่ได้จากโปรแกรมตารางทำงาน หรือนามสกุล cSV เป็นไฟล์แบบข้อความ (text) โดยไฟล์เหล่านี้สามารถดาวน์โหลดไปใช้ได้โดยไม่ต้องเขียนโปรแกรมเพิ่มเติม ส่วนไฟล์ที่มีนามสกุล pdf สามารถดาวน์โหลดได้ แต่นำข้อมูลไปใช้งานต่อได้ยาก เนื่องจากมีกระบวนการซับซ้อนในการแปลงไฟล์ให้อยู่ในรูปแบบที่สามารถนำไปใช้คำนวณได้

นอกจากนี้ ยังมีข้อมูลที่อยู่ในรูปแบบที่ต้องเขียนโปรแกรมในการนำข้อมูลเหล่านั้นมาใช้ เช่น ถ้าต้องการใช้ข้อมูลจากเฟซบุ๊ก หรือทวิตเตอร์ (Twitter) จะต้องเขียนโปรแกรมผ่านวิธีการเชื่อมต่อเฉพาะ (API: Application Programming Interface ) เพื่อเรียกค้นข้อมูลไปใช้ ซึ่งโปรแกรมนี้อาจจะเขียนขึ้นเองหรือใช้โปรแกรมที่มีผู้อื่นเขียนไว้แล้ว

2. รายงานหรือตารางบนเว็บไซต์

รายงานหรือตารางบนเว็บไซต์ โดยทั่วไปจะเป็นข้อมูลที่ผ่านการสรุปมาแล้ว และไม่มีข้อมูลดิบประกอบ ทำให้ยากในการนำข้อมูลไปวิเคราะห์ในประเด็นอื่น เช่น ข้อมูลสรุปจำนวนผู้เสียชีวิตในช่วง 7 วันอันตราย ซึ่งจะมีเพียงจำนวนผู้เสียชีวิต และจำนวนผู้บาดเจ็บ แต่ไม่มีรายละเอียดของแต่ละบุคคล ทำให้ไม่สามารถวิเคราะห์ถึงช่วงวัยของผู้ประสบเหตุส่วนใหญ่

2.1 แหล่งข้อมูลทุติยภูมิ

สมมตินักเรียนสนใจข้อมูลเกี่ยวกับรายได้ประชากรของประเทศไทย นักเรียนอาจเริ่มจากการค้นข้อมูลสถิติจากเว็บไซต์ให้บริการข้อมูลของสำนักงานพัฒนารัฐบาลดิจิทัล data.go.th ซึ่งเป็นศูนย์กลางข้อมูลภาครัฐเพื่อประโยชน์ต่อสาธารณชนและหน่วยงานทั้งภาครัฐและเอกชนให้สามารถค้นหาและเข้าถึงข้อมูลที่มีคุณภาพของภาครัฐได้ง่าย รูปแสดงหน้าเว็บไซต์ data.go.th ที่มีข้อมูลให้ดาวน์โหลด

ไฟล์ข้อมูลที่สามารถดาวน์โหลดได้มีทั้งในรูปแบบ xIs (โปรแกรมตารางทำงาน) และรูปแบบ csV นอกจากนี้ยังสามารถดาวน์โหลดไฟล์คำอธิบายของข้อมูล (metadata) 

ข้อมูลนี้อาจจะมีความหมายมากขึ้นถ้านักเรียนตั้งคำถามเพิ่มเติมในการหาปัจจัยอื่น ๆ ที่มีความสัมพันธ์กับรายได้เฉลี่ยของประชากร เช่น “รายได้เฉลี่ยต่อครัวเรือนสัมพันธ์กับอายุเฉลี่ยของประชากรในจังหวัดนั้น ๆ หรือไม่” จากคำถามนี้จะมีคุณลักษณะหรือแอตทริบิวต์ (attribute) ที่ต้องพิจารณาเพิ่มเติมขึ้นมาคือ อายุเฉลี่ยของประชากรในแต่ละจังหวัด ซึ่งไม่มีอยู่ในไฟล์รายได้เฉลี่ยในเว็บไซต์ data.go.th จึงจำเป็นต้องเก็บรวบรวมข้อมูลทุติยภูมิจากแหล่งอื่นเพิ่มเติม เพื่อนำมาใช้ตอบคำถามให้ได้ข้อมูลเชิงลึก (insight) มากยิ่งขึ้น ซึ่งตัวอย่างแหล่งข้อมูลทุติยภูมิอื่น ๆ ในประเทศไทย

เกร็ดน่ารู้ : แอตทริบิวต์

แอตทริบิวต์ (attribute) เป็นคุณลักษณะเฉพาะที่ระบุคุณสมบัติของวัตถุ สิ่งของ หรือสิ่งที่เราสนใจ โดยค่าที่เก็บของแต่ละแอตทริบิวต์ สามารถใช้อ้างอิงไปถึงวัตถุ สิ่งของ หรือสิ่งที่เราสนใจได้ตัวอย่าง นักเรียนคนหนึ่ง มีแอตทริบิวต์ที่แสดงคุณลักษณะเฉพาะ เช่น ชื่อ เพศ อายุ ความสูงน้ำหนัก ขนาดรองเท้า รายได้ รายจ่ายโดยค่าที่เก็บของแต่ละแอตทริบิวต์ที่ใช้อ้างอิงไปยังนักเรียนคนนี้ แสดงดังตาราง

ตัวอย่าง

ลำดับ

ชื่อแหล่งข้อมูลและเว็บไซต์

ข้อมูลที่เผยแพร่

1

สำนักงานสถิติแห่งชาติ

เว็บไซต์ www.nso.go.th

ข้อมูลสถิติปประชากร

ข้อมูลสถิติอื่น ๆ เช่น ข้อมูลเกี่ยวกับแรงงาน การศึกษา ศาสนา ศิลปวัฒนธรรม สุขภาพ

2

สำนักงานพัฒนารัฐบาลดิจิทัล (องค์การมหาชน)

เว็บไซต์ www.nesdb.go.th

ข้อมูลที่รวบรวมมาจากแหล่งต่าง ๆ จัดเป็นหมวดหมู่และเผยแพร่ในเว็บไซต์ที่มีรูปแบบเดียวกัน

3

สำนักงานคณะกรรมการพัฒนาการเศรษฐกิจและสังคมแห่งชาติ

เว็บไซต์ www.nesdb.go.th

ข้อมูลด้วนเศรษฐกิจและสังคม

ข้อมูลด้านทรัพยากรธรรมชาติและสิ่งแวดล้อม

นอกจากนี้หากนักเรียนสนใจเรื่องที่เกี่ยวข้องในระดับนานาชาติแหล่งข้อมูลทุติยภูมิที่เผยแพร่ข้อมูลสาธารณะและสามารถนำมาใช้เพื่อประโยชน์ในการเรียนรู้ด้านวิทยาการข้อมูล เช่น เว็บไซต์ Kaggle, Data World, UCI Machine Learning Repository

เกร็ดน่ารู้ : ของฟรีมีในโลก

ในการค้นหาข้อมูลสาธารณะ Google ได้เปิดให้บริการค้นหาข้อมูล Google dataset search ที่ https://toolbox.google.com/datasetsearch ซึ่งเป็นบริการที่มีประโยชน์อย่างมากต่อการค้นหาชุดข้อมูล อย่างไรก็ตามในปัจจุบันยังไม่มีชุดข้อมูลจากประเทศไทยมากนัก

2.2 ความเหมาะสมของแหล่งข้อมูล

การเลือกใช้แหล่งข้อมูลที่ไม่เหมาะสมหรือมีการบิดเบือน อาจทำให้ข้อสรุปที่ได้ผิดพลาดหรือชี้นำผิดทาง นอกจากนี้อาจทำให้เกิดอันตรายและสร้างความเสียหายในรูปแบบต่าง ๆ ได้ นักเรียนสามารถใช้มุมมองทั้ง 5 ด้าน ดังรูปประกอบการพิจารณาความเหมาะสมของแหล่งข้อมูลความทันสมัยของข้อมูล

เกร็ดน่ารู้ : IoT

ในปัจจุบันมีเทคโนโลยีอินเทอร์เน็ตของสรรพสิ่ง (Internet of Things) หรือไอโอที (IoT) เป็นเครือข่ายของวัตถุ อุปกรณ์ พาหนะสิ่งปลูกสร้าง และสิ่งของอื่น ๆ ที่มีการฝังวงจรอิเล็กทรอนิกส์ ซอฟต์แวร์ เซ็นเซอร์ และเชื่อมต่อกับอินเทอร์เน็ต สิ่งเหล่านี้สามารถเก็บบันทึกและแลกเปลี่ยนข้อมูลได้ ทำให้เข้าใจสภาพแวดล้อมที่อยู่ห่างไกลได้แบบเรียลไทม์ โดยไม่ต้องไปอยู่ในสถานที่จริง