2.2 การเตรียมข้อมูล

เทคโนโลยี (วิทยาการคำนวณ) ม.5

การเตรียมข้อมูล (Data preparation) คือ กระบวนการที่กระทำกับข้อมูลที่ได้จากขั้นตอนการเก็บรวบรวมข้อมูล เพื่อปรับให้อยู่ในรูปแบบที่เหมาะสมในการวิเคราะห์และประมวลผลข้อมูล ซึ่งการเตรียมข้อมูลยังหมายรวมถึงการเตรียมข้อมูลเพื่อนำเข้าสู่ฐานข้อมูล (Database) คลังข้อมูล (Data Warehouse) การทำเหมืองข้อมูล (Data Mining) หรือข้อมูลขนาดใหญ่ (Big Data) ด้วยเช่นกัน การเตรียมข้อมูลสามารถแบ่ง
ออกเป็น 3 ขั้นตอน คือ การทำสะอาดข้อมูล (Data cleansing) การแปลงข้อมูล (Data transformation) และการเชื่อมโยงข้อมูล (Combining data)

1. การทำความสะอาดข้อมูล (Data cleansing)

ข้อมูลที่รวบรวมมานั้น อาจมีข้อผิดพลาด ซึ่งไม่เหมาะสมที่จะนำไปประมวลผล เช่น มีค่าว่าง มีค่าที่อยู่นอกขอบเขตค่าที่เป็นไปได้หน่วยนับไ่ตรงกัน ค่าผิดปกติตลอดจนมรูปแบบที่ต่างกัน ข้อผิดพลาดเหล่านี้เกิดจากหลายสาเหตุ เช่น ผู้ให้ข้อมูลกรอกข้อมูลไม่ครบ ผู้บันทึกข้อมูลพิมพ์ข้อมูลผิดพลาด หรือการขาดข้อกำหนดในการบันทึกข้อมูลที่ตรงกัน

2. การแปลงข้อมูล (Data transformation)

เป้าหมายของการแปลงข้อมูล คือ การเตรียมข้อมูลให้อยู่ในรูปแบบที่พร้อมสำหรับการประมวลผลโดยรูปแบบของข้อมูลที่พร้อมประมวลผลในโปรแกรมตารางทำงานจะเป็นตารางที่แต่ละแถวคือข้อมูลหนึ่งตัวอย่าง และแต่ละคอลัมน์คือข้อมูลแอตทริบิวต์(Attribute) ของตัวอย่างนั้น เพื่อให้มีความเข้าใจตรงกันควรเก็บข้อมูลคำอธิบายถึงชื่อหรือความหมายของแต่ละแอตทริบิวต

2.1 การลดจำนวนข้อมูล

การลดจำนวนข้อมูลเป็นการเลือกเฉพาะข้อมูลที่สนใจ เพื่อจัดเตรียมข้อมูลก่อนการประมวลผล

2.2 การเพิ่มจำนวนข้อมูล

การเพิ่มจำนวนข้อมูลให้สามารถประมวลผลได้ง่ายขึ้น

2.3 การรวมข้อมูล

การรวมข้อมูลเป็นการจัดกลุ่มข้อมูลที่มีค่าสอดคล้องกับเงื่อนไขที่กำหนดในแอตทริบิวต์ที่สนใจ เช่น นักเรียนต้องการตั้งคำถามว่า “จังหวัดใดมีรายได้เฉลี่ยต่อครัวเรือนอยู่ในระดับต่ำ ปานกลาง สูง” ในกรณีนี้นักเรียนอาจกำหนดเงื่อนไขรายได้เฉลี่ยต่อครัวเรือนต่อเดือนในแต่ละระดับ เป็นดังนี้

ระดับต่ำ หมายถึง มีรายได้อยู่ระหว่าง 15,001-20,000 บาท

ระดับปานกลาง หมายถึง มีรายได้อยู่ระหว่าง 20,001-25,000 บาท

ระดับสูง หมายถึง มีรายได้อยู่ระหว่าง 25,001-30,000 บาท

3. การเชื่อมโยงข้อมูล (Combining data)

การเชื่อมโยงข้อมูลจากหลายแหล่งเข้าด้วยกัน ทำได้โดยใช้แอตทริบิวต์เดียวกันจากทั้งสองแหล่งเป็นตัวเชื่อม เช่น ข้อมูลลูกค้า และข้อมูลการสั่งซื้อสินค้าของลูกค้า มีแอตทรบิวต์ที่เหมือนกันคือ รหัสลูกค้า ดังนั้นจะใช้รหัสลูกค้าเป็นตัวเชื่อมโยงข้อมูลจากทั้งสองแหล่ง