1.3 กระบวนการทางวิทยาการข้อมูล

เทคโนโลยี (วิทยาการคำนวณ) ม.5

         การเพิ่มมูลค่าให้กับผลิตภัณฑ์หรือบริการด้วยข้อมูลนั้น นอกจากจะต้องมีความเข้าใจเกี่ยวกับผลิตภัณฑ์หรือบริการแล้ว นักเรียนยังต้องเข้าใจกิจกรรมต่าง ๆ ที่เกี่ยวกับการจัดหาและประมวลผลข้อมูลอีกด้วย เนื่องจากกิจกรรมที่ต้องทำค่อนข้างหลากหลาย เพื่อไม่ให้สับสนหรือพลาดประเด็นใดไปนักเรียนสามารถดำเนินการตามกระบวนการของวิทยาการข้อมูลที่ระบุขั้นตอนสำคัญต่าง ๆ ที่ประกอบด้วย การตั้งคำถาม การเก็บรวบรวมข้อมูลการสำรวจข้อมูล การวิเคราะห์ข้อมูล การสื่อสารและการทำผลลัพธ์ให้เป็นภาพสู่ผู้ใช้กลุ่มเป้าหมาย

กระบวนการวิทยาการข้อมูล

          กระบวนการวิทยาการข้อมูล (data science process)  เป็นขั้นตอนในการดำเนินกิจกรรมเพื่อไม่ให้สับสนหรือพลาดประเด็น นักเรียนสามารถดำเนินการตามกระบวนการของวิทยาการข้อมูลที่ระบุขั้นตอนสำคัญต่าง ๆ ที่ประกอบด้วย การตั้งคำถาม  การเก็บรวบรวมข้อมูล การสำรวจข้อมูล การวิเคราะห์ข้อมูล   การสื่อสารและการทำผลลัพธ์ให้เป็นภาพ นักเรียนสามารถดำเนินการตามกระบวนการได้ ดังนี้

ขั้นตอนที่ 1 การตั้งคำถาม (ask an interesting question)

ขั้นตอนที่ 1 การตั้งคำถาม (ask an interesting question) คือ ตั้งคำถามที่ตนเองสนใจเป็นกระบวนการวิทยาการข้อมูลขั้นตอนแรกในการดำเนินกิจกรรม การตั้งคำถาม เช่น กรมควบคุมโรคต้องการวางแผนเกี่ยวกับการรับมือโรคไข้หวัดใหญ่ ในปีถัดไปเพื่อเป็นการสำรองยาและเวชภัณฑ์ อีกทั้งเป็นการบริหารจัดการวัคซีนของกรมควบคุมโรค เป็นต้น

ขั้นตอนที่ 2 การเก็บรวบรวมข้อมูล (get the data)

ขั้นตอนที่ 2 การเก็บรวบรวมข้อมูล (get the data) คือ ต้องคำนึกถึงว่าจะเก็บข้อมูลเรื่องอะไร จากที่ไหนจำนวนเท่าใด และความน่าเชื่อถือของแหล่งข้อมูล ข้อมูลที่เก็บรวบรวมได้จะต้องทำการตรวจสอบ ขจัดข้อมูลที่ผิด หรือข้อมูลที่ไม่สมบูรณ์ เพื่อให้ได้ข้อมูลนำเข้าที่ดี ไปสู่ผลที่ดี เหมือนกับประโยคที่ว่า “garbage in garbage out” เช่น จากข้อมูลของกรมควบคุมโรคในทุกปีในช่วงฤดูฝนตั้งแต่เดือนมิถุนายนถึงกันยายนของทุกปี ซึ่งจะมีผู้ติดเชื้อสูงมากในทุกภาคของประเทศ

ขั้นตอนที่ 3 การสำรวจข้อมูล (explore the date)

ขั้นตอนที่ 3 การสำรวจข้อมูล (explore the date) คือ เป็นการทำความเข้าใจรูปแบบ และค่าของข้อมูล ในขึ้นตอนนี้เราจะต้องรวบรวมข้อมูล แล้วนำข้อมูลที่รวบรวมมาพล็อต (plot) ทำให้เป็นภาพ (visualizations) หรือแผนภูมิ (charts) เพื่อให้มองเห็นความหมายที่ซ่อนเร้นอยู่ของข้อมูลผ่านกราฟ ซึ่งอาจพบความผิดปกติของข้อมูลได้ โดยนำเสนอในรูปแบบเส้นกราฟแนวโน้ม หรือ แผนภูมิแท่งในการนำเสนอข้อมูลผู้ติดเชื้อไข้หวัดใหญ่ในทุก ๆ ของปีก่อน

ขั้นตอนที่ 4 การวิเคราะห์ข้อมูล (analyze the data)

ขั้นตอนที่ 4 การวิเคราะห์ข้อมูล (analyze the data) คือ เพื่ออธิบายความหมาย ความสัมพันธ์ของข้อมูล และทำนายเหตุการณ์ที่จะเกิดขึ้นในอนาคต โดยต้องการทำนายว่าในอนาคตหากเข้าสู่ช่วงฤดูฝน ควรสำรองยาและเวชภัณฑ์ รวมถึงเตียงเพื่อรองรับผู้ป่วยไข้หวัดใหญ่ ให้เพียงพอในช่วงเวลานั้น

          การวิเคราะห์ข้อมูลจึงเป็นการเปลี่ยนข้อมูลให้มีคุณค่า โดยนำผลลัพธ์ที่ได้จากการวิเคราะห์มาใช้ประโยชน์ โดยสามารถหาได้จากการวิเคราะห์ข้อมูล 3 ประเภท ดังนี้

  1. การวิเคราะห์เชิงพรรณนา (Descriptive Analysis) เป็นการวิเคราะห์ขั้นพื้นฐาน ที่ทำให้เห็นภาพรวมของข้อมูลและความสัมพันธ์ระหว่างข้อมูล ช่วยอธิบายว่าเกิดอะไรขึ้นบ้างในช่วงที่ผ่านมา เพื่อช่วยในการตัดสินใจ เช่น การทำรายงานยอดขายรายเดือนของห้างสรรพสินค้า ปัจจัยในการซื้อซ้ำของลูกค้าต่อผลิตภัณฑ์ เป็นต้น

  2. การวิเคราะห์เชิงทำนาย (Predictive Analysis) เป็นการวิเคราะห์ที่ช่วยในการคาดการณ์ หรือทำนายสิ่งที่น่าจะเกิดขึ้นในอนาคต โดยใช้ข้อมูลในอดีตมาช่วยในการทำนาย การทราบถึงความเป็นไปได้ของเหตุการณ์ที่จะเกิดขึ้นในอนาคต ทำให้บุคคลหรือองค์กรสามารถวางแผนการดำเนินงานที่มีประสิทธิภาพได้ เช่น การคาดการณ์ยอดขายในเทศกาลต่าง ๆ ทำให้ร้านค้าทราบถึงปริมาณสินค้าที่ควรจะสั่งซื้อ หรือจัดเก็บให้เพียงพอต่อความต้องการของลูกค้า

  3. การวิเคราะห์เชิงแนะนำ (Prescriptive Analysis) เป็นการวิเคราะห์ต่อยอดจากการทำนายผลที่น่าจะเกิดขึ้น โดยการจำลองทางเลือกที่เป็นไปได้ของสถานการณ์ (Simulation) และคาดการณ์ผลที่ได้ของแต่ละสถานการณ์ เพื่อแนะนำทางเลือกที่เหมาะสมที่สุดกับสถานการณ์ที่จะเป็นไปได้ เช่น การเลือกวิธีโฆษณาสินค้าที่จะทำให้ยอดขายสูงที่สุด

          กล่าวคือ การวิเคราะห์ข้อมูลนอกจากจะทำให้เห็นภาพรวมของข้อมูลแล้ว ยังช่วยในการคาดการณ์ผลในอนาคตและแนะนำทางเลือกที่เหมาะสมที่สุดสำหรับการตัดสินใจของบุคคลหรือองค์กร โดยการวิเคราะห์เชิงพรรณนาเป็นการวิเคราะห์ขั้นพื้นฐาน การวิเคราะห์เชิงทำนายเป็นการวิเคราะห์เพื่อทำนายสิ่งที่อาจจะเกิดขึ้นในอนาคต ส่วนการวิเคราะห์เชิงแนะนำเป็นการวิเคราะห์ที่ต่อยอดมาจากการวิเคราะห์เชิงพรรณนาและการวิเคราะห์เชิงทำนาย โดยใช้ทักษะการแก้ปัญหาและวางแผน

ขั้นตอนที่ 5 การสื่อสารและการทำผลลัพธ์ให้เป็นภาพ (communicate and visualize the results)

ขั้นตอนที่ 5 การสื่อสารและการทำผลลัพธ์ให้เป็นภาพ (communicate and visualize the results) คือ เป็นการสื่อสารผลลัพธ์ของข้อมูลโดยการถ่ายทอดเป็นเรื่องราวหรือเป็นภาพให้ผู้อื่นเข้าใจว่าเราได้เรียนรู้อะไรจากข้อมูล โดยข้อมูลที่จะนำไปประชาสัมพันธ์หรือเผยแพร่ให้แก่ผู้รับสารได้รับรู้ถึงสิ่งที่ผู้สร้างต้องการสื่อสาร ให้เข้าใจตรงกัน เป็นเรื่องที่ทำได้ยาก เพราะผู้สร้างจะต้องพยายามศึกษาว่า ข้อมูลส่วนไหนสำคัญ ข้อมูลส่วนไหนมีรูปแบบที่น่าสนใจ หากเป็นตัวเลขจำนวนมาก ผู้ที่พยายามจะทำความเข้าใจข้อมูลนั้น ๆ อาจต้องใช้เวลานาน หรืออาจทำให้ไม่สามารถมองเห็นความรู้ หรือประเด็นสำคัญที่อยู่ภายใต้ข้อมูลนั้น ๆ ได้ แต่วิธีหนึ่งที่จะทำให้ผู้รับสารรับรู้สิ่งที่ผู้สร้างต้องการสื่อสารคือการใช้ภาพ

          การสื่อสารด้วยข้อมูล เป็นการถ่ายทอดข้อมูลหรือการสื่อสารจากแหล่งข้อมูลไปยังผู้รับสารนั้น บางครั้งเป็นเรื่องที่ทำได้ยาก จำเป็นที่จะต้องจัดรูปแบบของข้อมูล และนำเสนอข้อมูลไปแสดงในรูปแบบที่เหมาะสม เพื่อให้ผู้รับสารเข้าใจ หรือมองเห็นประเด็นสำคัญ

          การทำข้อมูลให้เป็นภาพ ข้อมูลที่เราได้มานั้น ส่วนใหญ่จะอยู่ในรูปของจำนวน และมีเป็นจำนวนมาก แม้ว่าการตอบคำถามที่เราสนใจ หรือสิ่งที่เราอยากจะนำเสนอ จะมีอยู่แล้วในข้อมูลเหล่านั้น แต่ก็ยากที่จะทำความเข้าใจ หรืออาจสื่อสารได้โดยง่าย  เช่น ข้อมูลที่อยู่ในรูปแบบตารางถึงแม้จะจัดการนำเสนอข้อมูลแล้ว แต่ตัวเลขที่มีปริมาณมาก เราไม่สามารถเห็นเป็นภาพที่แสดงปริมาณมากน้อยได้ จึงมีความจำเป็นที่จะต้องทำข้อมูลที่อยู่ในตารางเหล่านั้นทำให้เป็นภาพ โดยอาจจะใช้แผนภูมิวงกลม แผนภูมิแท่ง กราฟเส้น หรือในรูปอินโฟกราฟิกอื่น เป็นต้น

           กระบวนการวิทยาการข้อมูลจึงประกอบด้วย 5 ขั้น ได้แก่ การตั้งคำถาม การเก็บรวบรวมข้อมูล     การสำรวจข้อมูล การวิเคราะห์ข้อมูล การสื่อสารและการทำผลลัพธ์ให้เป็นภาพ จึงทำให้การดำเนินกิจกรรมประสบความสำเร็จและเกิดประสิทธิภาพ

แหล่งที่มา

สถาบันส่งเสริมการสอนวิทยาศาสตร์และเทคโนโลยี.  (2561).  เทคโนโลยี(วิทยาการคำนวณ) ชั้นมัธยมศึกษาปีที่ 5  กรุงเทพฯ :  โรงพิมพ์แห่งจุฬาลงกรณ์มหาวิทยาลัย.

ขั้นตอนการนำข้อมูลไปใช้เพื่อการแก้ปัญหา

การสำรวจข้อมูล (explore the date) เป็นการทำความเข้าใจรูปแบบ และค่าของข้อมูล โดยเราจะต้องรวบรวมข้อมูล แล้วนำข้อมูลที่รวบรวมมาพล็อต (plot) ทำให้เป็นภาพ (visualizations) หรือแผนภูมิ (charts) เพื่อให้มองเห็นความหมายที่ซ่อนเร้นอยู่ของข้อมูลผ่านกราฟ ซึ่งอาจพบความผิดปกติของข้อมูลได้ โดยนำเสนอในรูปแบบเส้นกราฟแนวโน้ม หรือ แผนภูมิแท่งในการนำเสนอข้อมูล เครื่องมือพื้นฐานในการสำรวจข้อมูล เช่น กราฟเส้น ฮิสโทแกรม แผนภาพกล่อง หรือแผนภาพกระจาย โดยสามารถอธิบายรายละเอียดได้ดังต่อไปนี้

11677 5

ภาพที่   1 กราฟเส้น
ที่มา, https://unsplash.com/photos/5gGcn2PRrtc/, Markus Spiske

  1. กราฟเส้น (Line Graphs) คือ การนำเสนอโดยกราฟเส้นจะเป็นที่นิยมใช้กันมากใช้กับข้อมูลอนุกรมเวลา (Time Series Data) ซึ่งแสดงการเปลี่ยนแปลงลำดับก่อนหลังของเวลาที่ข้อมูลนั้นเกิดขึ้นและมีจำนวนมาก เป็นการสร้างที่ง่าย อาจเป็นเส้นตรงหรือเส้นโค้งก็ได้ ขึ้นอยู่กับลักษณะข้อมูลที่มีอยู่ ใช้เปรียบเทียบระหว่างหลายรายการในระยะยาว
  1. ฮิสโทแกรม (Histogram) คือกราฟแท่งแบบเฉพาะที่แสดงความสัมพันธ์ระหว่างข้อมูลเป็นหมวดหมู่ที่เรียกว่าชั้นข้อมูลกับความถี่ของข้อมูล เพื่อดูการกระจายของข้อมูล ลักษณะของข้อมูลที่เป็นหมวดหมู่จะเรียงลำดับจากน้อยไปหามากโดยจำนวนหมวดหมู่ของข้อมูลจะจัดตามความเหมาะสม โดยแกนตั้งจะเป็นตัวเลขแสดง “ความถี่” และแกนนอนจะเป็นข้อมูลคุณสมบัติของสิ่งที่เราสนใจ แท่งกราฟแต่ละแท่งจะมีความกว้างเท่ากันซึ่งเท่ากับกว้างของชั้นข้อมูล ส่วนความสูงของกราฟแต่ละแท่งนั้นจะสูงเท่ากับจำนวนความถี่ของแต่ละชั้นข้อมูล

          ประโยชน์สำคัญของการใช้ฮิสโทแกรมคือการใช้เพื่อวิเคราะห์ความถี่ของข้อมูลแล้วตัดสินใจว่าการแจกแจงหรือการกระจายข้อมูลแบบใดมีผลต่อผลิตภัณฑ์ไปในทิศทางที่ดีหรือไม่และยังสามารถใช้ในการเปรียบเทียบข้อมูลจากการผลิตก่อนและหลังการปรับปรุงและนำมาใช้วิเคราะห์หาความสามารถของกระบวนการผลิต (Process capability) ได้อีกด้วย

ลักษณะของฮิสโตแกรม (Histogram) ที่พบและการแปลผลที่ได้ดังนี้

         1). ฮิสโทแกรมรูปธรรมชาติ (Natural histogram) ถือว่าเป็นลักษณะของข้อมูลดีที่สุด คือเป็นระฆังคว่ำ มีลักษณะสมมาตร มีค่าเฉลี่ยอยู่ตรงกลางและอยู่ภายในขีดจำกัดข้อกำหนดเฉพาะด้านบนและขีดจำกัดข้อกำหนดด้านล่าง

 

         2). ฮิสโทแกรมที่มีลักษณะเบ้ซ้าย (Negativity skewed histogram) คือยอดกราฟไม่ได้อยู่ตรงกลาง แต่จะเอนไปทางขวามือค่าเฉลี่ยของข้อมูลมีค่าค่อนข้างสูง ในกรณีนี้ตั้งข้อสังเกตได้ว่าอาจเกิดจากการปรับตั้งเครื่องจักรไม่ถูกต้อง

 

         3). ฮิสโทแกรมที่มีลักษณะเบ้ขวา (Positively skewed histogram) คือยอดกราฟไม่ได้อยู่ตรงกลาง แต่จะเอนไปทางซ้ายมือค่าเฉลี่ยของข้อมูลมีค่าค่อนข้างต่ำ

 

         4). ฮิสโทแกรมที่มีลักษณะเบ้ซ้าย (Plateau histogram) ข้อมูลที่ค่าใกล้เคียงกันเป็นจำนวนมากอยู่บริเวณตรงกลาง

 

ฮิสโทแกรมที่มีลักษณะเป็นภูเขา 2 ยอด (Twin peak histogram) ข้อมูลที่เกิดจากการปะปนกันของ 2 การแจกแจงที่มีค่าเฉลี่ยต่างกัน ซึ่งสามารถตั้งข้อสังเกตได้ว่าอาจเกิดจากเครื่องจักร 2 เครื่องที่มีการปรับตั้งค่าการผลิตแตกต่างกัน

  1. แผนภาพกล่อง (Box-and-whisker plot หรือ Box plot) เป็นแผนภาพง่าย ๆ แต่มีประโยชน์ในการสำรวจและสรุปลักษณะของข้อมูล แผนภาพกล่องจะแสดงลักษณะที่สำคัญของข้อมูลชุดนั้น ๆ ได้แก่ ค่ากลาง การกระจาย ลักษณะสมมาตรของข้อมูล และข้อมูลผิดปกติ (outliers) แผนภาพกล่อง ประกอบด้วย ค่าควอร์ไทล์ทั้งสามค่าต่ำสุดและค่าสูงสุดในข้อมูลชุดนั้น โดยสร้างเป็นภาพกล่องสี่เหลี่ยมผืนผ้าที่อาจจัดวางตามแนวนอนหรือแนวตั้งก็ได้ ด้านหัวและท้ายของกล่องเป็นค่าควอร์ไทล์ที่ 1 กับค่าควอร์ไทล์ที่ 3 ความยาวของกล่องนี้จึงคลุมข้อมูลกึ่งกลางจำนวนร้อยละ 50 ของทั้งหมด

11677 6

ภาพที่  2 แผนภาพกล่อง (box plot)

  1. แผนภาพการกระจาย (Scatter plot) เป็นเครื่องมือที่ช่วยแสดงความสัมพันธ์ระหว่าง 2 แอททริบิวต์ คือผังที่ใช้แสดงว่าข้อมูล 2 ชุดหรือตัวแปร 2 ตัว มีความสัมพันธ์ซึ่งกันและกัน หรือไม่ และระดับความสัมพันธ์นั้นมีมากน้อยเพียงใด โดยจะทำการหาค่าสหสัมพันธ์ (r) ของทั้ง 2 ตัวแปรที่ แสดงด้วยแกน x และแกน y ของกราฟว่าค่าสหพันธ์เป็นบวกหรือเป็นลบ ซึ่งค่าสหสัมพันธ์เป็นบวกนั่นแสดงว่า ตัวแปรทั้ง 2 ตัวมีแปรตามกัน แต่หากเป็นลบก็แสดงว่า ตัวแปรทั้ง 2 ตัวแปรผกผันต่อกัน โดยที่ ตัวแปร X คือ ตัวแปรอิสระ หรือค่าที่ปรับเปลี่ยนไป ตัวแปร Y คือ ตัวแปรตาม หรือผลที่เกิดขึ้นในแต่ละค่าที่เปลี่ยนแปลงไปของตัวแปร X เช่น เรา อยากทราบว่าขนาดความยาวปีกของคอปเตอร์กระดาษมีผลต่อระยะเวลาที่ลอยอยู่ในอากาศโดยตรงหรือไม่ เรา สามารถใช้แผนภูมิการกระจายเพื่อหาความสัมพันธ์ หรือ รายได้เฉลี่ยต่อครัวเรือน และรายจ่ายเฉลี่ยต่อครัวเรือน ถ้าต้องการสำรวจว่าทั้ง 2 แอททริบิวต์นี้มความสัมพันธ์กันหรือไม่ เป็นต้น

11677 7 

ภาพที่  3 แผนภาพการกระจาย (scatter plot)

  1. การสำรวจข้อมูลโดยการเขียนโปรแกรม การสำรวจข้อมูลโดยการเขียนโปรแกรม จะต้องนำเข้าข้อมูลสู่โปรแกรมที่ใช้สำหรับการประมวลผล โดยถ้าข้อมูลมีปริมาณไม่มากในขั้นตอนการเตรียมข้อมูล สามารถเตรียมข้อมูลจากไฟล์ที่อยู่ในรูปแบบ xls หรือ csv ก่อนเริ่มการนำเข้าข้อมูล จากนั้นจึงเลือกใช้การประมวลผลด้วยโปรแกรมสำเร็จรูป หรือการเขียนโปรแกรม แต่หากมีข้อมูลมากกว่าที่โปรแกรมสำเร็จรูปจะสามารถจัดเก็บหรือประมวลผลได้ จำเป็นต้องใช้วิธีการนำเข้าข้อมูลและประมวลผลด้วยโปรแกรมภาษา หรือใช้โปรแกรมสำเร็จรูปเฉพาะงานด้านวิทยาการข้อมูล ซึ่งในกรณีนี้ไม่จำเป็นต้องดำเนินการจัดเตรียมข้อมูลตามขั้นตอนที่กล่าวมาแล้วข้างต้น

          การสำรวจข้อมูล เป็นการทำความเข้าใจรูปแบบ และค่าของข้อมูล โดยเราจะต้องรวบรวมข้อมูล แล้วนำข้อมูลที่รวบรวมมาพล็อตทำให้เป็นภาพ หรือแผนภูมิ โดยใช้เครื่องมือในการสำรวจข้อมูล เช่น กราฟเส้น ฮิสโทแกรม แผนภาพกล่อง แผนภาพการกระจาย การสำรวจข้อมูลโดยการเขียนโปรแกรม เป็นต้น

 แหล่งที่มา

มารุต มูเก็ม.  (2560).  ฮิสโตแกรม สืบค้นเมื่อ 10 มิถุนายน 2563, จาก http://www.mim.psu.ac.th/index.php/2-uncategorised/93-histogram.

สถาบันส่งเสริมการสอนวิทยาศาสตร์และเทคโนโลยี.  (2561).  เทคโนโลยี(วิทยาการคำนวณ) ชั้นมัธยมศึกษาปีที่ 5  กรุงเทพฯ :  โรงพิมพ์แห่งจุฬาลงกรณ์มหาวิทยาลัย.