สรุปหน้าที่ของนักวิทยาศาสตร์ข้อมูลและกระบวนการทางวิทยาการข้อมูล

แวะมาทักทายกันได้

วิทยาการข้อมูล หรือ วิทยาศาสตร์ข้อมูล (Data Science) เป็นที่สนใจของหลาย ๆ คนในช่วงหลายปีที่ผ่านมา เพราะว่าข้อมูลที่มากขึ้นบนโลก Internet ทำให้ผู้คนให้ความสนใจในเรื่องนี้ ส่วนหนึ่งอาจจะเป็นเพราะว่าทักษะด้านนี้เป็นที่ต้องการในตลาดงานธุรกิจออนไลน์ แต่ยังมีผู้ที่เชี่ยวชาญจริง ๆ ในด้านนี้ค่อนข้างน้อยทำให้ค่าแรงสูงตามความต้องการ

บทบาทของงานด้านนี้ส่วนมากจะอยู่ในงานด้านการทำธุรกิจ เช่น งานวางแผนธุรกิจ แผนการตลาด การวิจัย ที่จะเป็นต้องนำข้อมูลมาวิเคราะห์เพื่อให้ได้สารสนเทศมาตอบสนองความต้องการและพฤติกรรมของผู้บริโภค

โดยทักษะที่จำเป็นจะประกอบไปด้วย หลาย ๆ ทักษะรวมกัน เช่น การรวบรวมข้อมูล การจัดการข้อมูล แปลงข้อมูลให้อยู่ในรูปแบบนำมาใช้งานได้ง่าย สถิติ อัลกอริทึมและซอฟต์แวร์ที่เป็นเครื่องมือทางเทคโนโลยีต่าง ๆ machine learning การสื่อสาร การนำเสนอด้วยรูปภาพ ซึ่งทักษะต่าง ๆ ที่กล่าวมานั้น ล้วนมีทั้ง Hard Skill และ Soft Skill ซึ่งไม่จำเป็นว่าต้องเป็น นักวิทยาศาสตร์ข้อมูลก่อนแล้วจึงฝึกฝนทักษะเหล่านี้ ผู้เขียนคิดว่าสามารถนำทักษะเหล่านี้มาใช้ได้ทุกงานและทุกอาชีพ

ผู้เขียนเล็งเห็นว่าทักษะต่าง ๆ ในด้านนี้ที่เกี่ยวข้องจำเป็นทั้งปัจจุบันและอนาคต ผู้เขียนจึงพยายามศึกษาและรวบรวมข้อมูลด้วยตนเอง จึงได้รวบรวมแนวทางเอาไว้ เพื่อต่อยอดงานและอาชีพให้ดียิ่งขึ้น

โดยหน้าที่ต่าง ๆ ของนักวิทยาศาสตร์ข้อมูล มีดังนี้

1. ทำความเข้าใจกับปัญหาที่ต้องการแก้ไข (Define Question)

2. ดึงข้อมูลจากแหล่งข้อมูล (Data Collection)

3. เตรียมข้อมูลให้เรียบร้อยก่อนนำข้อมูลประมวลผล (Data Preparation)

4. ทำความเข้าใจในข้อมูลที่มี (Data analysis)

5. ประมวลผลข้อมูล (Data Modeling)

6. วัดประสิทธิภาพการประมวลผล (Data Acquisition)

7. สรุปผลและนำเสนอ (Data Visualization)

สามารถจัดกลุ่มของแต่ละหน้าที่ ออกมาเป็น 3 กลุ่ม

1. Computer science Domain วิทยาการคอมพิวเตอร์ เช่น การเขียนโปรแกรม Programming ขั้นตอนของข้อมูลหรืออัลกอริทึม Algorithm โครงสร้างข้อมูล Data Structure

2. Statistic Domain สถิติข้อมูล

3. Business Domain ความรู้ทางด้านธุรกิจ

ผู้เขียนแบ่งไว้เพื่อที่จะบอกว่า หน้าที่แต่ละส่วนนั้น ไม่จำเป็นต้องเป็นคนๆเดียวทำทุกหน้าที่ เพราะมันกว้างมาก

1. ทำความเข้าใจกับปัญหาที่ต้องการแก้ไข (Define Question)

รู้มั้ยว่าวิธีที่จะทำให้เข้าใจปัญหานั้นทำอย่างไร? ...... ผู้เขียนได้อธิบายเสร็จแล้วในข้อนี้

คงจะงงสินะครับ ตรงไหนคือคำอธิบาย มีแต่ ”คำถาม”

ถูกต้องครับ วิธีการทำความเข้าใจปัญหาที่ดีที่สุด คือ “การตั้งคำถาม” เป็นวิธีการค้นหาเพื่อให้ได้มาซึ่งคำตอบ การตั้งคำถามเกิดจากกระบวนการคิดแล้วสงสัย ดังนั้น การเป็นนักวิทยาศาสตร์ ไม่ว่าสาขาไหนก็ตาม ควรจะฝึกตั้งคำถามเอาไว้ อันที่จริงผู้เขียนคิดว่าไม่จำเป็นต้องเป็นนักวิทยาศาสตร์เพียงอาชีพเดียว ไม่ว่าอาชีพไหนก็ต้องใช้วิธีการ คิดวิเคราะห์ทุกอาชีพเช่นกันทั้งนั้น

รองลงมาจากการตั้งคำถาม คือ การกำหนดเป้าหมาย เมื่อตั้งคำถามมามากพอแล้ว เราก็เอาคำถามเหล่านั้นมากำหนดเป็นปัญหาและขอบเขตหลักที่ต้องการแก้ไข ปัญหาไหนบ้างที่อยากแก้ไข ซึ่งจะต้องเป็นปัญหาที่น่าสนใจและเกี่ยวข้องกับธุรกิจที่จะทำซึ่งไม่ใช่ปัญหาอะไรก็ได้แบบยกมาทุกปัญหาแบบนี้ ก็คงเป็นไปไม่ได้ ก็เหมือนกับการตั้งคำถามที่ ไม่น่าถามนั่นเอง นอกจากนี้ วิธีการคิดวิเคราะห์ต่าง ๆ หรือวิธีการตั้งคำถามเพื่อให้เข้าใจกระบวนการมากยิ่งขึ้น สามารถอ่านเพิ่มได้ที่ สรุปการคิดเชิงวิพากษ์ หรือ critical thinking

2. ดึงข้อมูลจากแหล่งข้อมูล (Data Collection)

ถ้าเปรียบเทียบแหล่งข้อมูลกับบ่อน้ำมันดิบก็น่าจะพอทำให้เห็นภาพ น้ำมันดิบที่ได้จากแท่นขุดเจาะ ยังไม่สามารถนำมาใช้งานได้เลยในทันที เช่นกัน แหล่งข้อมูลต่าง ๆ ไม่จำเป็นจะต้องอยู่แหล่งเดียว อาจจะมีข้อมูลหลายประเภท ทั้งข้อความ รูปภาพ วิดีโอ และ เสียง สิ่งเหล่านี้ยังไม่สามารถ ให้คำตอบในสิ่งที่เราอยากรู้เพื่อแก้ไขปัญหาได้ จึงจำเป็นต้องมีทักษะ ที่ช่วยนำข้อมูล ต่าง ๆ เหล่านี้ รวบรวม จัดกลุ่ม ให้สามารถนำมาใช้งานได้ง่ายขึ้น

นอกจากนี้ยังรวมทั้งการกำหนดชุดข้อมูลที่ตรงกับปัญหาที่ต้องการแก้ไข และ หาโซลูชันที่เหมาะสม ค่าใช้จ่ายของการได้ชุดข้อมูล การออกแบบการเก็บข้อมูล เป็นต้น

เทคนิคในข้อมูล จำเป็นจำต้องมีทักษะ Hard Skill มาใช้กันสักหน่อย อย่างเช่น โปรแกรมต่าง ๆ ที่ใช้รวบรวม หรือแม้แต่ เขียนซอฟต์แวร์ขึ้นมาใช้งาน เพื่อจัดเก็บข้อมูลต่าง ๆ ดังนั้น ในขั้นตอนนี้ อาจจะเป็นหน้าที่ของ Data Engineer ที่จะเข้ามาช่วยจัดการให้ง่ายขึ้น เช่นการทำ Data Pipeline

หากผู้อ่านยังไม่เข้าใจว่า Data Pipeline เป็นอย่างไร ลองทำความเข้าใจกับเนื้อหาในบทนี้ได้ Data Pipeline แท้จริงแล้วมันคืออะไร

3. เตรียมข้อมูลให้เรียบร้อยก่อนนำข้อมูลประมวลผล (Data Preparation)

เปรียบเทียบกับบ่อน้ำมันดิบเช่นเดิม หลังจากได้รวบรวมน้ำมันมาไว้ที่บ่อคลังเก็บน้ำมันหรือ ไซโลบ่อพัก หรืออะไรก็ตามจากนั้นเราจะนำที่ได้รวบรวมมาทำความสะอาด เพื่อให้ได้สารน้ำมันบริสุทธิ์ ที่สามารถนำไปใช้ในงานแต่ละงานให้ได้อย่างเหมาะสม ข้อมูลต่าง ๆ ทำอย่างเดียวกัน

เมื่อรวบรวมก้อนข้อมูลที่ไร้ระเบียบ มาจัดการเป็นระบบ นำเข้า นำออก อย่างเป็นระเบียบ เรียบร้อยดีแล้วก็ต้องเข้าสู่กระบวนการจัดเตรียมข้อมูล โดยตรวจสอบความถูกต้องของข้อมูลก่อน การทำงานกับข้อมูลจะต้องไม่เชื่ออะไรง่ายๆ เพราะว่าข้อมูลที่มาจากหลายๆแหล่งอาจจะเป็นข้อมูลที่ไม่ถูกต้องไม่ตรงกัน หรือ อาจจะถึงขั้นไม่มีความสัมพันธ์กันเลยก็เป็นไปได้

ยกตัวอย่างเช่น ให้ลองนึกถึงตารางข้อมูล Excel ตารางหนึ่ง ข้อมูลบางส่วนที่เรากำลังให้ความสนใจอยู่ บางตาราง ไม่ได้มีความเกี่ยวข้องกับตารางอื่นๆเลย แต่มาอยู่ในไฟล์เดียวกัน หรือ ข้อมูลในตารางบางแถว ที่จะต้องมีข้อมูล แต่กลับมีบ้างไม่มีบ้าง หรือ ข้อมูลแตกต่างจากข้อมูลอื่นอย่างเห็นได้ชัด อาจเกิดจากการก็อปปี้มาวางผิด ใส่เลข 0 เกินมาหนึ่งตัว หรือ เป็นภาษาอักขระผิดเพี้ยนอ่านไม่ออก ไม่สามารถเดาได้ว่าข้อมูลนั้น หมายถึงอะไร

ผู้เขียนยกตัวอย่างของปัญหาที่ได้มาจากข้อมูลดิบ เหมือนดั่งน้ำมันดิบที่จำเป็นต้องนำมาทำความสะอาดก่อน ดังนั้นจะต้องจัดการด้วยการทำ Data Cleaning / Data Wrangling “การทำความสะอาดข้อมูล” นอกจากนี้ยังสามารถใช้การวิเคราะห์ข้อมูลเชิงสำรวจ (Exploratory Data Analysis, EDA) ซึ่งเป็นวิธีการทำความเข้าใจข้อมูล โดยการแยกข้อมูลที่ซ่อนอยู่ เพื่อสรุปลักษณะสำคัญของข้อมูล สิ่งที่ต้องทำ เพื่อป้องกันข้อมูลผิดเพี้ยน จนกระทบไปถึงการสร้างแบบจำลอง Model ในการทำนายหรือพยากรณ์นั่นเอง

4. ทำความเข้าใจในข้อมูลที่มี (Data analysis)

หลังจากที่ทำความสะอาดข้อมูลเรียบร้อย ข้อมูลมีความถูกต้องเพียงพอและมีความสัมพันธ์กัน ง่ายต่อการทำความเข้าใจแล้ว ก็เริ่มจากนำข้อสงสัยต่าง ๆ ที่ได้จากข้อที่ 1 มาตั้งเป็นโจทย์เพื่อหาคำตอบ

เครื่องมือในการวิเคราะห์ข้อมูลนั้น โดยพื้นฐานถ้าปริมาณข้อมูลไม่เยอะมาก อาจจะ 25, 50 เป็นต้น สามารถที่จะหาคำตอบด้วยวิธีการทางสถิติเชิงพรรณนาก็ได้ หรือสมมติว่าประชากรที่อยู่ในจังหวัด กรุงเทพมหานคร มีหนี้ครัวเรือนเท่าไร เราไม่สามารถรวบรวมข้อมูลทั้งหมดในกรุงเทพฯได้ ดังนั้น จะต้องใช้วิธีการทางสถิติที่เรียกว่า สถิติเชิงอนุมาน โดยที่สุ่มประชากร ออกมาเป็นกลุ่มๆหนึ่ง ที่มีลักษะจำเพาะที่สนใจ มาวิเคราะห์ด้วยวิธีการและตั้ง Hypothesis ขึ้นมาหาคำตอบก็สามารถทำได้เช่นกัน

แต่ส่วนหนึ่งที่ Data Science จะต้องใช้เครื่องมืออย่าง Machine Learning หรือ Deep Learning เพราะว่า เมื่อข้อมูลที่มีปริมาณมหาศาลอย่างปัจจุบันและต้องการความรวดเร็ว เปลี่ยนแปลงจากระบบแบบเดิม ๆ อย่างการเดินเอกสารที่ระบบเก่ายังช้าอยู่ ดังนั้นเพื่อหาคำตอบได้เร็ว แม่นยำและถูกต้องมากขึ้นนั้น จำเป็นจะต้องมีเครื่องมืออย่าง Machine Learning ที่ใช้ในการคำนวนที่ดีมาช่วยแก้ปัญหา แม้กระทั่งเรื่องของการทำ AI อีก ซึ่งเทคนิควิธีสถิติเชิงอนุมานก็ยังเป็นพื้นฐานที่จำเป็นอยู่เช่นกัน เพราะมีความเกี่ยวข้องกับเทคนิคทาง Machine Learning เพื่อนำไปสู่การสร้างแบบจำลอง (Data Model)

5. ประมวลผลข้อมูล (Data Modeling)

ทำไมต้องสร้างแบบจำลอง แบบจำลองมีเพื่อการทำนายสิ่งที่เราอยากรู้ว่าข้อมูลที่เข้ามาในระบบจะอยู่ในกลุ่มใด เพื่อการตัดสินใจได้อย่างถูกต้องและรวดเร็ว การสร้างแบบจำลองจำเป็นจะต้องเลือกรูปแบบ ขั้นตอน หรือ เทคนิค ที่เหมาะสมกับงานนั้น ๆ หรือปัญหานั้น ๆ โดยจะรวมถึงการกำหนด Baseline จุดเปรียบเทียบเพื่อ ดูประสิทธิภาพของเทคนิคให้มีคุณภาพมากขึ้น ซึ่งเทคนิคเครื่องมือมีมากมายขึ้นอยู่กับลักษณะการใช้งานที่เหมาะสม

การจัดกลุ่มจำแนกประเภท Classification

การเรียนรู้ของเครื่อง แบบมีผู้สอน Supervised Machine Learning

การเรียนรู้ของเครื่อง แบบไม่มีผู้สอน Unsupervised Machine Learning

สมการเชิงถดถอย Regression Expression

จากเทคนิคที่กล่าวมาข้างต้นนั้น ยังมีเทคนิคอื่น ๆ อีกมากมายแต่ในทีนี้ขอยกโจทย์ปัญหาตัวอย่าง อย่างเรื่องทางด้านการเงิน มาอธิบายอย่างคร่าวๆ ให้ได้อ่านกันก่อน

สมมติว่าคุณเป็นพนักงานไอทีของธนาคารแห่งหนึ่งแล้วอยากจะนำวิทยาศาสตร์ข้อมูลมาใช้เพื่อพัฒนาประสิทธิภาพของการอนุมัติการกู้ยืมเงิน โจทย์ลักษณะนี้เหมาะอย่างยิ่งที่จะนำ Machine learning มาใช้งานโดยที่จะช่วยเช็คว่าควรที่จะอนุมัติการกู้ยืมเงินหรือไม่ แบบอัตโนมัติ ซึ่งโจทย์ลักษณะจะจัดอยู่ในกลุ่มของ Classification หรือการจำแนกข้อมูล เพื่อแยกใบคำขอดูว่า ควรจะอนุมัติ หรือ ไม่ควรอนุมัติ

โดยสิ่งแรกที่จะทำ คือ นำข้อมูลประวัติของผู้กู้ยืมเงินในอดีต และ ผลลัพธ์การกู้ยืมเข้ามาใส่ใน Algorithm เพื่อทำการ “สอน” (Training) มาทำการสร้างเป็น Model จากนั้น ก็นำข้อมูลใบคำขอจริง เข้าไปใน Model เพื่อดูว่า ใกล้เคียงกับ ผลลัพธ์ในอดีตว่า ควรจะอนุมัติ หรือ ไม่ควรจะอนุมัติกระบวนดังกล่าว สามารถนำไปพิจารณาแบบอัติโนมัติได้

6. วัดประสิทธิภาพการประมวลผล (Data Acquisition)

จากข้อ 5 ที่กล่าวมา ก่อนจะนำ Model ที่ออกแบบไปใช้งาน จะต้องผ่านการทดสอบประสิทธิภาพก่อนที่จะนำไปใช้งานจริง เพื่อดูว่าถ้าเรานำข้อมูลไปใช้งานกับข้อมูลรูปแบบต่าง ๆ แล้วนั่นผลของการตัดสินใจจะเป็นอย่างไร

สิ่งที่สำคัญ คือ เราจะต้องแยกข้อมูลในการ Train Model กับ ข้อมูลที่จะใช้งานจริง ออกจากกันเพื่อป้องกัน การสร้าง Model มาแล้วใช้ได้กับข้อมูลบางกลุ่มเท่านั้น

วิธีการทดสอบ คือ เราจะส่งข้อมูลที่ไม่มีผลเข้าไปใน Model (แต่จริง ๆ แล้วมีผลลัพธ์อยู่แล้วที่เป็นผลลัพธ์จริง ๆ ในที่นี้เรียกว่า Actual) แล้วนำผลลัพธ์ของการตัดสินใจ (Predict) ที่เกิดจาก Model มาเปรียบเทียบกับ Actual ว่าเป็นผลข้อมูลที่ถูกต้องหรือไม่ แต่การดูว่า Model มีประสิทธิภาพหรือไม่นั้น จะต้องนำผลลัพธ์ทั้งหมดของกลุ่มข้อมูลที่ทดสอบ มาใส่ในตารางที่เรียกว่า Confusion Metrix มาเปรียบเทียบอัตราส่วนดูในแต่ละค่ากัน โดยค่าต่าง ๆ นั้น เช่น Accuracy, Precision, Recall เป็นต้น ทั้งนี้ยังมีตัวแปรอื่น ๆอีกมากมาย เพื่อดูประสิทธิภาพ ทั้งหมดนี้ จะนำมาเป็นตัวชี้วัดได้ว่า Model มีประสิทธิภาพหรือไม่

7. สรุปผลและนำเสนอ (Data Visualization)

Data Visualization คือ การนำข้อมูลทั้งหมดที่ได้มานั้น หรือ ข้อมูลข้อสรุปนั้นมาทำให้ดูง่ายขึ้น สมมติว่ามีตารางข้อมูล มีข้อมูลตัวหนังสืออยู่เต็มไปหมด คนที่ทำข้อมูลเท่านั้นที่จะเข้าใจ สิ่งนี้คือสิ่งที่จะต้อง ปรับเปลี่ยนให้ข้อมูลที่ดูไม่รู้เรื่องนั้น ทำให้ดูรู้เรื่อง เช่น การทำเป็นกราฟต่าง ๆ เช่น กราฟแท่ง กราฟวงกลม กราฟเส้น เป็นต้น ทั้งนี้ยังต้องมีความรู้ในเรื่องของการนำ กราฟต่างๆมาใช้ให้ถูกต้อง เหมาะสมอีกด้วย นับว่าเป็นเหมือนกับภาษาหนึ่งเลยเหมือนกัน

จากข้อสรุปทั้งหมดนี้ เป็นการสรุปแบบคร่าวๆ ให้พอเห็นภาพว่า กระบวนการทำงานกับข้อมูลและการวิเคราะห์เพื่อให้ได้มาซึ่งคำตอบนั้นมีกระบวนการอย่างไร

ฝากกดโฆษณา Google Ads สัก click เพื่อเป็นกำลังใจแก่ผู้เขียนด้วยนะครับ

Download File บทความนี้

พูดคุยแลกเปลี่ยนได้ที่ Facebook Fanpage

REF:

https://lms.thaimooc.org

แวะมาทักทายกันได้

สรุปหน้าที่ของนักวิทยาศาสตร์ข้อมูลและกระบวนการทางวิทยาการข้อมูล

Categories

Tags

สรุปหน้าที่ของนักวิทยาศาสตร์ข้อมูลและกระบวนการทางวิทยาการข้อมูล

Categories

Tags

ติดต่อเรา