สรุปความเข้าใจการใช้ข้อมูลด้วยภาพ understanding-data-visualization

Image placeholder
แวะมาทักทายกันได้


สรุปความเข้าใจการใช้ข้อมูลด้วยภาพ ตอนที่ 1

1️⃣ ในโพสต์ที่ผ่านๆ มาเป็นการนำชุดข้อมูลตัวอย่างมาทำความเข้าใจด้วยวิธีทางสถิติในการคำนวนค่าเพื่อสรุปออกมา โดยใช้วิธีการสำรวจข้อมูล สรุปข้อมูล และ นำไปตัดสินใจในบางเรื่องเพื่อใช้ประโยชน์

2️⃣ ประเด็นที่จะเขียนถึงในบทความต่อไปนี้ เป็นประเด็นการนำข้อมูลที่เราสรุปมาทำให้เป็นภาพ

3️⃣ กระบวนการสรุปข้อมูลที่เขียนถึงในโพส์ที่ผ่านๆมานั้น ไม่ว่าจะเป็นการสำรวจข้อมูล การสรุปข้อมูล ก็ตาม ซึ่งเป็นขั้นตอนแรกๆที่ทำก็จริง แต่ว่า มักจะใช้กับผู้ที่ทำการสำรวจหรือเอาไว้ดูเอาเอง จดเอาไว้เผื่อลืม เอามาเปรียบเทียบและดูย้อนหลัง

4️⃣ไม่สามารถนำไปใช้งานส่งต่องานให้ทีมอื่นๆได้ เพราะ การสื่อสารด้วยข้อความมีทั้งเรื่อง คำศัพท์ ความหมายของสัญลักษณ์ต่างๆ ภาษา ความเชี่ยวชาญเฉพาะทาง และอื่นๆอีกมากมาย ยกเว้นแต่ว่า คนที่สื่อสารด้วยจะเข้าใจภาษาเดียวกัน

5️⃣ อันที่จริงแล้วเป็นเรื่องของการสื่อสาร ในยุคนี้เราจะต้องยกให้ user-centric หรือผู้รับสารเป็นศูนย์กลาง คือ ทำอย่างไรก็ได้ ให้คนอื่นเข้าใจได้ง่ายที่สุด เรื่องเหล่านี้ก็จะมีเรื่องของ UX เข้ามาเกี่ยวข้อง

6️⃣ เพราะประสบการณ์ของผู้รับสารสำคัญ จะช่วยให้ผู้รับสารเข้าใจจากประสบการณ์เดิม เพื่อใช้ในการสรุป หรือ การตีความจากประสบการณ์ที่มี หรือ สร้างประสบการณ์ใหม่แต่ต้องสะดวกและง่ายกว่าเดิมไปตามสภาพแวดล้อม หรือ ทำยังไงก็ได้ให้ผู้ใช้ไม่ต้องคิด

7️⃣ ทั้งยังสามารถต่อยอดไปยังเรื่องต่างๆได้ ไม่ว่าจะเป็น เช่น การเล่าเรื่องด้วยข้อมูล


  • ————————————————————— *

  •     หากใครไม่อยากพลาดโพสต์เรื่องเกี่ยวกับ    *
    
  • data analyst, data science, data engineer และ *

  • programming ในโพสต์ถัดๆไป ฝากแชร์ *

  • กดติดตาม profile กันไว้ด้วยนะครับ *

  • *————————————————————— **


8️⃣ ดังนั้นจากที่กล่าวมาข้างต้น ในการจะทำความเข้าใจข้อมูลหลักๆ แล้วนั้นมีอยู่ 3 วิธี คือ

  1. คำนวนค่าในชุดข้อมูลด้วยวิธีทางสถิติ ไม่ว่าจะเป็นค่า Mean Max Min Median Mode percentile outlier propergation counting ต่างๆ เพื่อให้เราเข้าใจในชุดข้อมูลนั้นๆ
  2. การใช้ Model ทางสถิติ เช่น linear regression, logistic regression เพื่ออธิบายความสัมพันธ์ระหว่างตัวแปร correlation
  3. การนำข้อมูลมาสร้างเป็นกราฟ หรือรูปภาพ

9️⃣ การ Plot ข้อมูล เป็นส่วนที่สำคัญแม้ว่าการสรุปข้อมูลสถิติ วิธีในข้อมูลที่ 1 จะได้ผลลัพท์เหมือนกันก็ตาม แต่การสรุปด้วยข้อที่ 1 อาจจะทำให้เกิดความเข้าใจผิดได้ ไม่สามารถเห็นภาพที่แท้จริงได้

ข้อดีของการทำให้เป็นภาพ มีหลายอย่าง ดังนี้

  • ช่วยให้เข้าใจข้อมูลได้ง่ายขึ้น
  • ช่วยให้เห็น Insight ได้ชัดเจน
  • ช่วยให้ตัดสินใจได้ดีขึ้น
  • ช่วยให้สื่อสารข้อมูลได้อย่างมีประสิทธิภาพ

1️⃣1️⃣ หลักๆในโพสต์ของบทความนี้จะพูดถึงในข้อที่ 3 ส่วนข้อที่ 1 และ 2 มันก็ใช้การสร้างกราฟ เช่นเดียวกัน

1️⃣2️⃣ ก่อนที่จะไปเรื่องของการสร้างกราฟ จะต้องเข้าใจในการดูข้อมูลก่อนว่าเป็นประเภทใด ถ้ายังจำกันได้ ในโพสต์ที่ผ่านมา จะเขียนถึงอยู่หลายครั้งในเรื่องของ ประเภทของข้อมูลมีอยู่ 2 ประเภท คือ ข้อมูลที่เป็นตัวเลข และ ข้อมูลหมวดหมู่ เพราะจะมีผลต่อการเลือกกราฟมาใช้งาน

1️⃣3️⃣ ข้อมูลที่เป็นตัวเลข หรือ ข้อมูลที่มีความต่อเนื่องการ (continuous) เช่น อุณหภูมิ ส่วนสูงของคนไทย รายได้ของคนไทย เป็นต้น

1️⃣4️⃣ ข้อมูลที่เป็นหมวดหมู (categorical) เช่น สีผมของชาวอเมริกา เพศ อาชีพในประเทศไทย ยี่ห้อสินค้า เป็นต้น

1️⃣5️⃣ เมื่อเข้าใจความแตกต่างระหว่าง ข้อมูลทั้ง 2 ประเภทแล้ว ในโพสต์นี้จะกล่าวถึงการใช้กราฟประเภท histogram และ bloxplot ซึ่งจะใช้ข้อมูลที่เป็นตัวเลขมาใช้ในการ plot กราฟ

1️⃣6️⃣ ฮิสโตแกรม (Histogram) เป็นกราฟประเภทหนึ่งของกราฟที่ใช้ตัวแปรต่อเนื่อง หรือ ข้อมูลที่เป็นตัวเลข เพื่อใช้ในการดูการกระจายตัวของตัวแปรที่ต้องการสังเกต (Distribution) เราจะเห็นค่าต่ำสุดและสูงสุดของแต่ละช่วงที่กำหนดใน histogram หรือ ที่เรียกว่า bin

1️⃣7️⃣ สิ่งสำคัญในการกำหนด bin จะต้องดูความเหมาะสมในการเลือก เพราะ ถ้าเลือกช่วงที่ไม่ดี ก็อาจจะทำให้ยากต่อการทำความเข้าใจ เช่น ถ้าเลือก bin กว้างเกินไปก็จะทำให้แท่ง histigram มีแท่งที่น้อย และ ไม่เห็นการกระจายของข้อมูล ทำให้ตีความได้ผิดไป ซึ่ง ไม่มีการเลือกหรือข้อกำหนดที่ตายตัว คำตอบในการเลือกนั้น อยู่ที่การทดลองหลายๆแบบและตัดสินใจที่จะเลือกค่านั้นในการกำหนด



1️⃣8️⃣ ถ้าเลือกได้อย่างเหมาะสมจะเห็นการกระจายตัวที่ถูกต้อง



1️⃣9️⃣ สิ่งแรกในการตีความ กราฟของ histogram มี 3 อย่างที่จะต้องดู คือ

2️⃣0️⃣ รูปร่างของการกระจายตัว ว่ามีลักษณะเป็นอย่างไร เช่น มียอดของข้อมูลหลายยอดหรือไม่ บ่งบอกถึงชุดข้อมูลนั้นมี กลุ่มเป้าหมายหลายกลุ่ม



  • ————————————————————— *

  • หากใครไม่อยากพลาดโพสต์เรื่องเกี่ยวกับ    *
    
  • data analyst, data science, data engineer และ *

  • programming ในโพสต์ถัดๆไป ฝากแชร์ *

  • กดติดตาม profile กันไว้ด้วยนะครับ *

  • *————————————————————— **


2️⃣1️⃣ ความเบี่ยงเบนของการกระจายตัว ดูเพื่อตรวจสอบว่ามีความผิดปกติหรือไม่ ความผิดปกติ คือ ความเบ้เป็นอย่างไร เบ้ซ้าย หรือ เบ้ขวา บ่งบอกถึง ความไม่ตรงเป้าหมายที่กำหนดเอาไว้ หรือ ความผิดปกติของการเก็บข้อมูลมา



2️⃣2️⃣ การกระจายที่เป็น Kurtosis หรือ ความแหลม เป็นสิ่งผิดปกติเกิดขึ้นในการกระจายตัวแบบปกติ



2️⃣3️⃣ โดยสรุปแล้ว การเลือกใช้ histogram จะช่วยให้เราเห็นการกระจายตัวของตัวแปรที่เราสังเกต และ ตรวจสอบความผิดปกติเบื้องต้นได้

2️⃣4️⃣ ถึงแม้ว่า histogram จะเป็นเครื่องมือที่ดี แต่ histogram ก็ยังมีข้อเสียอยู่ เช่น การวาดกราฟที่เป็น histogram เป็นหลายๆตัวแปร ทำให้การแสดงผลไม่ชัดเจน เมื่อมีหลายตัวแปรที่จะต้องดู ในการเปรียบเทียบแบบ pair เพราะ เมื่อต้องการเปรียบเทียบในหลาย ค่า อาจจะอยากเช็คค่าระหว่าง York กับ Godwin ยังเปรียบเทียบได้ยากและค่อนข้างที่จะดูยากเกินไป



2️⃣5️⃣ ไม่สามารถแสดงผลแบบมากกว่า 2 มิติได้

2️⃣6️⃣ จากปัญหาที่เกิดขึ้น จึงมีคนคิดค้นกราฟที่เอาไว้ตรวจสอบ ค่าที่ซับซ้อนขึ้น ก็คือ bloxplot



2️⃣7️⃣ จากปัญหาที่กล่าวไว้ข้างต้นนั้น ที่ไม่สามารถช่วยให้เปรียบเทียบค่าจาก hitogram หลายๆตัวแปรได้ ลองดูภาพนี้น่าจะช่วยให้เข้าใจมากขึ้น จะเห็นว่าสามารถนำค่าหลายๆตัวแปรมาเปรียบได้ง่ายขึ้น



โดยสรุปกราฟ Bloxplot มาช่วยแก้ปัญหาเรื่องการเปรียบเทียบของ Histogram ส่วนวิธีอ่านกราฟ bloxplot สามารถค้นหาวิธีอ่านบน google ได้เลย แต่ถ้าใครอยากให้เขึยนอธิบาย พิมพ์ comment ไว้ว่าสนใจนะครับ


ใครอ่านจบแล้ว อยากจะขอบริจาคการกด click ads ของ google adsense สักคนละ 2-3 click เพื่อเป็นกำลังใจและรายได้แก่ผู้เขียนด้วยนะครับ 


สรุปความเข้าใจการใช้ข้อมูลด้วยภาพ ตอนที่ 2  

1️⃣ ในโพสต์ที่ผ่านๆ มาเป็นการนำชุดข้อมูลตัวอย่างมาทำความเข้าใจด้วยวิธีทางสถิติในการคำนวนค่าเพื่อสรุปออกมา โดยใช้วิธีการสำรวจข้อมูล สรุปข้อมูล และ นำไปตัดสินใจในบางเรื่องเพื่อใช้ประโยชน์ หลังจากที่ได้สรุปข้อมูลออกมาแล้วนั้น เห็นเป็นเพียงแค่ตัวหนังสือ หรือ ตัวเลข ยังทำให้มีความลำบากต่อการทำความเข้าใจในข้อมูล ซึ่งเดี๋ยวเราจะนำข้อมูลเหล่านั้น มาทำให้เป็นภาพกัน

2️⃣ การทำ data visualization มีสิ่งที่ต้องทำความเข้าใจอยู่หลายเรื่องด้วยกัน เช่น

  • ประเภทของข้อมูล เป็นชนิดใด ตัวเลข หรือ หมวดหมู่
  • วัตถุประสงค์ ต้องการจะสื่อสารกับใคร
  • กลุ่มเป้าหมาย กลุ่มผู้ฟังเป็นใคร เช่น ผู้ฟังทำอาชีพอะไร

และอื่นๆ อีก เช่น

  • ความเข้าใจข้อมูล
  • ความสวยงามของการจัดเรียง
  • ความรู้ทางด้านสถิติ
  • การเล่าเรื่อง
  • เลือกเครื่องมือและเทคนิค

จริงๆ แล้ว ทุกเรื่องไม่จำเป็นต้องดีทั้งหมด สามารถปรับปรุงการนำเสนอไปเรื่อยๆ ได้ เพียงแค่เราจะต้องเข้าใจสิ่งที่เราจะสื่อสารออกไป อย่างเช่นการเลือก เครื่องมือที่ใช้กับข้อมูลให้ถูกต้อง

3️⃣ จากโพสต์ที่แล้ว เรานำข้อมูลมาทำให้เป็นรูปภาพอยู่ 2 แบบ คือ Histogram และ Boxplot มีประโยชน์ในการดู การกระจายของข้อมูลตัวแปรเดียว (distribution)


4️⃣ ในโพสนี้ เราจะมาทำความเข้าใจกับ กราฟ แบบอื่นๆ เพิ่มเติม ได้แก่ scatter plot, line plot , bar plot

5️⃣ เราจะศึกษา กราฟเหล่านี้ ว่าสามารถนำไปใช้กับข้อมูลประเภทไหน วิธีการเลือกใช้มีอะไรที่จำเป็นต้องเข้าใจก่อนบ้าง ข้อควรระวังในการเลือกใช้

  • ————————————————————— *

  • 1️⃣0️⃣0️⃣ หากใครไม่อยากพลาดโพสต์เรื่องเกี่ยวกับ *

  • data analyst, data science, data engineer และ *

  • programming ในโพสต์ถัดๆไป ฝากแชร์ *

  • กดติดตาม profile กันไว้ด้วยนะครับ *

  • *————————————————————— **

6️⃣ scatter plot

scatter plot หรือ แผนภูมิการกระจาย เป็นเครื่องมือที่ใช้ดูความสัมพันธ์ระหว่าง 2 ตัวแปร โดยดูความสัมพันธ์มีทิศทางอย่างไร เป็นไปทางบวก หรือ ทางลบ หรือไม่มีความสัมพันธ์เลย ซึ่งวิธีเลือกใช้ จะใช้เมื่อต้องการดูความสัมพันธ์ระหว่างตัวแปรที่เป็นเชิงปริมาณ หรือข้อมูลที่เป็นตัวเลข จำนวน 2 ตัวแปร

7️⃣ การเลือกใช้ scatter plot ควรเข้าใจเกี่ยวกับความสัมพันธ์ของข้อมูล correlation ดังนี้

  • ความสัมพันธ์เป็นบวก หมายถึง ตัวแปรทั้งสองมีทิศทางการเคลื่อนที่ไปในทิศทางเดียวกัน เมื่อตัวแปรหนึ่งเพิ่มขึ้นอีก ตัวแปรอีกตัวหนึ่งก็จะเพิ่มขึ้นเช่นกัน


  • ความสัมพันธ์เป็นลบ หมายถึง ตัวแปรทั้งสองมีทิศทางการเคลื่อนที่ไปในทิศทางตรงกันข้าม เมื่อตัวแปรหนึ่งเพิ่มขึ้นอีก ตัวแปรอีกตัวหนึ่งก็จะลดลง


  • ไม่มีความสัมพันธ์ หมายถึง ตัวแปรทั้งสองไม่มีความสัมพันธ์กัน เมื่อตัวแปรหนึ่งเพิ่มขึ้นหรือลดลง ตัวแปรอีกตัวหนึ่งก็จะไม่เปลี่ยนแปลง


  • และทั้ง 2 แนวโน้ม ก็มีนิยาม ความอ่อนของความสัมพันธ์ อีกด้วย


8️⃣ ในการดูความสัมพันธ์ระหว่างแกน x กับ y ถึงแม้ว่าจะมีความสัมพันธ์กันก็จริงแต่ไม่ได้หมายความว่า x เป็นส่วนที่เป็นผลกระทบต่อ y ยกตัวอย่างเช่น use case ตัวหนึ่งที่มักจะยกตัวอย่างกัน ความสัมพันธ์ระหว่างการขายไอศกรีมกับการมาเที่ยวทะเล มีลักษณะเป็นความสัมพันธ์เป็นบวก

9️⃣ หมายความว่า เมื่อมีผู้คนมาเที่ยวทะเลมากขึ้น ยอดขายไอศกรีมก็มักจะเพิ่มขึ้นตามไปด้วย เหตุผลก็เพราะผู้คนที่มาเที่ยวทะเลมักจะต้องการซื้อไอศกรีมเพื่อคลายร้อนและเพิ่มความสดชื่น ถึงแม้ว่ายอดขายไอศกรีมจะเพิ่มขึ้น แต่ยอดขายไอศกรีมอาจไม่เพิ่มขึ้นเท่ากับจำนวนนักท่องเที่ยว เนื่องจากปัจจัยอื่น ๆ เช่น ราคาไอศกรีม รสชาติของไอศกรีม เป็นต้น ดังนั้น การตีความ จะต้องพิจารณาให้ดี

1️⃣0️⃣ สรุปแล้ว ความสัมพันธ์ระหว่างการขายไอศกรีมกับการมาเที่ยวทะเล เป็นเพียงแนวโน้มที่แสดงว่าทั้งสองตัวแปรมีความสัมพันธ์กัน แต่ความสัมพันธ์นั้นไม่ได้หมายความว่าจะต้องมี ผลกระทบซึ่งกัน เสมอไป

1️⃣1️⃣ line plot

การใช้ line plot มีส่วนที่คล้ายกันกับ กราฟแบบ scatter plot เป็นเครื่องมือที่ใช้การเรียงข้อมูลแต่ละจุดเรียงต่อกันจนเป็นเส้น หากเราใช้กับข้อมูลที่มีการเชื่อมต่ออย่างต่อเนื่องสามารถเลือก กราฟ ชนิดนี้ได้

1️⃣2️⃣ โดยส่วนใหญ่กราฟ line plot จะกำหนดให้แกน x เป็นแกนเวลาหรือวันที่ ซึ่งข้อดีของการใช้ line plot สามารถเปรียบเทียบกับข้อมูลอื่นๆ ได้


1️⃣3️⃣ ในเรื่องของการดูแนวโน้ม ก็มีประโยชน์อย่างมาก ซึ่งกราฟเส้นสามารถดู trend line เพื่อเทียบกับข้อมูลได้ง่าย


1️⃣4️⃣ บางครั้งเราก็ต้องระวัง หากข้อมูลมากเกินไป ทำให้ไม่สามารถ วางเส้น trend line ได้ ให้เราทำการใส่ค่า log เพื่อลดขนาดลงมาดูก่อน


1️⃣5️⃣ bar plot

bar plot หรือ กราฟแท่งมีส่วนที่คล้ายกับ boxplot เป็นเครื่องมือที่ใช้นับจำนวนเพื่อเปรียบข้อมูลที่เป็นหมวดหมู่ โดยความสูงของแต่ละแท่ง แสดงค่าข้อมูลที่เกี่ยวข้อง


1️⃣6️⃣ ในบางครั้ง เราสามารถนำ bar plot มาสร้างเป็น stack bar ได้ด้วย

stack bar แผนภูมิแท่งซ้อนกัน เป็นเครื่องมือที่ใช้แสดงข้อมูลเชิงปริมาณ โดยมีลักษณะเป็นแผนภาพที่มีแท่งแนวตั้งหรือแนวนอนแสดงค่าของข้อมูลแต่ละค่า แท่งแต่ละแท่งจะแทนค่าของข้อมูลหนึ่งค่า แต่แท่งสามารถซ้อนกันได้หลายชั้น โดยแต่ละชั้นจะแทนค่าของข้อมูลต่าง ๆ


1️⃣7️⃣ กำหนดให้ ค่า n หมายถึง จำนวนของ การเกิดของเด็กในแต่ละปี โดยแยกส่วนกำหนดจำนวนโดยการใช้สีแล้วนำมาต่อเรียงกันใน 1 ปี เพื่อดูอัตราส่วนเปรียบเทียบกับปีอื่นๆ

1️⃣0️⃣0️⃣ โดยสรุป การเลือกใช้เครื่องมือหรือกราฟ จำเป็นที่จะต้องรู้วิธีการ เงื่อนไขต่างที่จำเป็นในการเลือกใช้กราฟ อีกทั้งยัง ต้องเข้าใจวิธีการอ่านกราฟและวิธีการตีความอีกด้วย


ใครอ่านจบแล้ว อยากจะขอบริจาคการกด click ads ของ google adsense สักคนละ 2-3 click เพื่อเป็นกำลังใจและรายได้แก่ผู้เขียนด้วยนะครับ 


สรุปความเข้าใจการใช้ข้อมูลด้วยภาพที่ตัวแปรหลายตัว ตอนที่ 3 


3️⃣ จากโพสต์ที่แล้ว ได้ทำความเข้าใจเกี่ยวกับการเลือกใช้ กราฟแบบต่างๆ ที่เหมาะกับ

  • กราฟที่ใช้งานกับข้อมูลประเภทตัวแปรเดียว ได้แก่ histogram, boxplot
  • กราฟที่ใช้งานกับข้อมูลประเภทสองตัวแปร ได้แก่ scatter plot
  • กราฟที่ใช้กับข้อมูลประเภทแกนที่เป็นเวลา ได้แก่ line plot
  • กราฟที่ใช้กับข้อมูลประเภทหมวดหมู่ ได้แก่ bar plot


4️⃣ สำหรับ โพสต์นี้ เป็นสรุปในเรื่องที่ ผมชอบมาก เป็นการสร้างมุมมองใหม่ที่มากกว่าที่จะมองข้อมูลแค่เพียง 1 มิติ หรือ 2 มิติ จากคำถามที่ว่า ถ้ามีตัวแปรมากกว่า 2 ตัวจะเป็นอย่างไร

5️⃣ ให้ลองดูภาพตัวอย่างต่อไปนี้ ในการสร้างกราฟ 3 มิติ ถ้าลองเพิ่ม แกนที่ 3 ขึ้นมา ก็เป็นภาพแบบ 3 มิติแล้ว แต่ว่า ลองตอบคำถามว่า ดูยากหรือดูรู้เรื่องหรือไม่ ว่าข้อมูลในแกน Log GNi กับ Avg Length มีค่าเท่าไร


  • ————————————————————— *

  • 1️⃣0️⃣0️⃣ หากใครไม่อยากพลาดโพสต์เรื่องเกี่ยวกับ *

  • data analyst, data science, data engineer และ *

  • programming ในโพสต์ถัดๆไป ฝากแชร์ *

  • กดติดตาม profile กันไว้ด้วยนะครับ *

  • *————————————————————— **

6️⃣ สำหรับ โพสนี้ เราจะมาเรียนรู้เทคนิคต่างๆ ที่จะใช้สำหรับการสร้าง กราฟหลายมิติกัน

7️⃣ ในเมื่อตัวอย่างข้างต้น ไม่สามารถที่จะทำให้เรามองภาพ หรือ กราฟแบบ 3 มิติได้ ด้วยวิธีข้างต้นนั้น แล้วเราจะทำอย่างไรให้สามารถ สร้างกราฟให้เป็นมากกว่า 2 มิติได้

8️⃣ จริงๆแล้ว มีอยู่หลายวิธีที่จะสร้างให้เกิดเป็นมิติที่ 3 ขึ้นไปได้ เช่น

  • การเลือกใช้ สี เป็นมิติที่ 3 (color)
  • การเลือกใช้ ขนาด เป็นมิติที่ 3 (size)
  • การเลือกใช้ ความโปร่งใส เป็นมิติที่ 3 (transparency)
  • การเลือกใช้ รูปร่าง เป็นมิติที่ 3 (shape)
  • การเลือกใช้ กราฟแบบต่างๆแยกออกมาเป็น ตาราง column (panel)
  • การเลือกใช้ รูปแบบของเส้น (linetype)

color จุดแต่ละจุดอาจมีสีต่างกันเพื่อแสดงตัวแปรที่สาม เช่น อายุขัย



size จุดแต่ละจุดอาจมีขนาดต่างกันเพื่อแสดงตัวแปรที่สาม เช่น อายุขัย



transparency จุดแต่ละจุดอาจมีความโปร่งใสต่างกันเพื่อแสดงตัวแปรที่สาม เช่น อายุขัย



shape จุดแต่ละจุดอาจมีรูปร่างต่างกันเพื่อแสดงตัวแปรที่สาม เช่น อายุขัย



panels ข้อมูลสามารถแบ่งออกเป็นส่วนย่อย และแต่ละส่วนย่อยสามารถแสดงในแผงแยกต่างหาก



linetype ในแผนภูมิเส้นที่แสดงการยอมรับเทคโนโลยีต่างๆ เมื่อเวลาผ่านไป แต่ละเส้นอาจมีประเภทเส้นต่างกันเพื่อแสดงเทคโนโลยี



9️⃣ การเลือกใช้สี

การสร้างกราฟที่แสดงตัวเลขต่างๆ มากมาย ถ้าเราใส่ศิลปะเข้าไปก็จะช่วยเข้าถึงผู้คนได้มากขึ้น

สีเป็นองค์ประกอบสำคัญอย่างหนึ่งในการสร้างกราฟ เนื่องจากสีสามารถช่วยสื่อความหมายและดึงดูดความสนใจของผู้ชมได้ การใช้สีอย่างเหมาะสมจะช่วยให้กราฟอ่านง่ายและเข้าใจง่ายขึ้น

1️⃣0️⃣ การใช้สีกับการสร้างกราฟ

  • ใช้สีให้สอดคล้องกับข้อมูล สีแต่ละสีมีความหมายและความรู้สึกที่แตกต่างกัน จึงควรเลือกใช้สีให้สอดคล้องกับข้อมูลที่ต้องการสื่อ เช่น สีแดงมักใช้เพื่อแสดงถึงอันตรายหรือความสำคัญ สีเหลืองมักใช้เพื่อแสดงถึงคำเตือน สีฟ้ามักใช้เพื่อแสดงถึงความสงบ สีเขียวมักใช้เพื่อแสดงถึงธรรมชาติ เป็นต้น
  • ใช้สีให้แตกต่างกัน ควรเลือกใช้สีให้แตกต่างกันอย่างชัดเจน เพื่อให้ผู้ชมสามารถแยกแยะข้อมูลแต่ละประเภทได้ง่ายขึ้น ไม่ควรใช้สีโทนเดียวกันมากเกินไป เพราะอาจทำให้ผู้ชมสับสน
  • ใช้สีให้สม่ำเสมอ หากใช้กราฟหลายประเภทเพื่อแสดงข้อมูลชุดเดียวกัน ควรใช้สีให้เหมือนกัน เพื่อให้ผู้ชมสามารถเปรียบเทียบข้อมูลได้ง่ายขึ้น
  • คำนึงถึงผู้ชม ควรคำนึงถึงผู้ชมที่มีภาวะตาบอดสีในการเลือกใช้สี หลีกเลี่ยงการใช้สีคู่ที่อาจทำให้ผู้ชมตาบอดสีแยกแยะได้ยาก เช่น สีแดงและเขียว

1️⃣1️⃣ ตัวอย่างการเลือกใช้สีให้กับกราฟ scatter plot



1️⃣2️⃣ ตัวอย่างการเลือกใช้สีให้กับกราฟ stack bar



1️⃣3️⃣ ตัวอย่างการเลือกใช้สีให้กับกราฟ line plot



1️⃣4️⃣ น่าจะพอให้มองเห็นภาพมากขึ้นกับการนำสิ่งต่างๆที่กล่าวมาช่วยให้มองเห็นเป็นมิติที่ 3 และ การนำสีมาช่วยแยกความแตกต่างให้เห็นภาพบนกราฟได้ดีและเข้าใจมากขึ้น

1️⃣5️⃣ การนำเสนอข้อมูลหลายตัวแปร

นอกจากนี้ ถ้ามีตัวแปรหลายตัวที่เราอยากจะดูความสัมพันธ์แต่ละตัว เราสามารถที่จะเลือกใช้ Panel มาดูความสัมพันธ์และกำหนด ความแตกต่างในการแสดงผล ลงไปในกราฟ เพื่อให้สามารถแยกแยะข้อมูลแบบต่างๆได้ทันที เพิ่มความสะดวกในการเห็นภาพรวมในครั้งเดียว เพียงแค่เราต้องตีความในการอ่านกราฟนั้นให้ดี



1️⃣0️⃣0️⃣ โดยสรุป การจะสร้างกราฟที่มีหลายมิติให้สามารถอ่านและตีความได้ง่ายขึ้นเราควรจะใช้ เทคนิคต่างๆด้านล่างนี้มาช่วยเพิ่มให้ดูง่ายขึ้น

  • สี (color)
  • ขนาด (size)
  • ความโปร่งใส (transparency)
  • รูปร่าง(shape)
  • กราฟแบบต่างๆแยกออกมาเป็น ตาราง column (panel)
  • รูปแบบของเส้น (linetype)


ใครอ่านจบแล้ว อยากจะขอบริจาคการกด click ads ของ google adsense สักคนละ 2-3 click เพื่อเป็นกำลังใจและรายได้แก่ผู้เขียนด้วยนะครับ 



สรุปความเข้าใจการใช้ข้อมูลด้วยภาพที่ไม่เหมาะสม ตอนที่ 4 (จบ)


1️⃣ จากโพสต์ก่อนๆ ทั้งการเลือกใช้เครื่องมือ หรือ กราฟต่างๆ ที่เหมาะสมกับข้อมูลแล้วนั้น นอกจากนี้สิ่งที่จำต้องระมัดระวังในการทำ data visualization เป็นอย่างมากคือ การสร้าง กราฟ ที่จะทำให้ผู้ดูหรือ ผู้อ่านกราฟ เข้าใจผิด หรือ ตีความผิดไปจากความเป็นจริง ความไม่เหมาะสมของข้อมูลที่ถูกบิดเบือนไป

2️⃣ ความไม่เหมาะสมของข้อมูล มีอยู่ 2 เรื่องหลักๆ ได้แก่

  • การเลือกแกนในการแสดงข้อมูลที่ไม่เหมาะสม (axis of evil)
  • แผนภูมิขยะ หรือ แผนภูมิที่ออกแบบมาไม่ดี ไม่เหมาะกับการใช้งาน (junk chart)

3️⃣ ยกตัวอย่าง ของ axis of evil

ภาพทางด้านซ้าย จะเห็นว่า ข้อมูลที่แสดงด้วยกราฟแท่งของการหาเสียง ที่แสดงถึงข้อมูลที่ได้อันดับหนึ่งมีความยาวกว่า แท่งอื่นๆ ถ้าผู้ที่ดูกราฟ มองแบบผ่านๆ ก็อาจจะเข้าใจผิดได้ว่าได้คะแนนนำโด่งกว่าคนอื่นๆ ทั้งที่จริงแล้ว ถ้าสังเกตที่เปอร์เซ็น ของอันดับที่ 2 ต่างกันแค่ 1.5% เท่านั้น เมื่อทำกราฟแท่งที่ถูกต้อง กลับพบว่า แท่งอันดับหนึ่งไม่ได้ยาวไปกว่าอันดับ 2 เลย



4️⃣  ยกตัวอย่าง ของ junk chart

เช่นเดียวกันกับ axis of evil แต่ต่างกันออกไปคือ การทำให้ chart นั้นดูยาก และ อาจทำให้การตีความผิดไป

สังเกตว่า กราฟแท่งให้ภาพนั้นถูกออกแบบให้เป็นแบบ 3 มิติ ทั้งๆที่ กราฟแท่งไม่ได้เหมาะกับการใช้เป็นภาพ 3 มิติ ทำให้ดูค่อนข้างยาก ถึงแม้จะบอกว่าเพื่อความสวยงาม แต่ให้มุมมองของผู้เขียนไม่ได้สวยขึ้นแม้แต่น้อยทั้งยังอ่านยากขึ้นด้วย



1️⃣0️⃣0️⃣ โดยสรุป การออกแบบกราฟ หรือ การทำ data visualization ควรพิจารณาหลายเรื่องด้วย ได้แก่

  • ประเภทของข้อมูล เป็นชนิดใด ตัวเลข หรือ หมวดหมู่
  • วัตถุประสงค์ ต้องการจะสื่อสารกับใคร
  • กลุ่มเป้าหมาย กลุ่มผู้ฟังเป็นใคร เช่น ผู้ฟังทำอาชีพอะไร

และอื่นๆ อีก เช่น

  • ความเข้าใจข้อมูล
  • ความสวยงามของการจัดเรียง
  • ความรู้ทางด้านสถิติ
  • การเล่าเรื่อง
  • เลือกเครื่องมือและเทคนิค
  • การทำให้ผู้อื่นเข้าใจข้อมูลได้ง่าย



ใครอ่านจบแล้ว อยากจะขอบริจาคการกด click ads ของ google adsense สักคนละ 2-3 click เพื่อเป็นกำลังใจและรายได้แก่ผู้เขียนด้วยนะครับ 


ขอบคุณครับที่อ่านจนจบ


reference Image : datacamp


แวะมาทักทายกันได้
donate