บันทึกวิธีสรุปข้อมูลเพื่อนำไปสร้างกราฟ Ghaph/Chart 104 สำหรับนักวิทยาศาสตร์ข้อมูล Data Science - sprint 04

Data Visualization in Excel
Sparking Line - EP01
chart พื้นฐานในโปรแกรม Excel sparkline เป็น chart ที่เอาไว้ดู Trend เบื้องต้นของข้อมูล โดยมีอยู่ 3 แบบ
แบบที่ 1 Line
สมมติว่าเรามี ข้อมูลอยู่ 2 table ตามนี้

วิธีการสร้าง spark line ด้วย excel ให้ hilight ข้อมูลที่ต้องการสร้าง sparkline เอาไว้แล้วไปเลือกเมนู Insert
ในเมนูด้านบนก็จะเห็นคำว่า Sparkline ให้เลือก Line

แล้วมันจะแสดง Dialog ขึ้นมาว่าจะให้ไปสร้าง sparkline เอาไว้ที่ช่อง cell ไหน

เลือกต่อท้ายแต่ละแถวได้เลย

สามารถลากฟังก์ชัน ช่องด้านบนลงมาได้เลยตามสินค้าที่เหลือ

เมื่อกดที่ sparkline ที่เราสร้าง จะมีเมนู Sparkline ที่แท็บเมนูด้านบน สามารถที่จะ custom สีหรือรูปแบบต่างๆได้

แบบที่ 2 Column
ทำแบบเดิม ไปที่เมนู Insert แล้วเลือก sparkline จากนั้นเลือก Column

แบบที่ 3 Win / lose
ทำแบบเดิม ไปที่เมนู sparkline แล้วเลือก win/lose
chart ตัวนี้จะเหมาะกับ ข้อมูลที่มีค่าติดลบ ไปเลือกที่ table ที่ 2 %Growth

Histogram - EP02
histogram ใช้ในการแสดงข้อมูลที่เป็นตัวเลข ที่อยู่ใน 1 column ยกตัวอย่างเช่น ข้อมูลยอดขาย

จากข้อมูลทั้งหมดมีอยู่ 100 แถว
จะสร้างกราฟ histogram โดยการ hilight ข้อมูลแถวทั้งหมดและไปเลือกเมนู insert แล้วเลือก histogram

เราก็จะได้ chart หน้าตาแบบนี้ออกมา

เราสามารถที่จะแก้ไข chart ได้โดย double click ที่ chart แล้วปรับแต่งที่ sidebar อย่างเช่นปรับแก้ไข bin หรือ ช่วงของข้อมูล

Boxplot - EP03
Boxplot จะใช้ data set เดียวกันกับ Histogram และเมนูที่ใช้ chart boxplot ก็เป็นเมนูเดียวกันกับ Histogram แต่ให้เลือก boxplot and Whisker

แล้วเราก็จะได้ chart หน้าตาแบบนี้ออกมา

วิธีการดูข้อมูลบน boxplot จะดูอยู่ด้วยกัน ึ จุด
MAX
Q3
Q2 (Median)
Q1
MIN
MEAN
OUTLIER
โดยสามารถใช้ สูตรใน Excel ได้เลย
=MAX(A:A)
=QUARTILE(A:A,3)
=QUARTILE(A:A,2)
=QUARTILE(A:A,1)
=MIN(A:A)
=AVERAGE(A:A)

ส่วน Outlier เป็นค่าที่ เยอะมากๆ หรือ น้อยมากๆ จนเกินมาตรจากกลุ่มข้อมูลออกไป ใน Excel สามารถเพิ่มข้อมูลเข้าไปในชุด Data แล้วมันจะแสดงค่าให้ในทันที
ลองเปลี่ยนค่าสักค่าหนึ่งใน dataset มันก็จะ update chart ให้

Bar Plot - EP04
เรามี Dataset อยู่ชุดหนึ่งเป็นข้อมูลพนักงาน

การจะทำ Bar Plot หรือ Bar Chart ได้เราจะต้องมีการสรุปข้อมูลก่อน โดยสรุปออกมาเป็นตัวเลข หรือ จำนวนนับ
จาก ตารางข้อมูลเรา อยากจะรู้ว่าพนักงานแต่ละแผนกมีอยู่กี่คน
วิธีการสรุป
- ใช้ฟังก์ชัน unique เพื่อ group แผนก จะเห็นว่าข้อมูลในแต่ละแถวมีค่าที่ซ้ำกันอยู่
=UNIQUE(C1:C16)
- จากนั้นใช้ ฟังก์ชัน countif เป็นกานับแบบมีเงื่อนไขที่จะเข้าไปนับว่าในแต่ละแผนกมีจำนวนพนักงานอยู่เท่าไร
=countif(C2:C16,C2)

- ทำ sort ข้อมูลให้เรียงจากมากไปน้อยโดยใช้ คำสั่ง sort
=SORT(E2:F6,2,-1)

คราวนี้ก็เลือก insert แล้วไปเลือก bar chart

เราก็จะได้ bar chart ที่มีข้อมูลที่ plot เอาไว้แบบนี้

Line - EP05
line chart เป็น chart ที่ใช้ค่อนข้างบ่อยกับข้อมูลที่เกี่ยวข้องกับเรื่องของเวลา ไม่ว่าจะเป็น Month, Quarter, Year เป็น Time Series เราเรียกข้อมูลประเภทนี้ อีกอย่างหนึ่งว่า Temporal


อย่าลืม Hilight ที่ข้อมูลก่อน เราก็จะได้หน้าตาแบบนี้
หรือจะทำเป็น รายไตรมาสก็ได้ โดยการนำ 3 เดือนมา sum กันก่อน

Pie & Doughnut - EP06
ถ้าเราอยากจะเห็นข้อมูลแบบภาพรวมแบบข้อมูลทั้งหมด เราจะใช้ Pie chart และ Doughtnut ค่อนข้างบ่อย
ใช้ dataset ตัวอย่างเดิม ข้อมูลพนักงาน

ไปเลือก insert แล้วเลือก Pie Chart

เราก็จะได้ chart หน้าตาแบบนี้ เราสามารถที่จะ custom หน้าตาเป็นรูปแบบอื่นๆก็ได้

Scatter Plot - EP07
scatter plot ใช้งานบ่อยในเชิงการทำข้อมูลสถิติ โดยใช้กับข้อมูลที่เป็นตัวเลข

ไป hilight ข้อมูลในตารางแล้วไปเลือกเมนู insert แล้วเลือก scatter plot

เราจะได้หน้าตาข้อมูลแบบนี้

ถ้าลองวิเคราะห์ดู ก็จะเห็นว่า ความสัมพันธ์ ระหว่าง CSAT ความพอใจ กับยอดขาย ยิ่งสูงขึ้น ยอดขายก็จะสูงตาม
เรามาดูความสัมพันธ์ระหว่างข้อมูลชุดนี้ด้วยฟังก์ชัน
=CORREL(arr1, arr2)
#0.9759
correlation เข้าใกล้ 1 แสดงว่า มีความสัมพันธ์กันมากและมีค่าเป็นบวกแสดงว่ามีทิศทางเดียวกัน
ปรับ format ให้ตัดข้อมูล space กว้างออกไปหน่อยก็จะทำให้กราฟดูดีขึ้น

Stack Bar - EP08
Stack bar chart คือ Bar chart ที่มีหลาย column

ยกตัวอย่าง dataset ว่าอยากจะทำงาน office หรือ WFH กี่ percent
โดยที่เลือกเมนู insert แล้วไปเลือก Bar chart แบบ column 100% จะได้หน้าตาแบบนี้

แต่จะเห็นว่าจำนวน แถวมีมากเกินไป ทำให้อาจจะทำให้ดูข้อมูลไม่รู้เรื่อง เราจะเปลี่ยนมาเป็น แนวนอน
โดยการเลือก ที่ chart เดิมแล้วเลือก Chart Design แล้วเลือกเมนู Change Chart Type แล้วไปเลือก แบบ Horizontal Stack bar อาจจะเปลี่ยนสีตามความชอบและเหมาะสม

Summery Bar - EP09
ไม่ใช่ทุกสถานการณ์ที่จะใช้ Stackbar ได้ ในตัวอย่างนี้จะมาทำ Summery Bar เพื่อสรุปผล
สมมติว่า หัวหน้าต้องการจะสร้างว่า ผู้ที่ WFH มีจำนวนกี่เปอร์เซ็น
=AVERAGEIF($L$2:$L$16,Q2,$N$2:$N$16)

จากนั้นก็ทำการ sort table ที่หาค่าเฉลี่ยแบบมีเงื่อนไข
จากนั้นก็ให้เลือก bar chart แบบ horizontal 2D

เราก็จะได้ตารางสรุปผลอย่างง่ายๆขึ้นมา
Pereto - EP10
pareto chart จะใช้มากใน Quanlity Control
จาก Dataset นี้จะเป็นเรื่องของความพึงพอใจในร้านอาหาร

โดยมีความพึงพอใจในแต่ละเรื่อง
ขั้นตอนการสรุป
- ทำการรวมข้อมูลทั้งหมดในแต่ละเรื่องก่อน แปลงเป็นข้อมูล 100%
- จากนั้นทำให้ข้อมูลเป็น percent โดยเพิ่มอีก 1 column ขึ้นมา แล้วทำอัตราส่วน

- ทำ comulative โดยคำนวนผลรวมแต่ละแถวไปเรื่อยๆจนครบ 100%

แต่ถ้าเราใช้ chart แบบ pareto จะง่ายกว่าโดยเลือกแค่ 2 column ชื่อของความพึงพอใจและจำนวนตัวเลข ไปเลือก insert แล้วไปเลือก histogram และ เลือก pareto

เราจะได้ chart หน้าตาแบบนี้

Waterfall - EP11
การทำ water fall เป็นการทำ chart การเพิ่มขึ้น และ ลดลงของแต่ละขั้นตอน ยกตัวอย่างเช่น ข้อมูล dataset รายได้

จากตาราง เรียงจาก Revenue 25000 ลบด้วย Cost of goods 7000 แล้วบวก Gross margin 18000 แล้วลบ Expense 5500 แล้วบวก 12500
จากนั้นเราก็เอาข้อมูลนี้ไปสร้าง chart ด้วย waterfall
ไปที่เมนู insert แล้วเลือก water fall

เราจะได้ chart หน้าตาแบบนี้ แต่แบบนี้ยังไม่ถูกต้อง
ให้เราไปปรับ กราฟ ของ Gross margin และ Net income โดยไป double click ที่แท่งกราฟ แล้ว check set as total

เราก็จะได้ water fall ที่อ่านง่ายขึ้น
Tree map - EP12
การแสดงสัดส่วน เช่น จำนวนพนักงานตามแผนกต่างๆ หรือ ยอดขายตามพื้นที่ต่างๆ

สิ่งที่เราจะทำ จะเปลี่ยน 3 column ให้เป็น treemap
ให้เลือกเมนู insert แล้วเลือก treemap

จะได้ผลลัพท์หน้าตาแบบนี้

ถ้าเอาเมาส์ไป hover เราก็จะเห็นขนาดของข้อมูลกลุ่มนั้นๆ ซึ่งขนาดของกล่องจะใหญ่ตามจำนวนในกลุ่ม

Bubble - EP13
bubble เป็น Scatter plot ที่มี column ที่ 3 หรือตัวแปรที่ 3 เพิ่มเข้าไปในอีก 1 มิติ ซึ่งเป็นมิติของขนาด

ให้เลือกทั้ง 3 column แล้วไปเลือก insert แล้วเลือก Scatter plot เลือก

เราก็จะได้หน้าตาแบบนี้

Pivot Chart - EP14
Pivot table เป็น ชุดรายงานที่สามารถทำ Report ข้อมูลสรุปตารางในแต่ละมิติ ที่โปรแกรม excel คำนวนให้เราโดยที่เราไม่ต้องเขียน code ใดๆ เลย
โดยสมมติว่าเรามีข้อมูลยอดขาย ขนาด 10k แถว ให้ไปที่ insert แล้วเลือกเมนู pivotable

มันจะแสดง dialog มาถามเราให้กด ok ไปเลย

มันจะแสดงหน้าใหม่แบบนี้ออกมา จากนั้นให้เราตั้งคำถามว่าอยากจะรู้อะไร อยากจะทำรายงานแบบไหน ให้ไปที่ pivottable field ที่อยู่ด้านขวามือจับมาลากใส่กล่องได้เลย

ยกตัวอย่างเช่น
เลือก city ลากไปที่ Row แล้วเลือก summery ตามยอดขาย (Sales)

เราอาจจะ filter ตาม categories และ Segment

มันจะแสดง filter ที่ตารางในทันที

คอร์สนี้ดีมากกกก (ไก่ ล้านตัว) ใครอ่านจบ แนะนำว่าให้ไปสมัครเรียน ติดตามได้ที่ link ด้านล่างนี้เลย
Course Online DATA ROCKIE Bootcamp
