บันทึกวิธีสรุปข้อมูลเพื่อนำไปสร้างกราฟ Ghaph/Chart 104 สำหรับนักวิทยาศาสตร์ข้อมูล Data Science - sprint 04

Image placeholder
แวะมาทักทายกันได้


Data Visualization in Excel


Sparking Line - EP01

chart พื้นฐานในโปรแกรม Excel sparkline เป็น chart ที่เอาไว้ดู Trend เบื้องต้นของข้อมูล โดยมีอยู่ 3 แบบ


แบบที่ 1 Line

สมมติว่าเรามี ข้อมูลอยู่ 2 table ตามนี้


วิธีการสร้าง spark line ด้วย excel ให้ hilight ข้อมูลที่ต้องการสร้าง sparkline เอาไว้แล้วไปเลือกเมนู Insert

ในเมนูด้านบนก็จะเห็นคำว่า Sparkline ให้เลือก Line


แล้วมันจะแสดง Dialog ขึ้นมาว่าจะให้ไปสร้าง sparkline เอาไว้ที่ช่อง cell ไหน


เลือกต่อท้ายแต่ละแถวได้เลย


สามารถลากฟังก์ชัน ช่องด้านบนลงมาได้เลยตามสินค้าที่เหลือ


เมื่อกดที่ sparkline ที่เราสร้าง จะมีเมนู Sparkline ที่แท็บเมนูด้านบน สามารถที่จะ custom สีหรือรูปแบบต่างๆได้



แบบที่ 2 Column

ทำแบบเดิม ไปที่เมนู Insert แล้วเลือก sparkline จากนั้นเลือก Column



แบบที่ 3 Win / lose

ทำแบบเดิม ไปที่เมนู sparkline แล้วเลือก win/lose

chart ตัวนี้จะเหมาะกับ ข้อมูลที่มีค่าติดลบ ไปเลือกที่ table ที่ 2 %Growth




Histogram - EP02

histogram ใช้ในการแสดงข้อมูลที่เป็นตัวเลข ที่อยู่ใน 1 column ยกตัวอย่างเช่น ข้อมูลยอดขาย



จากข้อมูลทั้งหมดมีอยู่ 100 แถว

จะสร้างกราฟ histogram โดยการ hilight ข้อมูลแถวทั้งหมดและไปเลือกเมนู insert แล้วเลือก histogram



เราก็จะได้ chart หน้าตาแบบนี้ออกมา



เราสามารถที่จะแก้ไข chart ได้โดย double click ที่ chart แล้วปรับแต่งที่ sidebar อย่างเช่นปรับแก้ไข bin หรือ ช่วงของข้อมูล



Boxplot - EP03

Boxplot จะใช้ data set เดียวกันกับ Histogram และเมนูที่ใช้ chart boxplot ก็เป็นเมนูเดียวกันกับ Histogram แต่ให้เลือก boxplot and Whisker



แล้วเราก็จะได้ chart หน้าตาแบบนี้ออกมา



วิธีการดูข้อมูลบน boxplot จะดูอยู่ด้วยกัน ึ จุด

MAX

Q3

Q2 (Median)

Q1

MIN

MEAN

OUTLIER

โดยสามารถใช้ สูตรใน Excel ได้เลย

=MAX(A:A)
=QUARTILE(A:A,3)
=QUARTILE(A:A,2)
=QUARTILE(A:A,1)
=MIN(A:A)
=AVERAGE(A:A)



ส่วน Outlier เป็นค่าที่ เยอะมากๆ หรือ น้อยมากๆ จนเกินมาตรจากกลุ่มข้อมูลออกไป ใน Excel สามารถเพิ่มข้อมูลเข้าไปในชุด Data แล้วมันจะแสดงค่าให้ในทันที

ลองเปลี่ยนค่าสักค่าหนึ่งใน dataset มันก็จะ update chart ให้



Bar Plot - EP04

เรามี Dataset อยู่ชุดหนึ่งเป็นข้อมูลพนักงาน



การจะทำ Bar Plot หรือ Bar Chart ได้เราจะต้องมีการสรุปข้อมูลก่อน โดยสรุปออกมาเป็นตัวเลข หรือ จำนวนนับ

จาก ตารางข้อมูลเรา อยากจะรู้ว่าพนักงานแต่ละแผนกมีอยู่กี่คน

วิธีการสรุป

  1. ใช้ฟังก์ชัน unique เพื่อ group แผนก จะเห็นว่าข้อมูลในแต่ละแถวมีค่าที่ซ้ำกันอยู่
=UNIQUE(C1:C16)
  1. จากนั้นใช้ ฟังก์ชัน countif เป็นกานับแบบมีเงื่อนไขที่จะเข้าไปนับว่าในแต่ละแผนกมีจำนวนพนักงานอยู่เท่าไร
=countif(C2:C16,C2)
  1. ทำ sort ข้อมูลให้เรียงจากมากไปน้อยโดยใช้ คำสั่ง sort
=SORT(E2:F6,2,-1)




คราวนี้ก็เลือก insert แล้วไปเลือก bar chart



เราก็จะได้ bar chart ที่มีข้อมูลที่ plot เอาไว้แบบนี้



Line - EP05

line chart เป็น chart ที่ใช้ค่อนข้างบ่อยกับข้อมูลที่เกี่ยวข้องกับเรื่องของเวลา ไม่ว่าจะเป็น Month, Quarter, Year เป็น Time Series เราเรียกข้อมูลประเภทนี้ อีกอย่างหนึ่งว่า Temporal



อย่าลืม Hilight ที่ข้อมูลก่อน เราก็จะได้หน้าตาแบบนี้




หรือจะทำเป็น รายไตรมาสก็ได้ โดยการนำ 3 เดือนมา sum กันก่อน



Pie & Doughnut - EP06

ถ้าเราอยากจะเห็นข้อมูลแบบภาพรวมแบบข้อมูลทั้งหมด เราจะใช้ Pie chart และ Doughtnut ค่อนข้างบ่อย

ใช้ dataset ตัวอย่างเดิม ข้อมูลพนักงาน



ไปเลือก insert แล้วเลือก Pie Chart



เราก็จะได้ chart หน้าตาแบบนี้ เราสามารถที่จะ custom หน้าตาเป็นรูปแบบอื่นๆก็ได้



Scatter Plot - EP07

scatter plot ใช้งานบ่อยในเชิงการทำข้อมูลสถิติ โดยใช้กับข้อมูลที่เป็นตัวเลข


ไป hilight ข้อมูลในตารางแล้วไปเลือกเมนู insert แล้วเลือก scatter plot


เราจะได้หน้าตาข้อมูลแบบนี้


ถ้าลองวิเคราะห์ดู ก็จะเห็นว่า ความสัมพันธ์ ระหว่าง CSAT ความพอใจ กับยอดขาย ยิ่งสูงขึ้น ยอดขายก็จะสูงตาม

เรามาดูความสัมพันธ์ระหว่างข้อมูลชุดนี้ด้วยฟังก์ชัน

=CORREL(arr1, arr2)

#0.9759

correlation เข้าใกล้ 1 แสดงว่า มีความสัมพันธ์กันมากและมีค่าเป็นบวกแสดงว่ามีทิศทางเดียวกัน

ปรับ format ให้ตัดข้อมูล space กว้างออกไปหน่อยก็จะทำให้กราฟดูดีขึ้น



Stack Bar - EP08

Stack bar chart คือ Bar chart ที่มีหลาย column



ยกตัวอย่าง dataset ว่าอยากจะทำงาน office หรือ WFH กี่ percent

โดยที่เลือกเมนู insert แล้วไปเลือก Bar chart แบบ column 100% จะได้หน้าตาแบบนี้



แต่จะเห็นว่าจำนวน แถวมีมากเกินไป ทำให้อาจจะทำให้ดูข้อมูลไม่รู้เรื่อง เราจะเปลี่ยนมาเป็น แนวนอน

โดยการเลือก ที่ chart เดิมแล้วเลือก Chart Design แล้วเลือกเมนู Change Chart Type แล้วไปเลือก แบบ Horizontal Stack bar อาจจะเปลี่ยนสีตามความชอบและเหมาะสม



Summery Bar - EP09

ไม่ใช่ทุกสถานการณ์ที่จะใช้ Stackbar ได้ ในตัวอย่างนี้จะมาทำ Summery Bar เพื่อสรุปผล

สมมติว่า หัวหน้าต้องการจะสร้างว่า ผู้ที่ WFH มีจำนวนกี่เปอร์เซ็น

=AVERAGEIF($L$2:$L$16,Q2,$N$2:$N$16)



ากนั้นก็ทำการ sort table ที่หาค่าเฉลี่ยแบบมีเงื่อนไข

จากนั้นก็ให้เลือก bar chart แบบ horizontal 2D


เราก็จะได้ตารางสรุปผลอย่างง่ายๆขึ้นมา



Pereto - EP10

pareto chart จะใช้มากใน Quanlity Control

จาก Dataset นี้จะเป็นเรื่องของความพึงพอใจในร้านอาหาร



โดยมีความพึงพอใจในแต่ละเรื่อง

ขั้นตอนการสรุป

  1. ทำการรวมข้อมูลทั้งหมดในแต่ละเรื่องก่อน แปลงเป็นข้อมูล 100%
  2. จากนั้นทำให้ข้อมูลเป็น percent โดยเพิ่มอีก 1 column ขึ้นมา แล้วทำอัตราส่วน
  1. ทำ comulative โดยคำนวนผลรวมแต่ละแถวไปเรื่อยๆจนครบ 100%



แต่ถ้าเราใช้ chart แบบ pareto จะง่ายกว่าโดยเลือกแค่ 2 column ชื่อของความพึงพอใจและจำนวนตัวเลข ไปเลือก insert แล้วไปเลือก histogram และ เลือก pareto


เราจะได้ chart หน้าตาแบบนี้



Waterfall - EP11

การทำ water fall เป็นการทำ chart การเพิ่มขึ้น และ ลดลงของแต่ละขั้นตอน ยกตัวอย่างเช่น ข้อมูล dataset รายได้


จากตาราง เรียงจาก Revenue 25000 ลบด้วย Cost of goods 7000 แล้วบวก Gross margin 18000 แล้วลบ Expense 5500 แล้วบวก 12500

จากนั้นเราก็เอาข้อมูลนี้ไปสร้าง chart ด้วย waterfall

ไปที่เมนู insert แล้วเลือก water fall


เราจะได้ chart หน้าตาแบบนี้ แต่แบบนี้ยังไม่ถูกต้อง

ให้เราไปปรับ กราฟ ของ Gross margin และ Net income โดยไป double click ที่แท่งกราฟ แล้ว check set as total


เราก็จะได้ water fall ที่อ่านง่ายขึ้น


Tree map - EP12

การแสดงสัดส่วน เช่น จำนวนพนักงานตามแผนกต่างๆ หรือ ยอดขายตามพื้นที่ต่างๆ


สิ่งที่เราจะทำ จะเปลี่ยน 3 column ให้เป็น treemap

ให้เลือกเมนู insert แล้วเลือก treemap

จะได้ผลลัพท์หน้าตาแบบนี้


ถ้าเอาเมาส์ไป hover เราก็จะเห็นขนาดของข้อมูลกลุ่มนั้นๆ ซึ่งขนาดของกล่องจะใหญ่ตามจำนวนในกลุ่ม


Bubble - EP13

bubble เป็น Scatter plot ที่มี column ที่ 3 หรือตัวแปรที่ 3 เพิ่มเข้าไปในอีก 1 มิติ ซึ่งเป็นมิติของขนาด


ห้เลือกทั้ง 3 column แล้วไปเลือก insert แล้วเลือก Scatter plot เลือก


เราก็จะได้หน้าตาแบบนี้



Pivot Chart - EP14

Pivot table เป็น ชุดรายงานที่สามารถทำ Report ข้อมูลสรุปตารางในแต่ละมิติ ที่โปรแกรม excel คำนวนให้เราโดยที่เราไม่ต้องเขียน code ใดๆ เลย

โดยสมมติว่าเรามีข้อมูลยอดขาย ขนาด 10k แถว ให้ไปที่ insert แล้วเลือกเมนู pivotable


มันจะแสดง dialog มาถามเราให้กด ok ไปเลย


มันจะแสดงหน้าใหม่แบบนี้ออกมา จากนั้นให้เราตั้งคำถามว่าอยากจะรู้อะไร อยากจะทำรายงานแบบไหน ให้ไปที่ pivottable field ที่อยู่ด้านขวามือจับมาลากใส่กล่องได้เลย


ยกตัวอย่างเช่น

เลือก city ลากไปที่ Row แล้วเลือก summery ตามยอดขาย (Sales)


เราอาจจะ filter ตาม categories และ Segment


มันจะแสดง filter ที่ตารางในทันที



คอร์สนี้ดีมากกกก (ไก่ ล้านตัว)  ใครอ่านจบ แนะนำว่าให้ไปสมัครเรียน ติดตามได้ที่ link ด้านล่างนี้เลย 

Course Online DATA ROCKIE Bootcamp











แวะมาทักทายกันได้
donate

Categories: Tutorial Tags: #Data Science , 836