บันทึกการใช้งาน Google Sheet 102 สำหรับนักวิทยาศาสตร์ข้อมูล Data Science - sprint 01

Image placeholder
แวะมาทักทายกันได้


01 - Import Data การนำเข้าข้อมูลจากแหล่งอื่นไปใน google sheet


วิธีการ import data ใส่เข้าไปใน google sheet

สมมุติว่าเรามีไฟล์ csv ที่เป็น share online อยู่ เราสามารถที่จะนำไปแสดงผลบน google sheet ได้ โดยใช้คำสั่ง ว่า IMPORTDATA(URL) และ IMPORTHTML(url, การค้นหา, index)

ให้นำ link ที่เป็นเก็บข้อมูล csv เอาไว้บน internet มาวางเอาไว้ใน cell ใดสัก cell หนึ่งใน google sheet เช่น link นี้ https://people.sc.fsu.edu/

จากนั้นให้ใช้ function ชื่อ IMPORTDATA(เลือก cell ที่เก็บ link url เอาไว้) จากก็ enter มันจะโหลดข้อมูลสักพักหนึ่งแล้วจะแสดงผล

อีกหนึ่งตัวอย่าง เราจะดึงข้อมูลจาก html มาแสดงเช่นเดียวกันกับ csv ต่างกันที่ลักษณะของไฟล์แค่นั้น โดยใช้คำสั่ง IMPORTHTML(url, การค้นหา, index)

ทำเช่นเดียวกันกับ importdata ได้เลยโดยเริ่มจากนำ url ที่ต้องการดึงข้อมูลมาเก็บเอาไว้ใน cell ใด cell หนึ่งใน google sheet จากนั้นก็เรียกด้วยฟังก์ชัน (url, การค้นหา, index)

การค้นหาจะเป็นการเลือก tag ที่อยู่ใน html เช่น table

index จะเป็นเลขอ้างอิงใน table

เช่น IMPORTHTML(www.w3schools.com, “table”, 1)



02 - COUNTIFS การสรุปผลข้อมูลเบื้องต้น


การสรุปผลที่ง่ายที่สุดก็คือวิธีการนับจำนวน ดูว่าข้อมูลแต่ละหมวดมีจำนวนเท่าไร โดยใช้คำสั่ง COUNTIFS

เช่นอยากจะดูว่ามี branch เครื่องคอมพิวเตอร์แต่ละ branch จำนวนเท่าไร



ยกตัวอย่างเช่น เราต้องการรู้ว่า จำนวน AMD มียอดขายอยู่เท่าไร ใช้คำสั่ง COUNTIF(RANGE) แต่ใช้ function นี้จะไม่สามารถใส่ได้หลายเงื่อนไข เราจะใช้ COUNTIFS(multiple condition) เช่น =COUNTIFS(RANGE C, “Intel”, RANGE D, “Core i5”) ก็คือมีจำนวน 5 นั่นเอง และสามารถใส่เงื่อนไขได้อีกด้วย เช่น < > ≤ ≥ 


03 - SUMIFS อยากจะหาผลรวมจำนวนของ ยอดขาย


SUMIFS จะเป็นการเลือก Column ที่ต้องการหาผลรวมก่อนแล้ว จึงใส่ RANGE และ Conditionเข้าไป




สิ่งที่ควรระวัง sumifs จะเป็น incesensitive จะไม่สนใจ ตัวเล็กตัวใหญ่ ในการ search หาคำในแต่ละแถว


04 - Filter เพื่อกรองหรือดึงเฉพาะข้อมูลที่เราต้องการ


ยิ่งกรองข้อมูลละเอียดเราก็จะได้ข้อมูลที่ตามความต้องการมากขึ้น

churn เป็นศัพท์การตลาด เป็นการวิเคราะห์ว่าลูกค้าจะใช้บริการเราต่อหรือไม่ โดยสามารถใช้ binary classification model ได้

เราสามารถกรองข้อมูลด้วย 2 วิธี คือ กรองด้วย เมนู create filter รูปถ้วยกรอง

สังเกตได้ว่าจะมีรูปถ้วยกรองออกมาให้เลือก filter 



อีกวิธีคือการเขียนสูตร

FILTER โดยมี 3 args

เลือก ข้อมูลในตารางทั้งหมด

แล้วใส่เงื่อนไข



มันยังสามารถใส่ได้หลายเงื่อนไข ต่อไปเรื่อยๆได้


05 - Sort sheet การจัดเรียงข้อมูล


เราสามารถ sort ข้อมูลได้ด้วย หลังจากทำการ filter

tip : ctrl + shift + down จะ highlight row ทั้งหมด

column คือ เลือก column ที่ต้องการ sort

เรียกจากน้อยไปมาก ให้ใส่ true

สามารถใส่เงื่อนไข ไปได้เรื่อยๆ เช่นกัน




06 - Vlookup

Exact Math เป็น Map Id หรือค้นหาข้อมูลระหว่าง table กัน โดยที่ Exact Math จะหมายถึง การกำหนดว่าจะต้องค้นหาค่าที่ตรงกันเท่านั้น โดยการกำหนดด้วยค่า false ในสูตร Vlookup



Tip : การตั้งชื่อ Range ของตารางที่เราสามารถ short cut ตารางได้อย่างง่ายๆเพื่อไปใช้ในสูตร

โดย เลือกที่เมนู Data → Name Range แล้วตั้งชื่อ

จากนั้นก็นำชื่อที่ตั้งไปใส่ในสูตร



ก็จะเหมือนกันการสร้าง range ขึ้นมา

07 - Vlookup 02

Approximate Math จะเป็นการประมาณค่าที่ใกล้เคียงไปแสดงผล

จะเป็นการ set true

เปรียบเทียบระหว่าง vlookup แบบ exactmat กับ approximate mat ก็จะเห็นว่า approximate จะเป็นการประมาณค่ามาแสดงผลตามเงื่อนไขที่วางไว้


Exact Math


Approximate Math


08 - Index And Match

อีก 2 ฟังก์ชันที่อยู่ในตระกูล Vlookup คือ index และ match

สมมติว่าเราอยากรู้ว่า ข้อมูลในแถวที่ 10 ขาย model อะไรไป ก็จะนำ index ฟังก์ชันเข้ามาช่วย



โดยการใช้ INDEX(Range, row, column)



คราวนี้มาดูฟังก์ชัน match กันบ้าง มันคือการ วิ่งเข้าไปค้นหา value ของคำที่ต้องการว่าตรงกันหรือไม่ อยู่ในตำแหน่งที่เท่าไร



สมมติว่าเราอยากจะสร้าง drop down list มาแสดงผลค่าต่างๆได้เลยขั้นตอนมีดังนี้

สร้าง Data Validation โดยการไปที่เมนู Data → Data validation




โดยเมนูจะอยู่ด้านข้าง ให้เลือก ที่ Drop Down from a range



เลือก range ที่ต้องการจะทำ drop down



เมื่อเราทำแบบ เดียวกันแล้ว ในส่วนของ column ก็ให้สร้างสูตร index เลือก row และ column เพื่อดูข้อมูลได้เลย

โดยที่ ช่องของ value จะใส่สูตร index และ match เข้ามาช่วย



09 - DATE

สามารถปรับ format ได้ โดย higtlight ช่องที่ต้องการ และ กดที่เมนู 123



แล้วเลือก custom date and time เพื่อปรับ format ของวันที่ที่เหมาะสม



เราสามารถที่จะนำ column year month day มา merge ด้วยฟังก์ชัน Date ได้



ใส่ฟังก์ชัน Date เข้าไปใน new Date Column

 


10 - DATEDIF

การหาความแตกต่างระหว่าง 2 วัน

TODAY()

อยากจะหาว่า ระหว่าง last day กับ currence day ต่างกันเท่าไร

เราสามารถ นำ date มาลบกันได้



หรือสามารถใช้ ฟังก์ชัน DATEDIF ได้



มาลอง diff month กันบ้าง



มาลอง diff year กันบ้าง



และเพื่อหาจำนวนเดือนของความต่างในปีปัจจุบัน จะใช้ YM ลงใน unit ของฟังก์ชัน DATEDIF




คอร์สนี้ดีมากกกก (ไก่ ล้านตัว)  ใครอ่านจบ แนะนำว่าให้ไปสมัครเรียน ติดตามได้ที่ link ด้านล่างนี้เลย 

Course Online DATA ROCKIE Bootcamp



แวะมาทักทายกันได้
donate

Categories: Tutorial Tags: #Data Science , 668