How to think like a Data Scientist x KBTG

Pakpoom Poom
5 min readAug 22, 2021

--

Data Scientist คือใคร แล้วเค้าคิดยังไง มาร่วมหาคำตอบไปด้วยกัน ในบทความนี้

“Everyone talks about it, nobody really knows how to do it,everyone thinks everyone else is doing it, so everyone claims they are doing it,” — Dan Ariely

Data Scientist เป็นสิ่งที่หลายๆ คนพูดถึง แต่ไม่มีใครที่เข้าใจว่ามันทำงานอย่างไร แล้วทุกคนก็คิดว่าคนอื่นกำลังทำกันอยู่ ดังนั้นทุกคนจึงพร้อมใจกันอ้างว่าตนเองก็กำลังทำอยู่เช่นกัน

วันนี้เราจะพามารู้จักกับคำว่า Data Scientist พร้อมอธิบายสิ่งที่เรากำลังทำอยู่นั้นๆ แท้แล้วมันเรียกว่า Data Scientist หรือเปล่า เพราะถ้าเราทำและเปรียบเทียบกับคนอื่นๆที่อยู่ในทีมหรือองค์กร เราจะทำอย่างไรให้ดีกว่าเพื่อประโยชน์ต่อธุรกิจ

ทำไมที่ผ่านมาทำไม Data Scientist จึงได้รับความสนใจ ?

ต้องเริ่มจากคำแรกที่ต้องรู้จักก่อนคือว่า Data

Data

“There was 5 Exabytes of information created between the dawn of civilization through 2003, but that much information is now created every 2 days, and the pace is increasing.” — Eric Schmidt

Data เป็นข้อมูลจำนวนมหาศาลที่จะเพิ่มขึ้นทุกๆ 2 วัน และเป็นการเพิ่มขึ้นแบบก้าวกระโดด(Exponential) โดยจะเป็นการเพิ่มขึ้นทั้งด้านจำนวน(Volumn) ความเร็ว(Velocity) และความหลากหลาย(Variety) จากกราฟของ Oracal จะพบว่าข้อมูลที่เราสร้างขึ้น จะเพิ่มเป็นสองเท่าในทุกสองปี โดยเฉพาะปี 2015 ข้อมูลส่วนใหญ่ที่เพิ่มขึ้นจะเป็นข้อมูลแบบ Unstucred Data มากถึง 88% และข้อมูลแบบ Structured จะอยู่ที่ 22% ซึ่งจะผันตามจำนวนของนักวิเคราะห์ข้อมูลที่ยังไม่สูงมาก ดังนั้นข้อมูลแบบ Unstucred Data จึงเป็นโอกาสในการวิเคราะห์

ข้อมูลในทางธุรกิจ

ประกอบแบ่งเป็น 3 ประเภท คือ

1.Traditional Business Data คือ ข้อมูลที่อยู่ใน ERP / Databases จะจัดเป็นข้อมูลหลักๆที่เราใช้ในองค์กร

2.Machine Data คือ ข้อมูลต่างๆ ที่เกี่ยวข้องกับอินเทอร์เนต(internet of thing)

3.Human Data(generater) คือ ข้อมูลที่อยู่ในรูปของ web, Social, Location

โดยข้อมูลในประเภท Machine Data และ Human Data(generater) นับวันจะยิ่งมีจำนวนข้อมูลมากยิ่งขึ้น ที่เราต้องวิเคราะห์ เพื่อหาโอกาสทางด้านธุรกิจ โดยเราจะใช้ความรู้ทางด้าน Data Science มาช่วย

The most important V

ลักษาณะของ Data ในมุมมองของธุรกิจจะมีประกอบด้วย 1.Volumn 2.Variety 3.Velocity แล้วทุกคนสงสัยกันมั้ยครับ ว่า V อะไรที่สำคัญที่สุด ?

เฉลย : ไม่ใช่ Volum ไม่ใช่ Varity และไม่ใช่ Velocity แต่เป็น V-Value

V- Value หมายถึงการค้นหาคุณค่าของข้อมูล เพื่อนำไปใช้ในการตัดสินใจและนำไปปฏิบัติ เพื่อประโยชน์ทางธุรกิจ เพราะการที่ธุรกิจมีข้อมูลจำนวนมาก หรือการเก็บข้อมูลที่หลากหลาย หรือการที่ข้อมูลเกิดขึ้นอย่างรวดเร็ว แล้วเก็บเข้าไปในระบบ มันก็ไม่ได้การันตีว่าข้อมูลเหล่านั้นจะมีประโยนช์

แต่สิ่งที่จะเป็นประโยชน์จริงๆ คือการที่เราสามารถหาประโยนช์หรือคุณค่าจากข้อมูล แล้วการหาคุณค่าจากข้อมูลเนี่ย มันต้องใช้เครื่องมืออะไร และเป้าหมายที่แท้จริงของการใช้เครื่องมือ เพื่อลดเวลาในการหาคุณค่าของข้อมูล(Reducing time to value/ Reducing time to insight)ให้ได้รวดเร็วมากที่สุด เพราะถ้าเราใช้เวลาถึง 2 ปีในการหา insight ของข้อมูล ก็อาจจะไม่ทันต่อการแข่งขันและไม่มีประโยนช์ต่อธุรกิจแล้ว ดังนั้นนอกจากหา value เป็น จะต้องลด time to value/time to insight ให้ได้ด้วย จึงกลับมาที่โจทย์ว่า เมื่อเรามีข้อมูล เราจะหา value จากข้อมูลได้อย่างไรกัน

ตัวอย่างเมื่อก่อน เรามีข้อมูลเพียง 30 บรรทัด เราอาจจะหา value ผ่านการอาศัยลูกคิดมาช่วยได้ แต่ข้อมูลในปัจจุบันมีจำนวนมาก มาพร้อมกับความหลากหลายที่สูงขึ้นอย่างรวดเร็วมากยิ่งขึ้น การจะใช้ลูกคิดเหมือนเดิมคงไม่ได้ จึงเกิดศาสตร์ที่เรียกว่า Analytics ขึ้น

Analytics คือการวิเคราะห์(Analysis) ที่ใช้คอมพิวเตอร์ หรือ IT เข้ามาช่วย ไม่ว่าจะเป็น เครื่องคิดเลข/AI/ML เพื่อค้นหา value แล้วที่สำคัญคือการลดระยะ time to value/time to insight ให้น้อยที่สุด

4 Analytics levels

ประเภทการของ Anayticsls สามารถแบ่งได้ 4 ระดับ

1.Descriptive : เป็นการเข้าใจอดีต ผ่านคำถาม what happen เช่น เรารู้มั้ยเรามีลูกค้ากี่คน, เรารู้มั้ยว่ายอดขายเราเป็นอย่างไร จะเป็นระดับที่เราค้นหา value ได้เพียง 25%

2.Dignostics : เป็นการเข้าใจอดีต ผ่านคำถาม why happen เช่น เรารู้มั้ยทำไมยอดขายถึงตก, ทำไมลูกค้าถึงเข้ามาใช้บริการเยอะ จะเป็นระดับที่เราค้นหา value ได้ 50%

3.Predictive : เป็นการเข้าใจอนาคต ผ่านคำถาม what happen จะเป็นระดับที่เราค้นหา value ได้ 75%

4.Prescriptive : จะเป็นระดับที่เราค้นหา value ได้ทั้งหมด 100%

งั้นเราลองมาทบทวนกันว่าที่เราวิเคราะห์ข้อมูลอยู่ในปัจุบันเนี่ย เราทำได้ถึง 100% หรือยัง หรือถึงระดับไหนแล้ว ?

ยกตัวอย่าง เราเป็นคุณหมอที่เปิดคลินิกอยู่ต่างจังหวัด เจอคนไช้หนึ่งคน คุณหมอจะต้องเริ่มสังเกตอาการลักษณะภายนอก(รูปร่าง หน้าต่าง การแต่งตัว หน้าซีด) รวมถึงการพิจารณา description ทำให้ขั้นตอนจะจัดเป็นการวิเคราะห์แบบ descriptive

ต่อมาคุณหมอได้เริ่มพูดคุยผ่านการถาม-ตอบกับคนไข้ เพื่อวินิจฉัยหาสาเหตุอาการ(casuse) จนพบว่า คนไข้เคสนี้เป็นหวัดเพราะตากฝนมา ทำให้การวินิจฉัยในขั้นตอนนี้ถือเป็นการวิเคราะห์แบบ Dignostics ที่สูงขึ้นมาอีกขั้น

แต่ถ้าอนาคตมีคนไข้เพิ่มขึ้นอีก 100 คน โดยทางคุณหมอจะอาศัยการวิเคราะห์แบบเดิมจากทั้งทาง descriptive และ Dignostic จนสามารถค้นหา pattern ได้ เช่น คนไข้ 100 คน ส่วนใหญ่ 80 คน ถ้าตากฝนมา(casuse) จะมีแนวโน้มที่จะเป็นหวัด(effect) ที่เหลือมาจากสาเหตุอื่น แสดงว่าคุณหมอได้สร้างอัลกอริทึมของตัวเองขึ้นมาในการคาดการณ์อนาคต ทำให้ขั้นตอนถือเป็นการวิเคราะห์แบบ Predictive

แต่สิ่งสำคัญที่สุดคือการที่หมอต้องใช้การวิเคราะห์ข้อมูลทั้งหมดไปทำการวิเคราะห์แบบ Prescriptive คือการทำสิ่งที่หมอ predict ไม่เป็นจริง หมายความว่า เมื่อหมอดูข้อมูลแนวโน้มของคนไข้ของตนเอง แล้วสามารถ predict ได้ว่าคนไข้คนนี้น่าจะเป็นหวัด แต่คุณหมอจะต้องทำอย่างไรไม่ให้เค้าเป็นหวัด สมมุติวันนี้มีคนไข้คนที่ 101 เข้ามา และบอกหมอว่าเค้าไปตากฝนมา ทำให้หมอ predict ได้ทันทีจาก pattern ที่ผ่านมาด้วย accuracy ที่ 80% ว่าคนไข้เคสนี้น่าจะเป็นหวัด ดังนั้นหมอต้องทำอย่างไรที่ไม่ให้ป่วยเป็นหวัด นั้นก็คือการให้ยา เสมือนเป็นการ take action เพื่อไม่ให้สิ่งที่หมอ predict เป็นจริง ทั้งหมดจึงถือว่าคุณหมอได้ใช้ value จากข้อมูลได้ครบ 100% ทั้ง 4 แบบของการวิเคราะห์ ซึ่งในโลกของธุรกิจ ถ้าเราแค่วิเคราะห์ได้ว่าลูกค้าจะไปใช้บริการที่อื่น หรือจะเข้ามาใช้ร้านอาหารอย่างไร แค่นี้มันอาจจะไม่พอ เราต้องมีการ take actiom ให้เค้าไม่เลิกใช้บริการของเราหรือให้เค้ามาซื้อของกับเรามากยิ่งขึ้น

ดังนั้นการวิเคราะห์แบบ Descriptive และ Dignostics จะเป็นการวิเคราะห์อดีต ที่จะเรียกว่า Business Intelligence หรือการวิเคราะห์แบบ Traditional ที่ทุกๆ บริษัทควรจะทำ แต่สิ่งหนึ่งที่แตกต่างกันไป ถ้าเรารู้ข้อมูลอดีตและสามารถหา pattern ได้ เราต้องรู้ future เพื่อวางแผนอนาคตได้ เพื่อที่จะสร้างความได้เปรียบให้กับธุรกิจ ศาสตร์นี้เรียกว่า Data science ที่เกิดจากการ Predictive และ Prescriptive เพราะถ้าเรารู้แค่ว่ายอดขายมันจะตก ยอดขายมันจะขึ้น เรารู้ว่าลูกค้าจะน้อยลง เรารู้ว่าทำไม แต่เราไม่สามารถเอาไปมาใช้วางแผนอนาคตได้เลย มันก็จะไม่มีประโยชน์ เช่นกันถ้าเราไม่วางแผนที่ลงมือทำอย่างไรเพื่อไม่ให้ลูกค้าลด ไม่ให้ยอดขายตก ก็ไม่มีประโยชน์เช่นกัน ดังนั้นสิ่งสำคัญ คือ แม้เราจะวิเคราะห์ได้ แต่เราต้องมาดูว่าการวิเคราะห์นั้นเป็น Business Intelligence หรือ Data science เพราะทุกบริษัทต่างต้องการก้าวจาก Business Intelligence ไปสู่ Data science ให้ได้ เพื่อรู้อนาคต และสามารถ take action ได้ถูกต้อง ถูกทาง ถูกเวลา

Data Scinece Skill

Foundation ที่ DATA SCIENCE SKILL ควรจะมี

1.Business Domain — รู้ข้อมูล — เข้าใจข้อมูลในเรื่องนั้นๆ

2.Math & Statistic — รู้เครื่องมือ — วิเคราะห์ข้อมูลผ่านการอาศัยความรู้ทางคณิตศาสตร์และสถิติ

3.Hacking skills — รู้ทักษะในการค้นหา — การเอ้ะ การตั้งคำถามกับข้อมูล เพื่อหา insight

ทักษะต่าง ๆ เหล่านี้ อาจจะยังไม่เพียงพอ ทำให้สิ่งสำคัญที่เราควรมีเพิ่ม

1.Communication — Audiuce สามารถสื่อสารได้ทั้งในแง่ของการพูดสรุป และเชิงเทคนิค

2.Collaborate — teamwork สามารถทำงานเป็นทีมได้

3.Business Mindset(actionable) — problem solves เข้าใจธุรกิจ และสามารถหา value จากข้อมูลได้ โดย value ของข้อมูล จะแบ่งเป็น 2 ส่วน 1.FYI insight คือทำเพื่อให้รู้ไว้เฉยๆ 2.Actionable insight คือทำเพื่อให้ใช้ในการตัดสินใจ

4.Learning — สามารถเรียนรู้ พัฒนาตัวเอง ตลอดเวลา

ภาพรวม Data Scienec

คือการค้นหา value จากข้อมูลเพื่อสร้างเป็น data product ภายใต้เวลาที่จำกัด(reduce time to value, reduce time to insight) เช่น การสร้างInformation, Knowledge, Data Story เพื่อให้ทันต่อการตัดสินใจและการรแข่งขันทางธุรกิจ ผ่านการใช้เครื่องมือ เช่น Data mining, ML, Recommendation Systems, Complex event processing

ซึ่งในปัจจุบันนี้จะมีความท้าทายมากยิ่งขึ้น เพราะปรากฎการณ์ของ Data ที่เกิดจาก Big Data (ข้อมูลมีปริมาณเพิ่มขึ้น หลากหลายยิ่งขึ้น และเกิดขึ้นอย่างรวดเร็ว), Internet of thing (ข้อมูลที่มาจาก machine ทำให้มีขนาดใหญ่และซับซ้อนมากขึ้น) , cloud computing (มีที่เก็บที่ใหญ่ขึ้น รวมถึงมีระบบการประมวลผลที่ดีขึ้น ทำให้มีข้อมูลเพิ่มขึ้น) และสุดท้าย Datafication (ข้อมูลที่เราทุกคนสร้างเข้าไปในโลกของอินเทอร์เน็ตในทุกๆ วันทุกเวลา) ดังนั้นการหา value จึงมีความท้าทายมากขึ้นและเป็นโอกาสให้กับอาชีพ Data Scientist

Data science processs

กระบวนการที่ Data Scientist จะใช้การพัฒนา data product ซึ่งส่วนหนึ่งจะมาจากกระบวนการทางวิทยาศาตร์ จะประกอบด้วยส่วนหลักๆ 3 ส่วน คือ

  1. Understanding — การเข้าใจ จะมี 2 ส่วน คือ 1.Business-เข้าใจปัญหาทางธุรกิจ(Business Problems ?) 2.Data-เข้าใจปัญหาที่เกิดขึ้นนี้สามารถแก้ไขด้วยข้อมูลได้มั้ย(Can data help?) ก่อนที่จะเริ่มขั้นตอนถัดไป เราต้องพิจารณาว่า Do you have data ? (yes)เริ่มการทดลองได้ (no)ให้เริ่มการทำ data collection ผ่านการ buy/acquire/partner ก่อน
  2. Experiment — การทดลอง จะเริ่มต้นที่ตั้ง 1.ตั้ง high protensive data 2.เตรียมข้อมูล data preparation 3.พัฒนา model development หา pattern ของข้อมูล ส่วนใหญ่นิยมใช้ ML 4.Evauate&Test เพราะในบางครั้งเราสร้าง model มากกกว่า 1 ตัว เพื่อหา pattern หลายแบบ แต่ที่สุดท้ายต้องเลือก mudel ที่ดีที่สุดไปใช้ 5.Result & Discussion คือการสรุปผลและอธิบายว่า model นี้ดีอย่างไร และสามารถต่อยอดไปได้อย่างไร เพื่อนำผลลัพธ์ที่ได้ ไปสื่อสาร(communicate) ให้ทางลูกค้าหรือ Business เข้าใจ ก่อนที่จะเริ่มขั้นตอนถัดไป
  3. Implement — การนำไปใช้ เพราะถ้า model ที่เราสร้างขึ้น สามารถใช้งานได้ดี จะต้องมีขึ้นตอนการ implement ที่ไม่ว่าจะเป็นที่ระบบเดิม หรือ ระบบเสริมในการใช้งาน หรือนำกลับไปใช้ที่ process ใด process หนึ่งในธุรกิจ เพื่อสามารรถนำไปแก้ปัญหาทางธุรกิจได้

ดังนั้นภาพรวมของกระบวนการที่ Data Scientist จะใช้การพัฒนา data product จะเป็น cycle แบบนี้ หรืออาจจะมีขั้นตอน Monitor&Enhance เพิ่มขึ้นมา เพื่อให้ข้อมูลมี Value ต่อการนำไปใช้ในทางธุรกิจ

Use Case

ร้าน Starbuck ใช้ข้อมูลยอดขาย sale, Customer/loyatty car/ location นำมาวิเคราะห์ เพื่อช่วย Supply Chain management เช่น การบริหารวัตถุดิบ เพื่อพิจารณาว่าควรส่งของไปสาขาไหนเมื่อไหร่ เพื่อที่จะสามารถขายของได้เลย และสามารถเพิ่มรายได้ได้ทันทีที่ของมาถึง จึงนับเป็นการใช้ข้อมูลเพื่อเพิ่มคุณค่าให้กับธุรกิจ

ขอบคุณข้อมูลจาก

KBTG

--

--

Pakpoom Poom
Pakpoom Poom

Written by Pakpoom Poom

My journey | Lifelong Learning : Learn – Unlearn – Relearn

No responses yet