ถอดบทเรียน Introduction to Data Analytics and Big Data | ChulaMooc

Pakpoom Poom
3 min readJan 5, 2020

--

Big Data & Data Analytics & Machine Learning & Data Mining & Artificial Intelligence คืออะไร ?

https://sungsoo.github.io/2014/05/21/machine-learning-and-data-mining.html
https://sungsoo.github.io/2014/05/21/machine-learning-and-data-mining.html

Big Data คือข้อมูลที่มีขนาดใหญ่ หลากหลาย รวมถึงมีจำนวนมาก แล้วอาจเป็นไปไม่ได้ที่จะจัดเก็บ และประมวลผลด้วยวิธีการเดิม ซึ่ง big data ประกอบด้วย 3 ลักษณะ(3Vs) ดังนี้ :

  1. ข้อมูลที่มีปริมาณมาก (volume) เป็นข้อมูลที่มาอยู่รวมกันจำนวนมหาศาล มาจากหลากหลายแหล่งและหลายรูปแบบ เช่น ข้อความ ภาพ เสียง วิดีโอหรืออื่น ๆ
  2. ข้อมูลที่มีความหลากหลาย (variety) เป็นข้อมูลที่มาจากหลายประเภท หลายที่มา มีการเปลี่ยนแปลงอยู่ตลอด เช่น ผลตรวจสุขภาพของแต่ละคน ที่อาจมีค่าผลการตรวจมากถึง 30 รายการ และข้อมูลอื่นๆ เช่น รูปภาพ วีดีโอ เสียง โซเชียลมีเดีย(Social media)ต่างๆ
  3. ข้อมูลที่มีการเพิ่มขึ้นอย่างรวดเร็ว (velocity) เป็นข้อมูลดิบ ที่มีความไม่ชัดเจน โดยแต่ละวันเราจะได้รับข้อมูลใหม่เพิ่มขึ้น เช่น ธนาคารจะได้รับรายการโอนเงินมากถึงล้านรายการต่อวัน

ดังนั้น Big Data ก็เหมือนแหล่งรวมข้อมูลทุกอย่าง ทั้งข้อมูลที่นำมาใช้งานได้ และไม่สามารถนำมาใช้ได้ ทำให้การจะนํา Big Data มาใช้ประโยชน์ จึงต้องผ่านกระบวนการวิเคราะห์ข้อมูล (Big Data Analytics)

Big Data Analytics คือกระบวนการหาองค์ความรู้ใหม่จากข้อมูลมหาศาล เพื่อใช้ข้อมูลให้เกิดประโยชน์และสร้างมูลค่าต่อธุรกิจ โดยต้องมีผู้เชี่ยวชาญ เช่น Data science หรือ Data Analytic ที่สามารถจัดการข้อมูลได้อย่างมีประสิทธิภาพ ผ่านการนำข้อมูลที่เตรียมไว้มาวิเคราะห์เพื่อหาความสัมพันธ์ ทำความเข้าใจสาเหตุ แล้วคาดการณ์สิ่งที่จะเกิดขึ้นในอนาคต เพื่อนำไปสู่แนวทางการแก้ปัญหาที่เราตั้งไว้ ซึ่งสิ่งที่สำคัญของการทำ Big Data Analytics คือ การตั้งโจทย์ให้เหมาะสม แล้วนำ Big Data Analytics มาตอบโจทย์

http://www.impresspages.lt/view/262607/buddy-the-family-companion-robot.html

แล้วอะไรบ้างที่เรียนรู้จากข้อมูลที่มี

Machine Learning vs Data Mining vs Artificial Intelligence เป็นสิ่งที่ได้เรียนรู้และใช้ประโยชน์จากข้อมูล ผ่านการนำข้อมูลที่มีในอดีตมาช่วยในการคิดและทำนายสิ่งที่ยังไม่ได้เกิดขึ้นในอนาคต

Machine Learning คือ การทำให้ระบบคอมพิวเตอร์เรียนรู้ได้ด้วยตนเอง โดยใช้ ข้อมูล(using data to answer questions) เช่น การส่งรูปภาพสินค้าเข้ามาในระบบ ระบบจะระบุได้ทันที่ว่าเป็นรูปภาพสินค้าอะไร ตรงกับหมวดที่ใส่มาหรือไม่ ซึ่ง Machine Learning ส่วนใหญ่จะแบ่ง ได้ 3 ประเภทดังนี้

- Supervised Learning : เรียนรู้โดยมี data มาสอน

- Unsupervised Learning : เรียนรู้โดยไม่มี data สอน

- Reinforcement Learning : เรียนรู้ตามสภาพแวดล้อม

Data Mining เป็นขั้นตอนการวิเคราะห์ข้อมูลและการค้นหาความรู้ที่มีค่าจากสิ่งที่มี โดยจะเปลี่ยนจากข้อมูลดิบ(Data)ให้เป็นข้อมูลที่ทำความเข้าใจได้(Information) เพื่อที่จะนำไปใช้ต่อ ซึ่ง Data Mining ใช้วิธีการของทั้ง AI, Machine Learning และทางสถิติ เพื่อให้ได้มาซึ่งข้อมูลเชิงลึก(Insight) เช่น รูปแบบการซื้อสินค้าของผู้ชายอายุอายุ 20–30 ปี ที่ซื้อกระป๋องในวันศุกร์ มักจะซื้อผ้าอ้อมเด็กด้วย

Artificial Intelligence(AI) หรือที่เรียกว่า “ปัญญาประดิษฐ์” คือการพยายามทำให้คอมพิวเตอร์สามารถพัฒนาตนเองให้ทำงานเลียนแบบมนุษย์ได้ ซึ่งในการพัฒนาบางครั้งอาจจะต้องอาศัยการเรียนรู้จาก Machine Learning เพื่อตอบสนองได้เร็วยิ่งขึ้น

Machine Learning vs Data Mining vs Artificial Intelligence ล้วนมีความเกี่ยวข้องกัน และต้องพึ่งพาวิธีการของกันและกัน เพื่อเรียนรู้แล้วนำไปใช้ต่อ เพียงแต่มีสิ่งต่างกันออกไป คือเป้าหมายของแต่ละตัว

https://honingds.com/

เครื่องมือในการวิเคราะห์

R, Python เป็นภาษา computer programming ที่มีชุดคำสั่งจำนวนมาก จึงมีความพร้อมและเหมาะสมอย่างมากสำหรับการทำ Data Analytics ทำให้เป็นที่นิยมใช้กัน ส่วน Rapidminer เป็นโปรแกรมสำเร็จรูปที่ออกแบบมาให้ช่วยทำงานสำหรับการวิเคราะห์และเรียนรู้จากข้อมูล เบื้องต้นได้ในรูปแบบของ Machine Learning และ Data Mining โดยไม่ต้องเขียน Code เลย ทำให้สะดวกต่อการใช้งาน

https://slideplayer.com/slide/2419930/

การยกระดับข้อมูลให้มีประโยชน์มากขึ้น

เมื่อได้ยินคำว่า Big Data, Data Science, Machine Learning, Data Mining, AI ทำให้หลายธุรกิจเริ่มตื่นตัว อยากจะนำข้อมูลที่มีมาวิเคราะห์ ทำนายสิ่งที่ยังไม่เกิดขึ้นในอนาคตได้อย่างมีประสิทธิภาพ

  • Reporting การดูว่าในอดีตเกิดอะไรขึ้นบ้าง ผ่านการคำนวณทางสถิติและการทำกราฟจากข้อมูล เช่น จำนวนผู้ใช้งาน ยอดขาย สินค้าคงเหลือ เป็นต้น
  • Analysis การดูว่าในอดีตสิ่งที่เกิดขึ้นเป็นเพราะอะไร ผ่านการสำรวจข้อมูลและวิเคราะห์ เช่น การดูว่าช่วงเวลาใดที่คนนิยมทำรายการ เดือนที่ยอดขายมากกว่าเดือนอื่นเป็นแบบนั้นซ้ำๆทุกปีหรือไม่(seasonal) การดูว่าคนลักษณะใดที่นิยมทำรายการนั้น การดูว่าคนที่ทำรายหนึ่งจะทำรายการอะไรร่วมด้วย
  • Monitoring การดูว่าตอนนี้กำลังเกิดอะไรขึ้น ผ่านการนำสิ่งที่เกิดขึ้นในอดีตพร้อมทั้งเหตุผลมาดูแนวโน้มของสิ่งที่อาจเกิดขึ้นในปัจจุบัน เช่น ในอดีตเมื่อมีการปล่อยโปรโมชัน A จะทำให้ยอดขายเพิ่มขึ้น B หากเดือนนี้ต้องการเพิ่มยอดขายขึ้นก็อาจลองพิจารณานำโปรโมชัน A กลับมาใช้
  • Prediction การดูว่าในอนาคตจะเกิดอะไรขึ้น ผ่านการนำสิ่งที่เกิดขึ้นในอดีตและสิ่งที่กำลังทำในปัจจุบันมาทำนายสิ่งที่จะเกิดขึ้นในอนาคต เช่น ลูกค้าที่มีพฤติกรรมการซื้อสินค้าเปลี่ยนไปเป็นแบบ XXX แสดงว่าลูกค้าคนนี้มีแนวโน้มจะเลิกเข้ามาใช้บริการ ทำให้สามารถเข้าไปแก้ไขได้ทันก่อนที่ลูกค้าจะเลิกเข้ามาใช้บริการ
https://www.hotelogix.com/blog/2017/08/23/leverage-historical-data-bookings-guests-profile-drive-revenue/

ตัวอย่างประโยชน์จากการนำข้อมูลมาใช้งาน

· การแบ่งกลุ่มลูกค้าหรือผู้ใช้งาน ทำให้ทราบว่ากลุ่มไหนสนใจเรื่องอะไร ต้องการอะไร จะได้เสนอสิ่งที่ต้องการได้ตรงจุด

· การคำนวณค่าต่างๆ ที่จะเกิดขึ้นในอนาคต เช่น ยอดขายสินค้า

· การแนะนำสิ่งต่างๆที่สอดคล้องกับความต้องการของแต่ละคน เช่น การเรียง feed ใน Facebook ของแต่ละคนจะต่างกันไป ขึ้นกับพฤติกรรมการใช้งานของแต่ละคน หรือรายการแนะนำสินค้าที่แตกต่างกันสำหรับแต่ละคน

· การรู้ล่วงหน้าว่าลูกค้าคนใดกำลังจะเลิกใช้งาน ทำให้สามารถเข้าไปดำเนินการต่างๆได้ในทันที เพื่อเปลี่ยนใจลูกค้าให้ยังใช้งานต่อไป

· การรู้ล่วงหน้าว่าพนักงานคนใดกำลังจะลาออก ทำให้สามารถเข้าไปดำเนินการต่างๆได้ในทันที เพื่อช่วยแก้ไขปัญหาและเปลี่ยนใจพนักงานให้ยังอยากทำงานต่อไป

· การระบุพฤติกรรมที่มีความเสี่ยงในการทำทุจริต ทำให้สามารถป้องกันความเสียหายได้ทัน

· การปรับลดค่าใช้จ่ายต่างๆ หรือโยกย้ายการลงทุนเพื่อให้เกิดประสิทธิภาพสูงสุด

· การวิเคราะห์ผลการบริการลูกค้า เพื่อให้รู้ประสิทธิภาพของพนักงานบริการ และความพึ่งพอใจของลูกค้า

ดังนั้นยุคปัจจุบันที่เรียกว่า “ยุคแห่งข้อมูล” จึงมีความท้าทายอย่างมาก เพราะข้อมูลและเทคโนโลยีในๆ ทุกวันนี้เกิดขึ้นไวแบบก้าวกระโดด กิจกรรมในโลกออนไลน์มีอัตราสูงขึ้นมาก ใครที่รู้จักใช้ข้อมูลย่อมได้เปรียบ โดยใช้เครื่องมือที่เรียกกันว่า Big Data และ Data Analytics เริ่มจากสิ่งที่ใกล้ตัวเราก่อนอย่างการช้อปปิ้งออนไลน์ ไปจนถึงแคมเปญหาเสียงที่ดังที่สุดในโลกของโดนัลทรัมป์ เพราะใช้การวิเคราะห์ข้อมูลขนาดใหญ่มาช่วยในการวิเคราะห์จึงรู้ใจแต่ละคนได้ รู้ก่อนเข้าใจก่อนได้เปรียบ

แหล่งอ้างอิง :

--

--

Pakpoom Poom
Pakpoom Poom

Written by Pakpoom Poom

My journey | Lifelong Learning : Learn – Unlearn – Relearn

No responses yet