วิชาปรัชญากับนักวิทยาศาสตร์ทางด้านข้อมูล

คำว่าปรัชญา (Philosophy) มีรากศัพท์มาจากภาษาสันสกฤตหมายถึงความรู้อันประเสริฐ อันที่จริงแล้วเป็นวิชาที่เมืองไทยไม่ค่อยให้ความสำคัญเท่าไร ผมเองเคยเรียนมัธยมในไทยรู้สึกผิดหวังแทนคนไทยที่ไม่ได้รับโอกาสศึกษาวิชาปรัชญาอย่างจริงจัง อยากให้ทุกท่านคิดวิชาปรัชญาเป็นศาสตร์ของการคิดเพื่อนำไปต่อยอด สอนให้คิดทุกอย่างตั้งแต่การตั้งคำถามสิ่งที่อนุภาพแบบว่าการเกิดดับของมนุษย์เป็นไปจริงหรือจนถึงจักรวาลโลกใบนี้สร้างขึ้นจากอะไร ดังนั้นจึงอยากยกประเด็นขึ้นมาให้ผู้อ่านที่อยากเป็น Data Scientist ได้ลองพิจารณาดูตามแบบแนวปรัชญา คืออ่านไปพร้อมตั้งคำถามไปเรื่อยๆ เพื่อหาสาเหตุที่มาที่ไปของทุกๆอย่างๆ หรือแม้กะทั่งการหาคำตอบนั้นก็เกิดขึ้นโดยใช้ความเข้าใจในหลายๆเรื่องมาผสมผสานกัน ยำรวมเข้ากันจนเกิดวิธีคิดที่สามารถหาแนวทางมาคิดวิเคราะห์ต่อยอดได้ คำตอบที่ถูกหรือผิดนั้นไม่มีอยู่จริงๆในหลักของวิชาปรัชญา คำว่าถูกในหลักการหาคำตอบที่ผู้เขียนคิดคือคำตอบสามารถเข้าใกล้ความเป็นจริงมากที่สุด คำว่าผิดหรือคำตอบผิดนั้นคือไม่สามารถทำให้เข้าใกล้ความเป็นจริงได้ เช่นหากท่านไม่เชื่อในคำตอบใดท่านต้องนำความจริงที่เกิดขึ้นมาหักล้างคำตอบเก่าให้ได้ ตัวอย่างเช่นมนุษย์เชื่อว่าดวงอาทิตย์ขึ้นทางทิศตะวันออก ตกทางทิศตะวันตกด้วยความเชื่ออะไรสักอย่าง การพิสูจน์ความคิดนี้คือการสังเกตทุกเช้าว่าพระอาทิตย์ขึ้นทุกเช้าจริงหรือไม่และนำผลมาสังเกตว่าแต่ละวันขึ้นในทิศใดบ้าง

sunrise: does it really happen everyday?

หวังว่ามาถึงจุดนี้ผู้อ่านจะพร้อมตอบคำถามในบทความนี้ด้วยตัวเอง และนำความจริงมาเทียบพิสูจน์ว่าความคิดของท่านตรงกับความจริงหรือไม่ จากนั้นนำความเข้าใจในเรื่องๆนั้นไปหาข้อสรุปที่เป็นและพิสูจน์ผ่านความจริงอีกครั้ง ผู้เขียนยังหวังอีกว่าบทความนี้จะทำให้ท่านได้ประโยชน์ในหาคำตอบในวิธีการทำสิ่งใหม่ๆอีกด้วย

คำถามข้อแรกคือ​ Data Science ได้ชื่อนี้มาจากใดเจ้า?

คำตอบคือ…………………………..อยากให้ทุกคนลองคิดและตอบด้วยตัวเอง สำหรับผมแล้ว หากคิดวิเคราะห์แล้วเราต้องถามกลับไปว่าโดยตัวชื่อนั้นหลักๆแล้วคือใครสักคนที่ต้องใช้หลักการทางวิทยาศาสตร์ (science) แปลว่าสามารถได้รับการพิสูจน์และทดลองบวกกับการผนวกข้อมูล (information) ในที่นี้คือก็คือดาต้า (data) มาเป็นหนูทดลองใช้นั้นเอง แปลว่าหากคุณลองผิดลองถูกกับการนำข้อมูลหนึ่งชุดมาผ่านขบวนการทางวิทยาศาสตร์แล้ว เช่นลองหาความสัมพันธระหว่างข้อมูลคนไทยที่ไปทานร้านอาหารญี่ปุ่นกับรายรับของคนญี่ปุ่นในสุขุมวิทโดยผ่านข้อมูลฐานเศรษฐกิจในประเทศ สรุปคุณก็คือนักวิทยาศาสตร์ทางด้านข้อมูลนั่นเอง หากเราจะพิสูจน์ความจริงในข้อหนึ่ง ลองทำโปรเจคทำนายราคาบ้านใน Kaggle Competition โดยที่ไม่มีหรือไม่ใช้ข้อมูลดู ท่านจะรู้เลยนักวิทยาศาสตร์ทางด้านข้อมูลนั้นไม่สามารถทำอะไรได้เลยพูดภาษาชาวบ้านคือวิชากลายเป็นหมัน ในขณะเดียวกันลองมีข้อมูลแต่ไม่ใช้หลักการทางวิทยาศาสตร์กันบ้าง เช่นใช้หลักความเชื่อแบบไสยศาสตร์ว่าบ้านหลังสีแดงจะขายได้ดีกว่าหลังอื่นราคาสูงกว่าราคาเฉลี่ยอย่างแน่นอน เพราะว่าสีแดงนำความโชคดีมาให้มากกว่าสีอื่นทั้งที่จริงๆแล้วบ้านสีแดงอาจจะมีสภาพเก่ามากก็ตามไม่พอยังมีคนมาเสียชีวิตในบ้านอีก ทั้งหมดที่เขียนมาคือคำตอบของผมในฐานะ Data Scientist คนหนึ่ง แล้วของท่านผู้อ่านละครับท่านได้คิดแบบใดบ้างครับ? และได้หาวิธีการพิสูจน์คำตอบอย่างไรบ้าง?

คำถามข้อสองคือจะไปหาหนูทดลอง​ ข้อมูล (Data) ได้จากทีใดเจ้า?

คำตอบคือ…………………………..อยากให้ทุกคนลองคิดและตอบด้วยตัวเอง

นานๆทีจะชมเรื่องแท็กซี่

สำหรับผมแล้วถ้าจะตอบคำตอบข้อนี้ได้ ต้องถามกลับว่าข้อมูลในโลกใบนี้มันเกิดขึ้นจากที่ไหนบ้าง และการเกิดขึ้นของอินเตอร์เน็ตนั้นช่วยให้เราเก็บข้อมูลส่วนตัวได้เยอะขึ้นหรือไม่ คำว่าดาต้า (data) เป็นพหูพจน์ (plural)ส่วนตัวเอกพจน์ของดาต้านั้นคือดาต้ำ (datum) ความหมายรวมๆแล้วแปลเป็นภาษาไทยว่า เกณฑ์, ข้อมูล, ตัวเลข, สถิติ, สิ่งที่กำหนดให้, หรือ สิ่งที่ทราบอยู่แล้ว ขอยกตัวอย่างที่เก็บดาต้าใกล้ตัวเรามากที่สุดอย่างแอปพลิเคชันในมือถือที่เราใช้ทุกวัน facebook, pantip, หรือ gmail เราสามารถตีความว่าแอปพลิเคชันอย่าง facebook เป็นแหล่งเก็บข้อมูลส่วนตัวของเราได้ทั้งสิ้น แบบผู้เขียนที่ชอบไปบ่นเรื่องรถแท็กซี่ไม่รับผู้โดยสารแถวบ้าน ซึ่งอาจจะเป็นแค่เรื่องให้คนแปลกหน้าอ่านในเฟสบุคส่วนตัว แปลว่าใครที่เฝ้าดูข้อมูลส่วนตัวจะรู้เลยว่าผมใช้บริการแท็กซี่บ่อยกว่าคนปกติ (เพราะบ่นบ่อยทุกๆเช้า) แล้วยังทราบอีกว่าบ้านหรือที่ทำงานผมอยู่ที่ใดบ้าง (บ่นว่าขึ้นหารถแถวสาทรไม่ได้เกือบทุกเช้า อย่างน้อยๆก็ตั้งคำถามได้แล้วว่าผมไปทำอะไรแถวสาทรเกือบทุกเช้า) ความสำคัญของข้อมูลนั้นคือหัวใจของ Data Scientist อาจจะพูดรวมไปถึงการทำ AI เกือบทุกตัวซึ่งถูกสร้างมาจากข้อมูลจำนวนมากทั้งนั้น กล่าวได้ว่าใช้เวลานับปีเก็บข้อมูลที่มีคุณภาพดีมาใช้สร้างโมเดลที่ใช้เวลาสร้างแค่ไม่กี่วัน สำหรับผมเองมีความเชื่อส่วนตัวว่า Data Scientist อันที่จริงแล้วคือใครสักคนหนึ่งที่สามารถนำข้อมูลมาใช้ให้เกิดประโยชน์สูงสุดได้ ยกตัวอย่าง Larry Page ผู้ร่วมก่อตั้ง Google ได้ใช้ประโยชน์ของข้อมูลในอินเตอร์เน็ตมา PageRank หรือวิธีการค้นหาว่า Google ควรจะโชว์เว็บไซต์ใดเป็นอันแรกและอันไหนเป็นอันที่สอง ดั้งนั้นแล้วยิ่งมีข้อมูลคุณภาพดีจำนวนมากย่อมก่อให้เกิดผลดีในอนาคตแน่ๆ

คำถามข้อสามต่อจากข้อสองคือการมี​ Data นี้มันสำคัญจริงๆแค่ไหน?

คำตอบคือ…………………………..อยากให้ทุกคนลองคิดและตอบด้วยตัวเอง

Inductive reasoning vs Deductive reasoning

หลักการเรียนรู้ของโมเดลต่างๆที่เรียกว่า Machine Learning ถูกนำมาใช้บนพื้นฐานของหลัง Inductive Reasoning คิดซึ่งอยู่ตรงข้ามกับแนวคิดของ Deductive Reasoning นั้นมาเข้าประเด็นอธิบายกันเลยว่าความคิดสองเจ้าส่งผลต่อการนำเข้ามูลไปใช้อย่างไรบ้าง แล้วทำไมข้อมูลจึงมีความสำคัญในการให้เหตุผลแบบ Inductive Reasoning มาเริ่มกันที่การแบ่งจุดสองจุดแบบง่ายๆ จุดแดงคือนักเรียนที่สอบตกในวิชาคณิศาสาตร์ในขณะที่จุดฟ้าคือนักเรียนที่สอบผ่าน

คุณผู้อ่านสามารถแยกระหว่างจุดแดงกับจุดฟ้าได้หรือเปล่า? ขอตอบแทนทุกคนเลยโดยการมองผ่านภาพมีจุดๆเยอะ นักเรียนสองกลุ่มนี้สามารถถูกแยกได้โดยผ่านเส้นสีดำ คิดง่ายๆคือถ้านำคะแนนสอบเด็กมาบวกลบกันแล้วตัวคะแนนของเด็กคนไหนข้ามเส้นดำก็คือว่าสอบผ่าน ในความเป็นจริงอาจจะมีทายผิดๆถูกๆบ้างดูอย่างว่ามีบางจุดข้ามกันไปข้ามกันมา แต่โดยรวมแล้วเส้นสีดำนั้นทำนายถูกมากกว่าผิด เราอาจจะสร้างเส้นดำได้จากทำโมเดล Machine Learning หรือแค่ให้ดูภาพก็ได้แล้ว ทั้งหมดที่เล่ามาคือหลักการง่ายๆของเจ้า Inductive Reasoning ซึ่งดูข้อมูลเป็นหลักแล้วพยายามสร้างเส้นสีดำขึ้นมาหรือกล่าวว่าเราจะมองดูจุดต่างและพยายามเรียนรู้จากมัน ซึ่งตรงข้ามกับ Deductive Reasoning ซึ่งพยายามจะสร้างเส้นสีดำขึ้นมาจากวิธีการคิดแบบวิเคราะห์หาเหตุผลมาสนับสนุนและนำจุดต่างๆ (เหตุการณ์ที่เกิดขึ้นจริง)มาเป็นตัวทดสอบโมเดลหรือความเชื่อนั้นๆ เช่น อาจารย์เชื่อว่าเด็กคนไหนจะสอบตกไม่ตกวัดกันที่การบ้านที่ส่ง ใครส่งมากแปลว่ามีโอกาสสอบผ่านมากขึ้น ส่วนคนสอบตกมักจะไม่ทำการบ้านหรือลอกการบ้านเพื่อนอย่างเดียว อีกปัจจัยหนึ่งคือว่าการบ้านและข้อสอบนั้นมีความคล้ายคลึงกันมากจึงสามารถสอบผ่านได้โดยทำแค่การบ้าน มาถึงตรงนี้หวังว่าผู้อ่านจะเข้าใจแล้วว่าข้อได้เปรียบของ Inductive Reasoning คือข้อมูล เพราะหากใครสามารถเก็บข้อมูลได้เยอะๆก็แปลว่าสามารถทำนายอนาคตของนักเรียนได้หมดแล้ว แต่ปัญหาคือไม่ใช่ทุกปัญหาที่มีข้อมูลจำนวนมากและหลายปัญหาต่อให้มีข้อมูลมากแต่ไม่สะอาดสักส่วนใหญ่ เช่นการจับการโกงบัตรเครดิตของแบงค์ แบงค์ไม่สามารถเก็บข้อมูลได้เยอะเนื่องจากมีมิจฉาชีพแค่หลักสิบคน ซึ่งแบบว่าแทบเป็นไปไม่ได้เลยที่จะหาจุดตัดระหว่างจุดสีแดงจุดดำเนื่องจากจุดสีแดงอาจจะมีจำนวนน้อยเกินไป ถึงจุดนี้ Deductive Reasoning จึงเข้ามาช่วย Data Science หรือในบางครั้งระบบก็เก็บข้อมูลผิด เช่น เก็บวันในการใช้บัตรเครดิตผิดวัน ทำให้บางวันมีคนใช้จ่ายสูงถึงหลายล้านบ้าน การแก้ปัญหาแบบนี้จึงไม่สามารถอาศัยข้อมูลได้แต่จะเริ่มจากการตั้งข้อสมมติฐานในการทำงานของมิจฉาชีพ เช่น คนอะไรจะใช้บัตรเครดิตวันละ 30 ครั้งระยะเวลาแค่ 2 ชม. ลูกค้าหรือเครื่องรูดบัตรมีปัญหาหรือไม่ การตั้งนั้นสมมติฐานสามารถนำไปพิสูจน์ได้โดยดูจากข้อเท็จจริง เช่น หลังจากแบงค์ได้ระงับการใช้บัตรเครดิตของคนที่ใช้เกิน 30 ครั้งใน 2 ชม. ลดจำนวนมิจฉาชีพบัตรเครดิตได้ถึงครึ่งหนึ่งนี้

ท้ายสุดอยากฝากผู้อ่านว่าอย่าหลงประเด็นอาชีพ Data Science ว่าเป็นสายอาชีพใหม่เพราะเมื่อเทียบกันในตัวงานทั่วๆไปแล้ว ถือว่าไม่มีความแตกต่างกันมาก หากสังเกตแบบลึกๆว่าการทำงานทุกอย่างนั้นเราไม่สามารถคิดหาวิธีการตอบคำถามได้ทั้งหมด บางครั้งเราต้องอาศัยข้อมูลที่มีอยู่แล้วบ้างหรือข้อมูลในอดีต (historical data) ในการตัดสินใจสิ่งต่างๆอาจเป็นเพราะว่าเราไม่ได้มีหลักการในวิธีคิดที่ดีพอ หรือไม่ก็ขาดความเข้าใจในงาน ลองคิดตามว่าทำไมบางครั้งผู้บริหารระดับสูงในบริษัทใหญ่ๆจึงต้องไปสัมภาษณ์บุคลากรในพื้นที่ เผื่อเก็บข้อมูลมาวิเคราะห์ต่อยอดในภายหลัง และในบางครั้ง Data Scientist เองก็ไม่สามารถแก้ปัญหาทุกอย่างได้ นานมาแล้วบริษัท Paypal เคยประสบปัญหาเจอกลุ่มแฮ็กเกอร์มาโกงการโอนเงิน (ลายละเอียดลองหาอ่านในหนังสือชื่อ Zero to One) ตอนนั้น Paypal ได้จ้างเด็กปริญญาเอกด้านคณิตศาสตร์มาสร้างโมเดลสู้กับกลุ่มแฮ็กเกอร์ ส่วนหนึ่งอาจเป็นเพราะว่าปัญหาจำนวนข้อมูลที่มีไม่เพียงพอ สุดท้ายกลายเป็นว่ายิ่งทำยิ่งแย่ สู้กลุ่มแฮ็กเกอร์มืออาชีพไม่ได้ ผู้บริหารจึงตัดสินใจแก้ปัญหาเฉพาะหน้า โดยให้ทำสรุปว่าลูกค้าคนใครไหนมีแนวโน้มจะเป็นมิจฉาชีพมากทีสุด และส่งไปให้นักวิเคราะห์ในบริษัทตัดสินใจอีกครั้งหรือผ่านกระบวนการคิดแบบ Deductive Reasoning เพียงแค่นี้ปัญหาการโกงในระบบก็หายไปหมดแถมยังเกิดบริษัทใหม่ขึ้นอีกชื่อ Palantir ที่ใช้ระบบคิดแบบผสมผสานของการใช้คนคิดวิเคราะห์ตั้งข้อสมมติฐานและอาศัยความสามารถหุ่นยนต์หรือคอมพิวเตอร์มาใช้ทำงานร่วมกัน ผมหวังว่าถึงจุดนี้แล้วอยากเห็นผู้อ่านลองศึกษาเพิ่มเติมเองว่าหลักของ Deductive Reasoning และ Inductive Reasoning จะช่วยท่านอะไรได้บ้าง ผมเองใช้สองหลักนี้ในการทำงานทุกวัน ในการทำงานบางครั้งข้อมูลมีเยอะก็จัดโมเดลโหดๆไปเลย เดี๋ยวค่อยมาแก้ไขอีกทีหากโมเดลพลาด แต่ถ้าข้อมูลน้อยๆก็หันมาสร้างโมเดลผ่านการคิดวิเคราะห์ตั้งสมมติฐานแล้วนำข้อมูลจริงมาพิสูจน์โมเดล

Have a question?

Drop us a line and we will get back to you