เมื่อวันอาทิตย์ที่ 10 มีนาคม 2562 ที่ผ่านมาทาง standard ได้จัดการ debate ระหว่างพรรคการเมือง (THE STANDARD DEBATE มิติใหม่ของการดีเบต โค้งสุดท้ายที่รวมตัวนักการเมืองดังไว้มากที่สุด) ที่ตบเท้าเข้ามาแข่งขันกันเป็นผู้สมัครขอเป็นตัวแทนรับใช้ประชาชน โดยการเลือกตั้งจะมีขึ้นในวันที่อาทิตย์ที่ 24 มีนาคม 2562 นี้ และแน่นอนว่าการเลือกตั้งครั้งนี้ถูกจับตามองเป็นอย่างมากเพราะประเทศไทยไม่ได้มีการเลือกตั้งมาสักพักใหญ่ บ้านเมืองของเราบริหารงานโดย คสช. มาเกือบ 5 ปี อนาคตของพวกเราชาวไทยกำลังจะถูกกำหนดเองโดยประชาชนอีกครั้ง ไม่มีใครรู้ว่าผลจะออกมาเป็นอย่างไร
แต่วันนี้พวกเรา data wow บริษัทที่มีความเชี่ยวชาญการจัดการข้อมูลในรูปแบบต่างๆ จะขอสรุปความคิดเห็นส่วนใหญ่ของคนไทยว่ามีความคิดเห็นอะไรบ้างต่อการดีเบตครั้งนี้ โดยใช้ทักษะการประมวลผลภาษาธรรมชาติ (Natural Langauge Processing) อย่างง่ายไว้อ่าน comments ต่างๆ ใต้คลิปดีเบต ของ the standard แล้วประมวลผลออกมาว่าส่วนใหญ่แล้วคน comments เรื่องอะไรกัน โดยไม่ต้องเสียเวลานั่งอ่าน comments ลองดูแล้วคุณจะตกใจว่ามันแม่นอย่างเหลือเชื่อ!
ก่อนอื่น ขอเกริ่นนำคร่าวๆว่าการ debate นี้ตัวแทนพรรคการเมือง (ส่วนมากเป็นหัวหน้าพรรค) จะถูกเรียกขึ้นมาบนเวทีแล้วเลือกหัวข้อ debate เช่น เรื่องเทคโนโลยี , ความมั่นคง และ เศรษฐกิจ เป็นต้น จากนั้นจะจับฉลากเลือกพรรคอื่นขึ้นมา debate ด้วย โดยมีเวลาคนละประมาณ 3 นาทีต่อครั้งในการพูดเกี่ยวกับหัวข้อที่เลือกขึ้นมา
การเก็บข้อมูล เราได้เอา comments ทั้งหมด 2,000 กว่า comments (comments and replied comments) มาใช้ในการวิเคราะห์ โดยไม่ได้สนใจปัจจัยอื่นเช่น ใครมาโพสต์หรือ จำนวน like ของ comments แต่อย่างใด เพราะฉะนั้น data ที่เรามีจะมาในรูป plain text เท่านั้น
มาถึงการวิเคราะห์ เรามองว่าการเมืองเป็นเรื่องส่วนบุคคลและซับซ้อนเกินกว่าจะข้อมูลเล็กน้อยแค่นี้จะตอบได้ ดังนั้นจุดประสงค์หรือผลลัพธ์ที่เราหวังจะออกมาในรูปของ descriptive statistic เช่น ชื่อพรรคไหนถูกกล่าวถึงบ่อย หรือ ชื่อของพรรคใดถูกพูดถึงร่วมกันเสมอ เป็นต้น และ
"n-grams" คือวิธีการที่เราเลือกนำมาใช้ เพราะเราเชื่อว่าน่าจะสามารถตอบโจทย์ที่เราตั้งไว้ได้ดี เพราะ n-grams จะจัดกลุ่มคำ กลุ่มละ n คำ โดย n คำนี้จะปรากฏร่วมกันใน comment เดียวกัน จากนั้นเราจะนับดูว่ากลุ่มคำเหล่านั้น กลุ่มไหนปรากฏออกมาเยอะที่สุดจาก 2,000 กว่า comments ที่เราเก็บมา เนื่องจากเรามีสมมติฐานว่าชื่อพรรคหรือบุคคลน่าจะประกอบด้วยคำประมาณ 3 คำ เราจึงเลือก tri-grams (3-GRAMS-WORD) มาใช้ และนี่คือผลลัพธ์ที่เรียงจากความถี่ ที่มากที่สุด 50 กลุ่มคำแรก เสนอในรูปแบบ word cloud
โดย 50 กลุ่มคำด้านบนนี้เป็นคำที่มีคนพูดถึงเยอะมากถึง 8% ของจำนวน 3-grams-words ทั้งหมด (รวบรวมมาได้กว่า 3000 กลุ่มคำ) ดูเหมือนว่าคนจะพูดเรื่อง "นักการเมือง" เยอะที่สุด (ก็แน่นอนเนอะ เพราะเป็น debate ของนักการเมืองนี่นา ฮ่าๆ)
ลองมาดูต่อกันว่า ถ้าเราปรับ parameter เพิ่มให้เป็นจัดในรูปแบบของกลุ่ม 6 คำแทน (6-grams) จะได้ผลลัพธ์หน้าตาแบบไหน ไปดูกัน (จริงๆเราหวังจะเห็นการพูดถึง 2 พรรคร่วมกันตามที่ตั้งใจไว้ตอนแรก)
เนื่องจาก 6-grams-words มีจำนวนน้อยกว่า 3-grams-words มากเราจึงขอแสดงเฉพาะ 6-grams-words ที่เกิดขึ้นมากกว่า 2 ครั้งเท่านั้น ซึ่งคิดเป็น 6.58% ของความถี่รวมของ 6-grams-words ทั้งหมดประมาณ 300 กลุ่มคำ
จะเห็นได้ว่า เมื่อจัดให้อยู่ในรูปของกลุ่ม 6 คำ หรือเป็นประโยคแล้ว คนจะพูดชมรายการเยอะมากที่สุดว่า เป็นรายการที่ดีที่สุด ดีเบตที่ดีที่สุดเท่าที่เคยดูมา เป็นต้น และในที่สุดเราก็ได้เห็นสิ่งที่หวังไว้จนได้ คือ สองพรรคการเมือง (หรือมากกว่า) ถูกกล่าวถึงร่วมกัน :)
สุดท้ายนี้ข้อมูลและผลการวิเคราะห์ของเราเป็นไปตามกลไกทางสถิติเท่านั้น ไม่ได้มีขั้วทางการเมืองแอบแฝงแต่อย่างใด เราเพียงต้องแสดงการจัดการข้อมูลแบบเบื้องต้นเท่านั้น ยังไงก็ขอขอบคุณที่สละเวลามาอ่านจนจบนะครับ
ปล.สำหรับใครที่สนใจวิธีการวิเคราะห์อย่างง่ายนี้เชิญติดตามต่อทาง ipynb นะครับ
Drop us a line and we will get back to you