จำนวนมากเพื่อให้ทำงานออกมาได้ดี ดังนั้นจึงมีการเทรน AI มากขึ้นเรื่อย ๆ ด้วยชุดข้อมูลตัวอย่างนับล้าน ถึงแม้ว่าข้อมูลเหล่านี้จะมีประโยชน์อย่างมากในการสร้างโมเดลที่ยอดเยี่ยมที่ประกอบไปด้วยฟีเจอร์มากมาย แต่ก็อาจเป็นอันตรายได้เช่นกัน
br
ถ้าอยากรู้เท่าทันความเก่งของ AI ลองมาสำรวจกันดีกว่าว่าข้อมูลจำนวนมหาศาลที่ถูกแปรไปเป็นระบบเลขฐาน 2 ที่มี 0 และ 1 ที่ทำให้ AI เข้าใจภาษามนุษย์อาจก่อให้เกิดอันตราย หรือประโยชน์อะไรบ้าง
br
ประโยชน์ของชุดข้อมูลขนาดใหญ่
เป็นที่รู้กันดีว่าชุดข้อมูลขนาดใหญ่เป็นสิ่งจำเป็นสำหรับการพัฒนา AI เมื่อมีการสร้างชุดข้อมูลใหม่ขึ้น งานต่าง ๆ ที่เคยเป็นไปไม่ได้ก็กลายเป็นไปได้ ตัวอย่างเช่น หากไม่มีชุดข้อมูลขนาดใหญ่ที่มีคำศัพท์นับล้าน ก็คงไม่มีโมเดลภาษาที่สามารถเขียนเรียงความได้ นอกจากนี้ การมีชุดข้อมูลจำนวนมากยังหมายความว่านักวิจัยมีทรัพยากรมากขึ้นในการทำงาน เพราะพวกเขาสามารถนำชุดข้อมูลใหม่นี้มาใช้ร่วมกับข้อมูลที่มีอยู่เดิมเพื่อทำงานที่มีความซับซ้อนแบบที่ไม่เคยเจอมาก่อนได้
br
อย่างที่หลายคนทราบดีว่า ความสำเร็จของ AI โมเดลขึ้นอยู่กับข้อมูลการเทรน ซึ่งประกอบด้วยตัวอย่างที่เราป้อนให้กับคอมพิวเตอร์ หากนักพัฒนาต้องการให้ AI ของพวกเขาสามารถตอบสนองต่อสถานการณ์ในโลกแห่งความจริงส่วนใหญ่ได้ ชุดข้อมูลขนาดใหญ่ก็ถือเป็นสิ่งจำเป็น มิฉะนั้น AI จะเกิดภาวะ Overfitting ขึ้นได้ ซึ่งหมายความว่า AI โมเดลนั้นจะไม่สามารถทำงานกับข้อมูลอื่นนอกเหนือจากข้อมูลที่ถูกเทรนมาได้ ด้วยเหตุนี้ ชุดข้อมูลใหม่ที่มีฟีเจอร์ใหม่ ๆ จึงมักถูกเผยแพร่อยู่บ่อยครั้ง
br
อคติในข้อมูลขนาดใหญ่
อีกปัญหาที่มากับข้อมูลขนาดใหญ่ คือ เรื่องของ “อคติ” แต่ปัญหาครั้งนี้ไม่ได้ส่งผลต่อผู้สร้างหรือผู้พัฒนา แต่ส่งผลต่อผู้ใช้งานโดยตรง ซึ่งอาจรวมถึงคุณด้วย เมื่อข้อมูลมีความลำเอียง มันอาจส่งผลกระทบต่อกลุ่มคนบางกลุ่มในแง่ลบได้ แม้ AI โมเดลที่ได้รับการฝึกจากชุดข้อมูลตัวอย่างอาจมีความแม่นยำ 100% แต่ก็ยังมีโอกาสส่งผลเสียต่อกลุ่มคนส่วนน้อยได้เช่นกัน ลองมาดูตัวอย่างต่อไปนี้ที่จะช่วยให้คุณเข้าใจมากขึ้น
br
เครื่องตรวจจับใบหน้าบางเครื่อง (Face Recognition) มีความแม่นยำในการจดจำใบหน้าของคนผิวสีต่ำกว่าที่ควรจะเป็น ซึ่งนี่ถือเป็นอคติอย่างหนึ่ง เพราะส่งผลให้ผู้ที่มีผิวสีเสียเปรียบ เนื่องจากพวกเขาอาจไม่สามารถเข้าถึงบริการบางอย่างที่ใช้เทคโนโลยีจดจำใบหน้าได้
br
นอกจากนี้ อัลกอริทึมบางตัวที่ถูกนำมาใช้ในการคาดการณ์อนาคตของใครบางคน อาจตัดสินใจผิดพลาดกับคนที่มีผิวสีเข้ม ตัวอย่างเช่น AI โมเดลที่ทำหน้าที่คาดการณ์คุณภาพหนี้จากข้อมูลของผู้กู้ อาจประเมินว่าคุณภาพหนี้สินของคนเอเชียแย่กว่าคนผิวขาว ทั้ง ๆ ที่เงื่อนไขอื่น ๆ เหมือนกัน
br
หากอคติเหล่านี้ไม่ได้รับการแก้ไข เราจะยิ่งขยายช่องว่างการเลือกปฏิบัติที่มีอยู่เดิมในสังคมให้กว้างออกไปอีก ยิ่งไปกว่านั้น มันอาจโหดร้ายและโต้แย้งได้ยากขึ้นกว่าเดิม เนื่องจาก AI โมเดลต่างถูกมองว่าเป็นกลางและถูกต้องโดยคนทั่วไปที่อยู่นอกวงการ การตัดสินใจที่เกิดจากโมเดลเหล่านี้จึงไม่ถูกตั้งคำถาม ส่งผลให้คนที่ได้รับการปฏิบัติอย่างไม่เท่าเทียมกัน สูญเสียสิทธิ์ในการเรียกร้องความยุติธรรมไปโดยปริยาย
br
การรั่วไหลของข้อมูล
อีกปัญหาของชุดข้อมูลขนาดใหญ่คือ อาจมีข้อมูลส่วนตัวที่ละเอียดอ่อนปนอยู่ด้วย ซึ่งอาจเป็นการรั่วไหลโดยตั้งใจหรือไม่ตั้งใจก็ได้ แต่ไม่ว่าเป็นกรณีใดก็ไม่ควรเกิดขึ้น เพราะเมื่อข้อมูลส่วนบุคคลรั่วไหลออกไป ก็อาจนำไปสู่การถูกขโมยเงิน หรือหากเลวร้ายยิ่งกว่านั้นคือ อาจถูกขโมยข้อมูลอัตลักษณ์ส่วนบุคคลไปใช้ในวัตถุประสงค์อื่น ๆ โดยที่เจ้าของข้อมูลนั้นไม่ทราบเรื่อง เช่น สวมรอยกู้เงิน หรือรับสวัสดิการจากรัฐบาล
br
นอกเหนือจากอคติ 2 ประเภทนี้ ยังมีอคติอีกมากมายที่อาจเกิดขึ้นจาก AI โมเดล หรือ Machine Learning แม้ว่าผู้คนจำนวนมากจะเห็นด้วยว่าการใช้ข้อมูลสำหรับการเทรนโมเดลจะช่วยสร้างการเปลี่ยนแปลงในเชิงบวกมากมายในโลกได้ แต่เราต้องตระหนักไว้เช่นกันว่าข้อมูลยังสามารถก่อให้เกิดอันตรายได้หากสร้างและใช้อย่างไม่เหมาะสม
br
สุดท้ายนี้ ขอให้จำไว้ว่า AI เป็นเทคโนโลยีที่ทรงพลังอย่างเหลือเชื่อที่สามารถนำไปใช้สร้างประโยชน์ และแก้ไขปัญหาที่เรื้อรังมานานได้ อย่างไรก็ตาม ก็ยังคงมีข้อบกพร่องบางประการที่เราควรคำนึงถึง เพื่อให้เราสามารถปกป้องสิทธิ์ของตัวเองและผู้ใช้คนอื่น ๆ ได้