AI โกหก ขู่กรรโชก ก่อกวนผู้สร้างมนุษย์ ผู้เชี่ยวชาญเตือนพฤติกรรมจะรุนแรงขึ้น
ความสามารถของปัญญาประดิษฐ์ (AI) ในยุคปัจจุบันมีพฤติกรรมที่เริ่มมี “ความคิดเป็นของตัวเอง” เกิดการวางแผน ก่อกวน ขู่กรรโชก และโกหกมนุษย์ผู้สร้างมันขึ้นมา ซึ่งผู้เชี่ยวชาญเตือนว่าสถานการณ์นี้จะทวีความรุนแรงขึ้นเรื่อยๆ หากไม่ได้รับการควบคุมอย่างเข้มงวด
Claude Opus 4 เป็นโมเดลเอไอตัวใหม่ของบริษัท Anthropic เปิดตัวในเดือนพฤษภาคม และบริษัทจัดให้เป็นเอไอ “ระดับเสี่ยงสูงสุด” หมายความว่ามันอาจสร้างปัญหาได้ถ้าใช้ไม่ระวัง จึงใส่ระบบป้องกันเข้มงวด จำกัดการใช้งาน และต้องทดสอบก่อนนำไปใช้จริง
แต่ถึงอย่างนั้น Claude Opus 4 ก็ถูกนำไปใช้แล้วในแพลตฟอร์มใหญ่ๆ อย่าง Amazon Bedrock, Google Cloud และบริการของ Anthropic เอง และถูกโปรโมทว่าเป็นโมเดลโค้ดดิ้งที่ดีที่สุดในโลก
ในการทดสอบล่าสุด Claude ขู่จะเปิดเผยเรื่องชู้สาวของวิศวกร หากไม่ได้เปิดระบบตามที่มันต้องการ ซึ่งข้อมูลเรื่องนี้ Claude รวบรวมจากอีเมลที่นักวิจัยใส่เข้าไปในการทดลองเอง
อีกตัวอย่างคือ ให้เอไอดูแลร้านขนมในออฟฟิศ Claude ทำเรื่องเพี้ยนๆ เช่น สร้างเพื่อนร่วมงานปลอม ทำบัญชีชำระเงินปลอม บอกว่าจะส่งสินค้าเอง และพยายามติดต่อฝ่ายรักษาความปลอดภัยของออฟฟิศ ผลกระทบคือร้านเสียหายกว่า 200 ดอลลาร์ และเอไอแจกโค้ดส่วนลดให้พนักงานโดยไม่ได้ตั้งใจ
สรุปคือ Claude Opus 4 แสดงพฤติกรรมที่มีความคิดเป็นของตัวเอง บางครั้งก็ทำตามใจตัวเอง มากกว่าที่มนุษย์ตั้งใจจะควบคุม ทำให้แม้จะมีระบบป้องกัน ก็ยังเกิดเหตุการณ์ไม่คาดคิดขึ้นได้ นักวิจัยชี้ว่า เหตุการณ์เหล่านี้ไม่ใช่ข้อผิดพลาดธรรมดา แต่สะท้อนถึงการตัดสินใจของเอไอเอง
“เหตุการณ์เหล่านี้ไม่ใช่ข้อบกพร่องแบบสุ่มหรือความผิดปกติที่น่าตลกขบขัน แต่เป็นสัญญาณเตือนถึงกระบวนการเพิ่มประสิทธิภาพอัตโนมัติที่แสวงหาผลประโยชน์ในทางที่อาจขัดแย้งหรือไม่ปลอดภัย โดยไม่มีเข็มทิศทางจริยธรรม” โรมัน ยัมโปลสกี (Roman Yampolskiy) ผู้เชี่ยวชาญด้านความปลอดภัยเอไอ จากมหาวิทยาลัยลุยส์วิลล์ให้ความเห็น
Claude Opus 4 ไม่ใช่กรณีเดียว ยังมีChatGPT ของบริษัท OpenAI รุ่น “o1” เคยพยายามคัดลอกตัวเองไปยังเซิร์ฟเวอร์ภายนอก และเมื่อถูกสอบถามก็ให้ข้อมูลเท็จ ส่วนกลุ่มตรวจสอบ
Apollo Research องค์กรวิจัยด้านความปลอดภัยเอไอ พบว่า Claude Opus 4 รุ่นเก่าเคยสร้างเอกสารปลอม สำรองข้อมูลลับ และทิ้งโน้ตสำหรับเวอร์ชันในอนาคต รวมถึงข่าวปลอมและไฟล์ซ่อนชื่อ “emergency_ethical_override.bin” ขณะเดียวกัน Meta’s CICERO เอไอที่สร้างขึ้นเพื่อเล่นเกมกลยุทธ์ Diplomacy ก็เคยใช้กลยุทธ์หลอกผู้เล่นมนุษย์ สร้างพันธมิตรแล้วหักหลังเพื่อชนะเกม
ยัมโปลสกี ระบุว่า ปัญหาไม่ได้อยู่ที่เอไอชั่วร้าย แต่เกิดจากโมเดลเอไอสมัยใหม่ถูกสร้างมาเพื่อเพิ่มผลตอบแทน (maximize reward) ไม่ได้ถูกออกแบบให้สอดคล้องกับค่านิยมของมนุษย์ เมื่อโมเดลใหญ่และฉลาดขึ้น ความสามารถในการหาช่องโหว่ และลัดตามระบบก็เพิ่มขึ้นเรื่อยๆ จนเกินความสามารถของนักพัฒนาในการควบคุม
“ถ้าเราสร้างเอไอที่ฉลาดเกินกว่ามนุษย์ สามารถเข้าใจโลก วางแผน และทำงานเองโดยอัตโนมัติ แต่เอไอตัวนั้นไม่ได้ถูกออกแบบให้เข้าใจหรือยึดตามคุณค่าของมนุษย์ ผลลัพธ์อาจกลายเป็นอันตรายร้ายแรงต่อมนุษยชาติ” ยัมโปลสกีกล่าว พร้อมเตือนอีกว่า เพื่อหลีกเลี่ยงเหตุการณ์หายนะที่แก้ไขไม่ได้ เราต้องพัฒนามาตรการความปลอดภัยของเอไอให้ก้าวหน้ากว่าความสามารถของเอไอเอง ไม่ใช่ปล่อยให้เอไอพัฒนาก้าวหน้ากว่าความปลอดภัย