พจนานุกรม Merriam-Webster ฟ้อง OpenAI ละเมิดลิขสิทธิ์: ศึกใหญ่ AI กับสื่อพิมพ์รอบใหม่
Merriam-Webster ผู้จัดทำพจนานุกรมที่เก่าแก่ที่สุดของอเมริกา ฟ้องร้อง OpenAI ต่อศาลในข้อหาละเมิดลิขสิทธิ์ หลังพบว่า ChatGPT ใช้ข้อมูลคำนิยามจากพจนานุกรมของพวกเขาโดยไม่ได้รับอนุญาต เป็นคดีล่าสุดในสายงานคดีความ AI ที่ทวีความรุนแรงขึ้น
การฟ้องร้องที่เกิดขึ้น
Merriam-Webster อ้างว่า OpenAI ใช้เนื้อหาจากพจนานุกรม Merriam-Webster Unabridged ซึ่งเป็นบริการสมาชิกแบบจ่ายเงิน เป็นข้อมูลฝึก (training data) ของ GPT-4 และโมเดลอื่น ๆ โดยไม่มีสัญญาอนุญาตใด ๆ ทำให้ ChatGPT สามารถให้คำนิยามที่เหมือนกับต้นฉบับได้อย่างแม่นยำ
ทำไมคดีนี้แตกต่างจากคดีอื่น
สิ่งที่ทำให้คดีนี้น่าสนใจคือพจนานุกรมไม่ใช่สื่อข่าวหรือหนังสือทั่วไป แต่เป็น ข้อมูลอ้างอิง (reference data) ที่มีโครงสร้างเป็นระบบ หากศาลตัดสินว่าการใช้ข้อมูลประเภทนี้โดยไม่ได้รับอนุญาตเป็นละเมิดลิขสิทธิ์ จะมีผลกระทบต่อการฝึกโมเดล AI หลายประเภท รวมถึงโมเดลที่ใช้ข้อมูลวิทยาศาสตร์ แพทย์ และกฎหมาย
พจนานุกรมไม่ใช่แค่คำในหนังสือ มันคืองานวิจัยที่สะสมมากว่า 200 ปี
— Merriam-Webster ในเอกสารฟ้องศาล
OpenAI ยังไม่ได้ออกมาแสดงความเห็นเกี่ยวกับคดีนี้ แต่แหล่งข่าวระบุว่าบริษัทกำลังเตรียมยื่นคำร้องขอให้ยกฟ้อง โดยอ้างถึงหลักการ Fair Use เช่นเดียวกับที่ใช้ป้องกันคดีอื่น ๆ ที่ผ่านมา
คดีนี้เข้ามาเพิ่มในแนวร่วมคดีความลิขสิทธิ์ AI ที่มีต่อเนื่อง รวมถึงคดีของ The New York Times, Getty Images และสำนักพิมพ์หลายแห่ง อุตสาหกรรม AI กำลังเผชิญกับช่วงเวลาสำคัญที่ศาลจะต้องกำหนดขอบเขตระหว่างการเรียนรู้ของ AI กับการละเมิดลิขสิทธิ์อย่างชัดเจน