Lebih 9000 pengarang mengatakan firma AI mengeksploitasi buku sebagai makanan
Lebih 9000 pengarang mengatakan firma AI mengeksploitasi buku sebagai makanan

Lebih 9,000 pengarang mengatakan firma AI mengeksploitasi buku sebagai ‘makanan’ untuk chatbots

LONDON: Lebih 9,000 pengarang menyeru syarikat teknologi di sebalik AI generatif dalam surat terbuka yang menyatakan terdapat ketidakadilan yang wujud dalam mengeksploitasi karya yang dilindungi hak cipta untuk melatih chatbots tanpa persetujuan, kredit atau pampasan.

Jika pengguna menggesa GPT-4 untuk meringkaskan karya oleh Roxane Gay atau Margaret Atwood, ia boleh melakukannya secara terperinci, bab demi bab. Jika pengguna mahu ChatGPT menulis cerita dalam gaya pengarang yang terkenal seperti Maya Angelou, mereka boleh memintanya untuk “menulis esei peribadi dalam gaya Maya Angelou, meneroka tema penemuan diri dan pertumbuhan peribadi.” Dan voilà.

AI generatif dikuasakan oleh dua program perisian yang dikenali sebagai model bahasa besar, yang mengabaikan kaedah pengaturcaraan tradisional dan sebaliknya mengekstrak sejumlah besar teks untuk menghasilkan respons semula jadi dan seperti hidup kepada gesaan pengguna.

Dalam surat terbuka hari Selasa, Persatuan Pengarang AS menulis bahawa “teknologi AI Generatif yang dibina pada model bahasa besar berhutang kewujudannya kepada tulisan kami. Teknologi ini meniru dan memuntahkan bahasa, cerita, gaya dan idea kami. Berjuta-juta buku, artikel, esei dan puisi berhak cipta menyediakan ‘makanan’ untuk sistem AI, makanan yang tidak berkesudahan”.

Surat itu selanjutnya menyatakan bahawa syarikat teknologi termasuk OpenAI, Alphabet, Meta, Stability AI, IBM dan Microsoft telah membelanjakan berbilion-bilion untuk membangunkan teknologi AI dan memberi pampasan kepada pengarang untuk menggunakan karya mereka adalah langkah yang adil, kerana tanpa buku-buku tersebut, “AI akan menjadi cetek dan sangat terhad”.

Penulis novel dan penulis esei Jonathan Franzen memuji usaha itu, dengan menyatakan, “Persatuan Pengarang sedang mengambil langkah penting untuk memajukan hak semua rakyat Amerika yang data dan kata-kata dan imejnya dieksploitasi, untuk keuntungan yang besar, tanpa persetujuan mereka – dalam erti kata lain, hampir semua rakyat Amerika yang berumur enam tahun ke atas”.

Dan Brown, James Patterson, Margaret Atwood, Roxane Gay, Celeste Ng, Viet Thanh Nguyen, George Saunders dan Rebecca Makkai adalah antara beribu-ribu pengarang yang mengambil tindakan pemimpin industri AI, meminta agar kebimbangan mereka ditangani dan tindakan khusus diambil:

“Kami faham bahawa banyak buku yang digunakan untuk membangunkan sistem AI berasal dari laman web cetak rompak yang terkenal,” surat itu menyambung. “Bukan sahaja keputusan Mahkamah Agung baru-baru ini dalam Warhol lwn. Goldsmith menjelaskan bahawa komersialiti tinggi penggunaan anda berhujah terhadap penggunaan adil, tetapi tiada mahkamah akan memberi alasan untuk menyalin karya yang bersumber secara haram sebagai penggunaan adil”.

Persatuan Pengarang mengatakan AI generatif mengancam profesion penulis dengan “membanjiri pasaran dengan buku, cerita dan kewartawanan yang biasa-biasa saja, ditulis mesin, dan kewartawanan berdasarkan kerja kami.” Dan untuk sekurang-kurangnya sedekad yang lalu, pengarang telah mengalami penurunan pendapatan sebanyak 40%, dengan ramai penulis sepenuh masa pada tahun 2022 hampir tidak melepasi paras kemiskinan persekutuan.

Surat itu datang hanya beberapa minggu selepas novelis laris Mona Awad dan Paul Tremblay memfailkan saman terhadap OpenAI di mahkamah persekutuan San Francisco, mendakwa bahawa ChatGPfT dilatih sebahagiannya dengan “menelan” novel mereka tanpa persetujuan mereka.

Apabila digesa, ChatGPT mengeluarkan ringkasan yang sangat terperinci tentang “The Cabin at the End of the World” Tremblay dan “Bunny” dan “13 Ways of Looking at a Fat Girl” karya Awad. Kedua-dua pengarang mendakwa ini adalah bukti bahawa novel mereka digunakan untuk melatih chatbot, dan pemfailan itu termasuk respons ChatGPT terhadap gesaan mengenai novel mereka.

Pada Jun 2018, OpenAI mendedahkan bahawa ia melatih GPT-1 menggunakan BookCorpus, yang saman itu digambarkan sebagai “set data kontroversial” yang dikumpulkan oleh penyelidik kecerdasan buatan pada 2015, dengan koleksi “lebih 7,000 buku unik yang tidak diterbitkan daripada pelbagai genre termasuk Pengembaraan, Fantasi dan Romantik.

“Mereka menyalin buku dari laman web BK Smashwords.com yang menganjurkan novel yang tidak diterbitkan yang tersedia untuk pembaca tanpa sebarang kos. Novel tersebut, bagaimanapun, sebahagian besarnya di bawah hak cipta”.

Menurut aduan itu, lelaran kemudiannya bagi model bahasa besar syarikat telah dilatih menggunakan kuantiti buku yang dilindungi hak cipta yang jauh lebih besar. Dalam kertas Julai 2020 yang memperkenalkan GPT-3, syarikat itu mendedahkan bahawa 15% daripada set data latihan datang daripada “dua korpora buku berasaskan internet” yang OpenAI hanya dipanggil “Books1” dan “Books2.”

Saman itu menganggarkan bahawa, berdasarkan nombor yang didedahkan dalam kertas OpenAI tentang GPT-3, Books1 akan mengandungi kira-kira 63,000 tajuk, dan Books2 akan merangkumi kira-kira 294,000 tajuk.

Pakar telah meramalkan lebih banyak saman pasti akan diikuti apabila AI menjadi lebih mahir menggunakan maklumat daripada web untuk menjana kandungan baharu. – PA Media/dpa

Sila Baca Juga

Coordinated efforts shared learning among OIC states essential for digital

Coordinated efforts, shared learning among OIC states essential for digital transformation, says Fahmi

ISTANBUL: Malaysia believes that coordinated efforts and shared learning among Organisation of Islamic Cooperation (OIC) …