Di hadapan sebuah rumah pinggir bandar di pinggir bandar Hamburg utara Jerman, satu perkataan – “LAION” – dicoretkan dengan pensil di atas peti mel. Ini adalah satu-satunya petunjuk bahawa rumah itu adalah milik orang di sebalik usaha pengumpulan data besar-besaran yang berpusat kepada ledakan kecerdasan buatan yang telah menarik perhatian dunia.
Orang itu ialah guru sekolah menengah Christoph Schuhmann, dan LAION, singkatan untuk “Rangkaian Terbuka AI Berskala Besar,” ialah projek minatnya. Apabila Schuhmann tidak mengajar fizik dan sains komputer kepada remaja Jerman, dia bekerja dengan sekumpulan kecil sukarelawan membina set data latihan AI percuma terbesar di dunia, yang telah digunakan dalam penjana teks ke imej seperti Google’s Imagen dan Stable Penyebaran.
Pangkalan data seperti LAION adalah pusat kepada penjana teks-ke-imej AI, yang bergantung padanya untuk sejumlah besar bahan visual yang digunakan untuk menyahbina dan mencipta imej baharu. Kemunculan sulung produk ini lewat tahun lepas adalah acara anjakan paradigma: ia menghantar perlumbaan senjata AI sektor teknologi ke dalam pemacu hiper dan menimbulkan pelbagai isu etika dan undang-undang.
Dalam masa beberapa bulan, saman telah difailkan terhadap syarikat AI generatif Stability AI dan Midjourney kerana pelanggaran hak cipta, dan pengkritik telah membunyikan penggera tentang imej ganas, seksual dan sebaliknya bermasalah dalam set data mereka, yang telah dituduh memperkenalkan bias yang hampir mustahil untuk dikurangkan.
Tetapi ini bukan kebimbangan Schuhmann. Dia hanya mahu menetapkan data percuma.
Model bahasa yang besar
Guru dan pelakon terlatih berusia 40 tahun itu membantu menemui LAION dua tahun lalu selepas melepak di pelayan Discord untuk peminat AI. Lelaran pertama DALL-E OpenAI, model pembelajaran mendalam yang menjana imej digital daripada gesaan bahasa – katakan, mencipta imej ayam merah jambu duduk di atas sofa sebagai tindak balas kepada permintaan sedemikian – baru sahaja dikeluarkan, dan Schuhmann adalah kedua-duanya. diilhamkan dan prihatin bahawa ia akan menggalakkan syarikat teknologi besar untuk menjadikan lebih banyak proprietari data.
“Saya serta-merta memahami bahawa jika ini dipusatkan kepada satu, dua atau tiga syarikat, ia akan memberi kesan yang sangat buruk kepada masyarakat,” kata Schuhmann.
Sebagai tindak balas, beliau dan ahli lain pada pelayan memutuskan untuk mencipta set data sumber terbuka untuk membantu melatih model penyebaran imej-ke-teks, proses selama berbulan-bulan serupa dengan mengajar seseorang bahasa asing dengan berjuta-juta kad kilat. Kumpulan itu menggunakan kod HTML mentah yang dikumpul oleh Common Crawl bukan untung California untuk mencari imej di seluruh web dan mengaitkannya dengan teks deskriptif. Ia tidak menggunakan sebarang kurasi manual atau manusia.
Dalam beberapa minggu, Schuhmann dan rakan-rakannya mempunyai tiga juta pasangan teks imej. Selepas tiga bulan, mereka mengeluarkan set data dengan 400 juta pasangan. Jumlah itu kini melebihi lima bilion, menjadikan LAION set data imej dan kapsyen percuma terbesar.
Apabila reputasi LAION berkembang, pasukan itu bekerja tanpa gaji, menerima sumbangan sekali sahaja pada tahun 2021 daripada syarikat pembelajaran mesin Hugging Face. Kemudian pada suatu hari, bekas pengurus dana lindung nilai memasuki sembang Discord.
Emad Mostaque menawarkan untuk menampung kos kuasa pengkomputeran, tanpa sebarang ikatan. Dia mahu melancarkan perniagaan AI generatif sumber terbukanya sendiri dan berminat untuk memanfaatkan LAION untuk melatih produknya. Pasukan itu pada mulanya mencemuh cadangan itu, membawanya sebagai tukang masak.
“Kami sangat ragu-ragu pada mulanya,” kata Schuhmann, “Tetapi selepas empat minggu atau lebih kami mendapat akses kepada GPU dalam awan yang biasanya berharga sekitar AS$9,000 (RM39,947) atau AS$10,000 (RM44,386). ”
Apabila Mostaque melancarkan Stability AI pada 2022, dia menggunakan set data LAION untuk Stable Diffusion, penjana imej AI utamanya dan mengupah dua penyelidik organisasi. Setahun kemudian, syarikat itu sedang mencari penilaian AS$4bil (RM17.74bil), sebahagian besarnya berkat data yang disediakan oleh LAION.
Bagi pihaknya, Schuhmann tidak mendapat keuntungan daripada LAION dan berkata dia tidak berminat untuk berbuat demikian. “Saya masih seorang guru sekolah menengah. Saya telah menolak tawaran kerja daripada semua jenis syarikat kerana saya mahu ini kekal bebas,” katanya.
Minyak baru?
Banyak imej dan pautan dalam pangkalan data seperti LAION telah kelihatan jelas di Web, dalam beberapa kes selama beberapa dekad. Ledakan AI mengambil masa untuk mendedahkan nilai sebenarnya, kerana set data yang lebih besar dan lebih pelbagai, dan kualiti imej yang lebih tinggi di dalamnya, lebih jelas dan lebih tepat imej yang dihasilkan oleh AI.
Kesedaran itu, seterusnya, telah menimbulkan beberapa persoalan undang-undang dan etika tentang sama ada bahan yang tersedia secara umum boleh digunakan untuk menyuap pangkalan data – dan jika jawapannya ya, jika pencipta perlu dibayar.
Untuk membina LAION, pengasas mengikis data visual daripada syarikat seperti Pinterest, Shopify dan Amazon Web Services – yang tidak mengulas sama ada penggunaan LAION terhadap kandungan mereka melanggar syarat perkhidmatan mereka – serta lakaran kecil YouTube, imej daripada platform portfolio seperti DeviantArt dan EyeEm, foto dari tapak web kerajaan termasuk Jabatan Pertahanan AS, dan kandungan dari tapak berita seperti The Daily Mail dan The Sun.
Jika anda bertanya kepada Schuhmann, dia berkata bahawa apa-apa yang tersedia secara percuma dalam talian adalah permainan yang adil. Tetapi pada masa ini tiada peraturan AI di Kesatuan Eropah, dan Akta AI yang akan datang, yang bahasanya akan dimuktamadkan pada awal musim panas ini, tidak akan memutuskan sama ada bahan berhak cipta boleh dimasukkan ke dalam set data besar.
Sebaliknya, penggubal undang-undang sedang membincangkan sama ada untuk memasukkan peruntukan yang memerlukan syarikat di sebalik penjana AI mendedahkan bahan yang dimasukkan ke dalam set data produk mereka dilatih, sekali gus memberi pilihan kepada pencipta bahan tersebut untuk mengambil tindakan.
Idea asas di sebalik peruntukan itu, Ahli Parlimen Eropah Dragos Tudorache memberitahu Bloomberg, adalah mudah: “Sebagai pembangun AI generatif, anda mempunyai kewajipan untuk mendokumenkan dan bersikap telus tentang bahan berhak cipta yang telah anda gunakan dalam latihan algoritma.”
Peraturan sedemikian tidak akan menjadi isu untuk Kestabilan AI, tetapi ia boleh menjadi masalah untuk penjana teks-ke-imej yang lain – “tiada siapa yang tahu apa yang sebenarnya digunakan Open AI untuk melatih DALL-E 2,” kata Schuhmann, memetiknya sebagai contoh cara syarikat teknologi mengunci data awam. Ia juga akan menaikkan status quo dalam pengumpulan data sekarang.
“Sudah menjadi tradisi dalam bidang ini untuk menganggap anda tidak memerlukan persetujuan atau anda tidak perlu memaklumkan kepada orang ramai, atau mereka tidak perlu menyedarinya. Terdapat rasa berhak bahawa apa sahaja yang ada di Web, anda boleh merangkak dan memasukkannya ke dalam set data,” kata Abeba Birhane, Felo Kanan dalam AI Dipercayai di Yayasan Mozilla yang telah mempelajari LAION.
Walaupun LAION tidak disaman secara langsung, ia telah dinamakan dalam dua saman: satu menuduh Stability dan Midjourney menggunakan imej berhak cipta oleh artis untuk melatih model mereka, dan satu lagi oleh Getty Images terhadap Stability, yang mendakwa bahawa 12 juta imejnya telah dikikis oleh LAION dan digunakan untuk melatih Stable Diffusion.
Oleh kerana LAION adalah sumber terbuka, adalah mustahil untuk mengetahui syarikat atau jumlah syarikat lain yang telah menggunakan set data tersebut. Google telah mengakui bahawa ia menggunakan LAION untuk membantu melatih model teks-ke-imej Imagen dan Parti AInya. Schuhmann percaya bahawa syarikat besar lain secara senyap melakukan perkara yang sama dan tidak mendedahkannya.
Paling teruk di Web
Duduk di ruang tamu sambil anaknya bermain Minecraft, Schuhmann menyamakan LAION sebagai “bot penyelidikan kecil” di atas “tsunami teknologi maklumat yang besar”, mengambil sampel apa yang ada di bawahnya untuk dipamerkan kepada dunia.
“Ini adalah jumlah kecil daripada apa yang tersedia secara umum di Internet,” katanya mengenai pangkalan data LAION. “Ia benar-benar mudah untuk mendapatkannya kerana walaupun kami, dengan mungkin bajet AS$10,000 daripada penderma, boleh melakukannya.”
Tetapi apa yang tersedia secara umum tidak selalunya yang dikehendaki orang ramai – atau dibenarkan untuk dilihat secara sah. Selain gambar SFW kucing dan trak api, set data LAION mengandungi berjuta-juta imej pornografi, keganasan, kebogelan kanak-kanak, meme perkauman, simbol kebencian, seni berhak cipta dan karya yang dikikis daripada tapak web syarikat persendirian.
Schuhmann berkata dia tidak mengetahui sebarang kebogelan kanak-kanak dalam set data LAION, walaupun dia mengakui dia tidak menyemak data itu dengan mendalam. Jika dimaklumkan tentang kandungan sebegitu, katanya, dia akan mengalih keluar pautan kepadanya serta-merta.
Schuhman berunding dengan peguam dan menjalankan alat automatik untuk menapis kandungan haram sebelum dia mula memasang pangkalan data, tetapi dia kurang berminat untuk membersihkan pegangan LAION berbanding belajar daripadanya.
“Kami boleh menapis keganasan daripada data yang kami keluarkan,” katanya, “tetapi kami memutuskan untuk tidak melakukannya kerana ia akan mempercepatkan pembangunan perisian pengesanan keganasan.”
LAION menyediakan borang alih keluar untuk meminta pengalihan keluar foto, tetapi set data telah dimuat turun ribuan kali.
Kandungan menyinggung yang ditarik balik dari LAION nampaknya telah disepadukan ke dalam Stable Diffusion, di mana walaupun penapisan diperketatkan baru-baru ini, adalah mudah untuk menjana gambar pemenggalan kumpulan pelampau palsu atau imej Holocaust.
Sesetengah pakar percaya bahan sedemikian juga boleh mewujudkan berat sebelah dalam penjana AI itu sendiri: Alat seperti Dall-E-2 dan Stable Diffusion telah dikritik kerana menghasilkan semula stereotaip kaum walaupun apabila gesaan teks tidak membayangkan perlumbaan subjek.
Kecondongan sedemikian adalah sebab Google memutuskan untuk tidak mengeluarkan Imagen, yang telah dilatih di LAION.
Apabila dihubungi untuk mendapatkan komen, Stability AI berkata ia melatih Stable Diffusion pada subset susun atur pangkalan data LAION. Syarikat itu berusaha untuk “memberi model set data yang jauh lebih pelbagai dan luas daripada SD asal” yang ditulisnya dalam e-mel, sambil menambah bahawa mereka cuba mengalih keluar “kandungan dewasa menggunakan penapis NSFW LAION”.
Malah penyokong AI berasaskan sumber terbuka memberi amaran tentang implikasi latihan AI pada set data yang tidak dipilih. Menurut Yacine Jernite, yang mengetuai pasukan Pembelajaran Mesin dan Masyarakat di Hugging Face, alat AI generatif berdasarkan data yang tercemar akan mencerminkan kecenderungannya. “Model ini adalah gambaran yang sangat langsung tentang apa yang dilatih.”
Memperkenalkan pagar selepas produk siap dan berjalan tidak mencukupi, tambah Jernite, kerana pengguna akan sentiasa mencari cara untuk memintas langkah keselamatan. “Itulah yang berlaku apabila anda mengambil model yang dilatih untuk mencontohi apa yang orang lakukan di Internet secara umum dan kemudian berkata, ‘Baiklah, tetapi jangan lakukan itu.’ Orang ramai akan mencari jalan untuk tetap melakukannya,” kata Jernite.
Gil Elbaz, pengasas data bukan untung Common Crawl, meragui sama ada “ada garis lurus yang boleh anda lukis daripada set latihan dengan apa yang dihasilkan,” dan sebaliknya menyamakan proses itu dengan artis yang pergi ke muzium untuk mendapatkan inspirasi tetapi disekat daripada membuat replika karya seni. Sebaliknya, beliau berkata, “adalah penting bagi masyarakat untuk memutuskan kes penggunaan yang sah atau tidak sah.”
Ia bukan sahaja diserahkan kepada masyarakat. Memandangkan pengawal selia di Eropah menggubal undang-undang untuk menavigasi penggunaan kecerdasan buatan, mereka bergelut dengan fakta bahawa data yang kini dilombong untuk ledakan AI semasa telah bertahun-tahun dijana dalam zon kelabu undang-undang yang kini hanya mendapat perhatian serius. .
“AI tidak mungkin dapat dicapai pada tahap kerumitan ini tanpa pengumpulan data selama bertahun-tahun,” kata Tudorache, ahli Parlimen Eropah.
Tetapi bagi Schuhmann, bukan set data yang harus dipantau. Pada pandangannya, senario terburuk untuk AI ialah senario di mana Big Tech dapat menyesakkan pembangun dengan menyediakan alatan mereka kepada rangka kerja kawal selia.
“Jika kita cuba memperlahankan keadaan dan mengawal selia secara berlebihan,” dia memberi amaran, “terdapat bahaya besar yang akhirnya, hanya beberapa pemain korporat besar yang mampu memenuhi semua keperluan rasmi.” – Bloomberg