Kecerdasan buatan telah mencapai kemajuan yang luar biasa dengan imej pegun. Selama berbulan-bulan, perkhidmatan seperti Dall-E dan Stable Diffusion telah mencipta gambar yang cantik, menarik dan kadangkala meresahkan. Kini, syarikat permulaan yang dipanggil Runway AI Inc. sedang mengambil langkah seterusnya: video yang dijana AI.
Pada hari Isnin, Runway yang berpangkalan di New York mengumumkan ketersediaan sistem Gen 2nya, yang menjana coretan video pendek daripada beberapa perkataan gesaan pengguna. Pengguna boleh menaip perihalan tentang perkara yang mereka mahu lihat, contohnya: “kucing berjalan dalam hujan”, dan ia akan menjana klip video kira-kira 3 saat yang menunjukkan perkara itu atau sesuatu yang hampir. Secara bergantian, pengguna boleh memuat naik imej sebagai titik rujukan untuk sistem serta gesaan.
Produk tidak tersedia untuk semua orang. Runway, yang membuat filem dan alat penyuntingan berasaskan AI, mengumumkan ketersediaan sistem AI Gen 2 melalui senarai tunggu; orang ramai boleh mendaftar untuk mengaksesnya pada saluran Discord peribadi yang syarikat itu merancang untuk menambah lebih ramai pengguna setiap minggu.
Pelancaran terhad mewakili contoh paling berprofil tinggi bagi penjanaan teks-ke-video sedemikian di luar makmal. Kedua-dua Alphabet Inc. Google dan Meta Platforms Inc. mempamerkan usaha teks-ke-video mereka sendiri tahun lepas – dengan klip video pendek yang memaparkan subjek seperti teddy bear mencuci pinggan dan perahu layar di tasik – tetapi tidak ada yang mengumumkan rancangan untuk menggerakkan kerja di luar peringkat penyelidikan.
Runway telah mengusahakan alatan AI sejak 2018, dan mengumpul $50 juta lewat tahun lepas. Permulaan itu membantu mencipta versi asal Stable Diffusion, model AI teks-ke-imej yang sejak itu telah dipopularkan dan dibangunkan lagi oleh syarikat Stability AI.
Dalam tunjuk cara langsung eksklusif minggu lalu dengan pengasas bersama Runway dan Ketua Pegawai Eksekutif Cris Valenzuela, wartawan ini menguji Gen 2, mencadangkan “rakaman dron landskap padang pasir” segera. Dalam beberapa minit, Gen 2 menghasilkan video yang panjangnya hanya beberapa saat dan sedikit herot, tetapi tidak dinafikan ia kelihatan seperti rakaman dron yang dirakam di atas landskap padang pasir. Terdapat langit biru dan awan di kaki langit, dan matahari terbit (atau terbenam, mungkin), di sudut kanan bingkai video, sinarnya menyerlahkan bukit pasir coklat di bawah.
Beberapa video lain yang Runway hasilkan daripada gesaannya sendiri menunjukkan beberapa kekuatan dan kelemahan semasa sistem: Imej jarak dekat bola mata kelihatan tajam dan cantik seperti manusia, manakala klip pejalan kaki berjalan melalui hutan menunjukkan ia mungkin masih mempunyai masalah menjana kaki yang kelihatan realistik dan gerakan berjalan. Model itu masih belum “memahami” cara menggambarkan objek bergerak dengan tepat, kata Valenzuela.
“Anda boleh menjana mengejar kereta, tetapi kadang-kadang kereta itu mungkin terbang,” katanya.
Walaupun gesaan yang panjang boleh membawa kepada imej yang lebih terperinci dengan model teks ke imej seperti DALL-E atau Stable Diffusion, Valenzuela berkata bahawa lebih mudah adalah lebih baik dengan Gen 2. Dia melihat Gen 2 sebagai cara untuk menawarkan artis, pereka dan pembuat filem alat lain yang boleh membantu mereka dengan proses kreatif mereka, dan menjadikan alat sedemikian lebih mampu milik dan boleh diakses berbanding sebelum ini.
Produk ini dibina pada model AI sedia ada yang dipanggil Gen 1 yang Runway mula menguji secara peribadi di Discord pada bulan Februari. Valenzuela berkata ia kini mempunyai beribu-ribu pengguna. Model AI itu memerlukan pengguna memuat naik video sebagai sumber input, yang akan digunakan (bersama-sama dengan panduan pengguna seperti gesaan teks atau foto pegun) untuk menjana video baharu, senyap, 3 saat. Anda mungkin memuat naik gambar kucing mengejar mainan, contohnya, bersama-sama dengan teks “gaya kait comel”, dan Gen 1 akan menjana video kucing kait mengejar mainan.
Video yang dibuat dengan model AI Gen 2 juga senyap, tetapi Valenzuela berkata syarikat itu sedang melakukan penyelidikan ke dalam penjanaan audio dengan harapan akhirnya mencipta sistem yang boleh menjana kedua-dua imej dan bunyi.
Debut Gen 2 menunjukkan kepantasan dan keganasan yang mana pemula bergerak ke hadapan pada apa yang dipanggil AI generatif, sistem yang mengambil input pengguna dan menjana kandungan baharu seperti teks atau imej. Beberapa sistem ini – seperti Stable Diffusion, bersama dengan OpenAI Inc. yang menjana imej Dall-E dan chatbot ChatGPT – telah tersedia secara umum dan popular secara besar-besaran sejak beberapa bulan kebelakangan ini. Pada masa yang sama, percambahan mereka telah menimbulkan kebimbangan undang-undang dan etika.
Hany Farid, pakar forensik digital dan profesor di University of California, Berkeley, telah melihat beberapa video yang dijana oleh Gen 2 dan menyebutnya “sangat keren”, tetapi menambah bahawa hanya menunggu masa sebelum video dibuat dengan ini semacam teknologi disalahgunakan.
“Orang ramai akan cuba melakukan perkara yang tidak baik dengan ini,” kata Farid.
Runway menggunakan gabungan AI dan kesederhanaan manusia untuk menghalang pengguna daripada menjana video dengan Gen 2 yang termasuk pornografi, kandungan ganas atau yang melanggar hak cipta, walaupun kaedah sedemikian tidak mudah.
Seperti industri AI yang lain, teknologi ini berkembang dengan pantas. Walaupun kualiti imej Gen 2 pada masa ini agak kabur dan goyah, menjadikannya mudah untuk merasakan bahawa terdapat sesuatu yang berbeza tentang video yang dibuat oleh Gen 2, Valenzuela menjangkakan ia akan bertambah baik dengan cepat.
“Ia masih awal,” katanya. “Model itu akan menjadi lebih baik dari semasa ke semasa.” – Bloomberg