Seorang pencipta YouTube sedang berusaha untuk membawa tindakan undang-undang gabungan terhadap OpenAI, dengan mendakwa bahawa syarikat itu melatih model AI generatifnya pada jutaan transkrip dari video YouTube tanpa memberitahu – atau memberi pampasan kepada – pemilik video.

Dalam aduan yang difailkan pada Jumaat lalu di Mahkamah Daerah Amerika Syarikat untuk Daerah Utara California, peguam bagi David Millette, seorang pengguna YouTube yang berpangkalan di Massachusetts, mendakwa bahawa OpenAI secara rahsia merakam transkrip video Millette dan pencipta lain untuk melatih model yang menghidupkan platform chatbot bertenaga AI syarikat itu, ChatGPT, dan alat dan produk AI generatif lain. Dengan mengumpulkan data ini, OpenAI “mendapat untung secara besar-besaran” dari kerja pencipta, aduan tersebut mendakwa, sambil melanggar undang hak cipta dan terma perkhidmatan YouTube yang melarang penggunaan video untuk aplikasi berasingan dari perkhidmatannya.

“Apabila produk AI [OpenAI] menjadi lebih canggih melalui penggunaan set data latihan, ia menjadi lebih berharga kepada pengguna prospektif dan semasa, yang membeli langganan untuk mengakses produk AI [OpenAI],” tulis aduan tersebut. “Kebanyakan bahan dalam set data latihan OpenAI, bagaimanapun, datang dari karya-karya yang disalin oleh OpenAI tanpa kebenaran, tanpa penghargaan, dan tanpa pampasan.”

Millette, yang diwakili oleh firma guaman Bursor and Fisher, sedang mencari persidangan oleh juri dan lebih daripada $5 juta ganti rugi bagi semua pengguna YouTube yang data mereka mungkin telah dirampas dalam latihan OpenAI.

Model AI generatif seperti milik OpenAI tidak mempunyai kecerdasan sebenar. Diberi jumlah contoh yang sangat banyak (misalnya filem, rakaman suara, esei dan sebagainya), model “belajar” seberapa mungkin data akan berlaku berdasarkan corak, termasuk konteks data sekitarnya.

Kebanyakan model dilatih pada data yang diperoleh dari laman web awam dan set data di sekitar web. Syarikat-syarikat berhujah bahawa penggunaan secara bebas data mereka untuk latihan model komersial dilindungi oleh penggunaan yang adil. Namun, ramai pemegang hak cipta tidak bersetuju – dan mereka mengemukakan tuntutan untuk menghentikan amalan tersebut.

Transkripsi video telah menjadi bahan data latihan penting apabila data lain semakin berkurang, begitu juga. Lebih dari 35% laman web teratas dunia kini menghalang robot web OpenAI, menurut data dari Originality.AI. Dan kira-kira 25% data dari sumber “berkualiti tinggi” telah dibatasi daripada set data utama yang digunakan untuk melatih model AI, satu kajian oleh Inisiatif Sumber Asal Data MIT menemui. Sekiranya trend penafian akses semasa berterusan, kumpulan penyelidikan Epoch AI meramalkan bahawa pembangun akan kehabisan data untuk melatih model AI generatif antara 2026 dan 2032.

Pada bulan April, The New York Times melaporkan bahawa OpenAI mencipta model pengecaman ucapan pertamanya, Whisper, bertujuan untuk mentranskripsi audio dari video untuk mengumpulkan data latihan tambahan. Satu pasukan OpenAI yang melibatkan presiden syarikat, Greg Brockman, mentranskripsi lebih dari sejuta jam video dari YouTube menggunakan Whisper, menurut The Times, dan menggunakan transkripsi tersebut untuk melatih model tekst-generasi dan -analisa GPT-4 milik OpenAI.

Beberapa staf OpenAI membincangkan bagaimana langkah tersebut mungkin melanggar peraturan YouTube, menurut The Times.

Pada bulan Julai, Proof News melaporkan bahawa syarikat termasuk Anthropic, Apple, Salesforce dan Nvidia menggunakan set data yang dipanggil The Pile, yang mengandungi sari kata dari ratusan ribu video YouTube, untuk melatih model AI generatif. Banyak pencipta YouTube yang sari kata mereka dirampas dalam The Pile tidak menyedari dan tidak bersetuju dengan ini; Apple kemudian mengeluarkan kenyataan yang mengatakan bahawa ia tidak berniat untuk menggunakan model tersebut untuk mendorong sebarang ciri AI dalam produknya. Google, syarikat induk YouTube, juga telah cuba menggunakan transkripsi untuk melatih modelnya.

Tahun lalu, Google meluaskan terma perkhidmatan (ToS) sebahagiannya untuk membenarkan syarikat itu mengakses lebih banyak data pengguna untuk latihan model AI generatif. Di bawah ToS lama, tidak jelas sama ada Google boleh menggunakan data YouTube untuk membina produk di luar platform video. Tidak begitu di bawah terma baru, yang mengendurkan kekangan dengan ketara.

Kami telah menghubungi OpenAI dan Google untuk komen mengenai tindakan undang-undang gabungan ini dan akan mengemaskini artikel ini jika mereka memberi jawapan.

Ini telah menjadi awal yang sukar untuk OpenAI. Ketua Pegawai Eksekutif Tesla dan X, Elon Musk, pada Isnin mengemukakan tindakan undang-undang baru terhadap OpenAI dan Ketua Pegawai Eksekutif, Sam Altman, yang mendakwa syarikat itu meninggalkan misi asalnya tanpa memperuntukkan beberapa teknologi paling canggihnya untuk pelanggan komersial. Musk membuat tuntutan yang sama dalam tindakan undang-undang Februari terhadap OpenAI, tetapi tindakan undang-undang baru itu mendakwa bahawa OpenAI sedang terlibat dalam aktiviti perjudian kembali.



Source link

Leave a Reply