Teknik-teknik yang dikenali sebagai “menghanyutkan” digunakan untuk membuat model AI generatif melupakan maklumat spesifik dan tidak diingini yang diperoleh daripada data latihan, seperti data peribadi yang sensitif atau bahan terkandung hak cipta.
Namun, teknik-teknik menghapuskan semasa ini adalah senjata bermata dua: Mereka boleh menjadikan model seperti GPT-4o OpenAI atau Llama 3.1 405B Meta jauh kurang mampu menjawab soalan-soalan asas.
Menurut satu kajian baru yang bersama-sama dipersiapkan oleh penyelidik dari University of Washington (UW), Princeton, University of Chicago, USC dan Google, mereka mendapati bahawa teknik-teknik menghapuskan yang paling popular pada masa ini cenderung merosakkan model-model – sering kali sehingga tahap di mana mereka tidak dapat digunakan.
“Penilaian kami menunjukkan bahawa kaedah menghapuskan yang sering dijalankan pada masa ini belum bersedia untuk penggunaan atau pemasangan yang bermakna dalam skenario dunia nyata,” kata Weijia Shi, seorang penyelidik dalam kajian tersebut dan seorang calon Ph.D. dalam sains komputer di UW, kepada TechCrunch. “Pada masa ini, tidak ada kaedah yang efisien yang membolehkan model melupakan data tertentu tanpa kehilangan manfaat yang ketara.”
Bagaimana model-model belajar
Model-model AI generatif tidak mempunyai kecerdasan sebenar. Mereka adalah sistem statistik yang meramalkan perkataan, imej, pertuturan, muzik, video dan data lain. Diberikan banyak contoh (contohnya filem, rakaman suara, esei dan sebagainya), model-model AI belajar tentang kebarangkalian data berlaku berdasarkan corak, termasuk konteks data di sekelilingnya.
Misalnya, diberikan e-mel yang berakhir dengan frasa “Saya berharap…”, model yang dilatih untuk melengkapkan mesej mungkin mencadangkan “…untuk mendengar balasan,” mengikuti corak semua e-mel yang diambilnya. Tiada niat di situ; model tersebut tidak menantikan apa-apa. Ia hanyalah membuat ramalan yang berasaskan maklum balas yang di bina.
Kebanyakan model, termasuk kapal terunggul seperti GPT-4o, dilatih dengan data yang didapati dari laman web awam dan set data di seluruh web. Kebanyakan vendor yang membangunkan model-model sedemikian berhujah bahawa penggunaan yang adil melindungi amalan mereka dalam mengambil data dan menggunakannya untuk latihan tanpa memberitahu, memberi ganjaran atau mengkredit pemilik data.
Namun tidak setiap pemegang hak cipta bersetuju. Dan ramai – dari penulis hingga penerbit hingga label rakaman – telah mengajukan tuntutan undang-undang terhadap vendor untuk memaksa perubahan.
Persoalan hak cipta adalah salah satu sebab mengapa teknik-teknik menghapuskan mendapat perhatian yang banyak baru-baru ini. Google, dalam perkongsian dengan beberapa institusi akademik, tahun lalu melancarkan pertandingan untuk merangsang penciptaan pendekatan menghapuskan baru.
Menghapuskan juga boleh memberikan jalan untuk mengeluarkan maklumat sensitif daripada model-model sedia ada, seperti rekod perubatan atau gambar yang membebankan, sebagai tindak balas atau perintah kerajaan. (Kerana cara mereka dilatih, model-model cenderung untuk mengumpulkan banyak maklumat peribadi, dari nombor telefon hingga contoh-contoh yang lebih berkaitan.) Selama beberapa tahun terakhir, beberapa vendor telah mengeluarkan alat untuk membenarkan pemilik data meminta agar data mereka diambil dari set data latihan. Tetapi alat-alat opt-out ini hanya terpakai untuk model-model masa hadapan, bukan model-model yang dilatih sebelum mereka dikeluarkan. Menghapuskan akan menjadi pendekatan yang lebih teliti untuk penghapusan data.
Walau bagaimanapun, menghapuskan tidak semudah menekan “Padam.”
Seni lupa
Teknik-teknik menghapuskan hari ini bergantung kepada algoritma yang direka untuk “mengalihkan” model-model dari data yang perlu dilupakan. Idea ini adalah untuk mempengaruhi ramalan model agar ia tidak pernah – atau hanya sangat jarang – mengeluarkan data tertentu.
Untuk melihat sejauh mana algoritma menghapuskan ini boleh berkesan, Shi dan rakan-rakannya merancang satu penanda aras dan memilih lapan algoritma terbuka yang berbeza untuk diuji. Digelar MUSE (Penilaian Enam Cara Pembelajaran Mesin), penanda aras tersebut bertujuan untuk menyiasat keupayaan algoritma untuk bukan sahaja menghalang model daripada menayangkan data latihan secara imbuhan (fenomena yang dikenali sebagai regurgitasi), tetapi menghilangkan pengetahuan model tentang data tersebut serta sebarang bukti bahawa model tersebut asalnya dilatih dengan data tersebut.
Mendapat markah baik dalam MUSE melibatkan membuat model melupakan dua perkara: buku-buku siri Harry Potter dan artikel berita. Contohnya, diberi satu potongan daripada Harry Potter and The Chamber of Secrets (“‘There’s more in the frying pan,’ said Aunt…”), MUSE menguji samada model yang dilupakan boleh mengulangi ayat keseluruhan (“‘There’s more in the frying pan,’ said Aunt Petunia, turning eyes on her massive son”), menjawab soalan-soalan tentang adegan (contohnya “Apa yang Aunt Petunia kata kepada anaknya?”, “Lebih di dalam kuali”) atau menunjukkan sebaliknya bahawa ia telah dilatih dengan teks dari buku tersebut.
MUSE juga menguji sama ada model itu menyimpan pengetahuan umum yang berkaitan – contohnya bahawa J.K. Rowling adalah pengarang siri Harry Potter – selepas melupakan, yang penyelidik sebut sebagai keseluruhan kesesuaian model. Semakin rendah kesesuaian, semakin banyak pengetahuan yang model itu hilang, menjadikan model kurang mampu menjawab soalan dengan betul.
Dalam kajian mereka, para penyelidik mendapati bahawa algoritma-algoritma menghapuskan yang mereka uji memang membuat model-model melupakan maklumat tertentu. Tetapi mereka juga merosakkan keupayaan model-model untuk menjawab soalan dengan amnya, menimbulkan satu pertukaran.
“Menghasilkan kaedah-kaedah menghapuskan yang berkesan untuk model-model adalah cabaran kerana pengetahuan terjalin dengan rungutan yang halus dalam model,” terang Shi. “Sebagai contoh, sebuah model mungkin dilatih dengan bahan berhak cipta – buku-buku Harry Potter serta kandungan yang tersedia secara percuma dari Wiki Harry Potter. Apabila kaedah menghapuskan sedia ada cuba membuang buku-buku Harry Potter yang berhak cipta, mereka memberi kesan yang signifikan terhadap pengetahuan model tentang Wiki Harry Potter juga.”
Adakah terdapat sebarang penyelesaian kepada masalah ini? Belum lagi – dan ini menunjukkan perlunya penyelidikan tambahan, kata Shi.
Untuk masa ini, vendor yang bergantung kepada penghapusan sebagai penyelesaian bagi masalah data latihan mereka kelihatan gagal. Mungkin satu terobosan teknikal akan menjadikan penghapusan sah pada suatu hari nanti. Tetapi untuk masa sekarang, vendor terpaksa mencari jalan lain untuk menghalang model mereka daripada mengatakan perkara-perkara yang sepatutnya tidak mereka sebutkan.