Walaupun terdapat permintaan yang semakin meningkat untuk keselamatan dan akauntabiliti kecerdasan buatan (AI), ujian dan penanda mata semasa mungkin tidak mencukupi, menurut laporan baru.

Model AI generatif – model yang boleh menganalisis dan mengeluarkan teks, imej, muzik, video, dan sebagainya – semakin diberikan perhatian disebabkan kecenderungan mereka untuk membuat kesilapan dan berkelakuan secara tidak dapat dijangka. Kini, organisasi dari agensi sektor awam hingga syarikat teknologi besar mengusulkan penanda mata baru untuk menguji keselamatan model-model ini.

Menghampiri penghujung tahun lalu, firma startup Scale AI membentuk sebuah makmal yang didedikasikan untuk menilai sejauh mana model-model selari dengan garis panduan keselamatan. Bulan ini, NIST dan Institut Keselamatan AI U.K. telah mengeluarkan alat yang direka untuk menilai risiko model.

Namun, ujian dan kaedah pengesanan model-model ini mungkin tidak mencukupi.

Institut Ada Lovelace (ALI), sebuah organisasi penyelidikan AI bukan untung yang berpusat di U.K., telah menjalankan kajian yang mewawancara pakar dari makmal akademik, masyarakat madani, dan pengeluar model-model vendor, serta mengaudit penyelidikan terkini mengenai penilaian keselamatan AI. Para penyelidik bersama mendapati bahawa walaupun penilaian semasa boleh berguna, mereka tidak menyeluruh, mudah dimainkan, dan tidak memberi petunjuk tentang bagaimana model-model itu akan berkelakuan dalam situasi dunia nyata.

“Sama ada telefon pintar, ubat berpreskripsi atau kereta, kita mengharapkan produk yang kita gunakan adalah selamat dan boleh dipercayai; dalam sektor-sektor ini, produk diuji secara rapi untuk memastikan mereka selamat sebelum mereka dibangunkan,” kata Elliot Jones, penyelidik kanan di ALI dan seorang penyunting laporan, kepada TechCrunch. “Penyelidikan kami bertujuan untuk menyiasat batasan pendekatan semasa terhadap penilaian keselamatan AI, menilai bagaimana penilaian digunakan pada masa ini dan meneroka kegunaannya sebagai alat bagi pembuat dasar dan pematuhan.”

Penanda mata dan pasukan merah

Para penyelidik pertama kali mengkaji literatur akademik untuk menetapkan gambaran umum mengenai bahaya dan risiko model-model pada masa kini, serta keadaan penilaian model AI sedia ada. Mereka kemudian mewawancarai 16 pakar, termasuk empat pekerja di syarikat teknologi yang tidak ditentukan yang membangunkan sistem AI generatif.

Kajian mendapati terdapat perselisihan tajam dalam industri AI mengenai set metode dan taksonomi terbaik untuk menilai model-model.

Sesetengah penilaian hanya menguji sejauh mana model-model selari dengan penanda mata di makmal, bukan bagaimana model-model boleh memberi kesan kepada pengguna dunia nyata. Yang lain mengambil kira ujian yang dibangunkan untuk tujuan penyelidikan, bukan menilai model-model produksi – namun vendor-vendor tetap menggunakan ujian-ujian ini dalam pengeluaran.

Kami pernah menulis mengenai masalah dengan penanda mata AI sebelum ini, dan kajian ini menyoroti semua masalah ini dan lebih lagi.

Pakar-pakar yang dikutip dalam kajian itu menyatakan bahawa sukar untuk membuat pertimbangan mengenai prestasi model dari hasil penanda mata dan tidak jelas sama ada penanda mata boleh menunjukkan bahawa model mempunyai keupayaan tertentu. Sebagai contoh, walaupun model boleh berprestasi baik dalam ujian peguam negeri, itu tidak bermakna ia akan dapat menyelesaikan cabaran undang-undang yang lebih buka untuk tafsiran.

Pakar-pakar juga menyoroti isu persekitaran data, di mana hasil penanda mata boleh melebih prestasi model jika model telah dilatih dengan data yang sama yang digunakan untuk ujian. Menurut pakar, dalam banyak kes, penanda mata dipilih oleh organisasi bukan kerana ia merupakan alat terbaik untuk penilaian, tetapi kerana kebolehgunaan dan kemudahan penggunaan, kata pakar-pakar.

“Penanda mata berisiko untuk dimanipulasi oleh pembangun yang mungkin melatih model-model pada set data yang sama yang akan digunakan untuk menilai model, sama seperti melihat kertas ujian sebelum ujian, atau dengan memilih dengan strategik ujian yang hendak digunakan,” kata Mahi Hardalupas, penyelidik di ALI dan seorang penyunting kajian, kepada TechCrunch. “Juga penting versi mana dari model yang sedang dinilai. Perubahan kecil boleh menyebabkan perubahan yang tidak dapat dijangka dalam tingkah laku dan boleh melanggar ciri keselamatan yang tersedia.”

Kajian ALI juga menemui masalah dengan “pasukan merah,” amalan pemberi tugas kepada individu atau kumpulan untuk “menyerang” sebuah model bagi mengenal pasti kelemahan dan kecacatan. Sebelas syarikat menggunakan pasukan merah untuk menilai model-model, termasuk syarikat-syarikat startup AI OpenAI dan Anthropic, tetapi terdapat sedikit standard yang dipersetujui untuk pasukan merah, menjadikan sukar untuk menilai keberkesanan setiap usaha yang dilakukan.

Pakar-pakar memberitahu penyelidik kajian bahawa sukar untuk mencari individu dengan kemahiran dan kepakaran yang diperlukan untuk pasukan merah, dan bahawa sifat manual pasukan merah menjadikannya mahal dan sukar – memberikan rintangan kepada organisasi yang lebih kecil tanpa sumber yang mencukupi.

Penyelesaian yang mungkin

Tekanan untuk mengeluarkan model lebih cepat dan keengganan untuk menjalankan ujian yang boleh menimbulkan isu sebelum peluncuran adalah sebab utama mengapa penilaian AI belum menjadi lebih baik.

“Seseorang yang kami wawancara yang bekerja untuk syarikat yang membangunkan model-model asas merasakan terdapat lebih banyak tekanan dalam syarikat untuk mengeluarkan model dengan cepat, menjadikan lebih sukar untuk menolak dan mengambil serius melakukan penilaian,” kata Jones. “Makmal-makmal AI utama mengeluarkan model dengan kelajuan yang melebihi keupayaan mereka sendiri atau masyarakat untuk memastikan mereka selamat dan boleh dipercayai.”

Satu individu yang diwawancara dalam kajian ALI menyebut menilai model untuk keselamatan adalah masalah yang “sulit dipecahkan.” Jadi, harapan apa yang industri – dan mereka yang mengawalselia – miliki untuk mencari penyelesaian?

Mahi Hardalupas, seorang penyelidik di ALI, percaya bahawa terdapat jalan ke depan, tetapi ia akan memerlukan lebih banyak penglibatan dari badan-badan sektor awam.

“Pematuhan dan pembuat dasar perlu dengan jelas mengartikulasikan apa yang mereka inginkan dari penilaian,” katanya. “Pada masa yang sama, komuniti penilaian perlu menjadi lebih telus mengenai batasan semasa dan potensi penilaian.”

Hardalupas mencadangkan bahawa kerajaan memerintahkan lebih banyak penyertaan awam dalam pembangunan penilaian dan menjalankan langkah-langkah untuk menyokong “ekosistem” ujian pihak ketiga, termasuk program-program untuk memastikan akses berkala kepada model-model yang diperlukan dan set data.

Jones berpendapat bahawa mungkin diperlukan “penilaian yang bersifat konteks” yang melampaui hanya menguji bagaimana model bertindak balas terhadap arahan, dan sebaliknya memerhatikan jenis pengguna yang mungkin terkesan oleh model (contohnya, orang dari latar belakang, jantina, atau etnik tertentu) dan cara-cara serangan terhadap model boleh menewaskan langkah-langkah keselamatan.

“Ini akan memerlukan pelaburan dalam sains asas penilaian untuk membangunkan penilaian yang lebih kukuh dan berulang yang berdasarkan pemahaman tentang bagaimana sebuah model AI beroperasi,” tambahnya.

Tetapi mungkin tidak akan pernah ada jaminan bahawa sebuah model selamat.

“Seperti yang dinyatakan oleh orang lain, ‘keselamatan’ bukanlah sifat model,” kata Hardalupas. “Menentukan sama ada model adalah ‘selamat’ memerlukan pemahaman tentang konteks di mana ia digunakan, siapa yang membeli atau membolehkan akses kepadanya, dan sama ada langkah-langkah keamanan yang ada mencukupi dan kukuh untuk mengurangkan risiko tersebut. Penilaian model asas boleh berfungsi sebagai tujuan eksplorasi untuk mengenal pasti risiko yang berpotensi, tetapi mereka tidak boleh menjamin bahawa sebuah model adalah selamat, apatah lagi ‘sempurna selamat.’ Ramai daripada responden kami bersetuju bahawa penilaian tidak dapat membuktikan bahawa sesuatu model adalah selamat dan hanya dapat menunjukkan bahawa model adalah tidak selamat.”



Source link

Leave a Reply