Institut Kebangsaan bagi Piawaian dan Teknologi (NIST), agensi Jabatan Perdagangan Amerika Syarikat yang membangunkan dan menguji teknologi untuk kerajaan Amerika Syarikat, syarikat, dan orang ramai, telah mengeluarkan semula sebuah tapak ujian yang direka untuk mengukur bagaimana serangan yang jahat – terutamanya serangan yang “meracun” data latihan model AI – boleh merosakkan prestasi sesuatu sistem AI.
Dikenali sebagai Dioptra (bernama selepas alat kejuruteraan astronomi dan survei klasik), alat berasaskan web yang modular dan sumber terbuka, pertama kali dikeluarkan pada tahun 2022, bertujuan untuk membantu syarikat-syarikat yang melatih model AI – dan orang yang menggunakan model-model ini – menilai, menganalisis, dan mengesan risiko AI. NIST menyatakan bahawa Dioptra boleh digunakan untuk menyelaraskan dan menyelidik model-model, serta memberikan platform yang sama untuk mendedahkan model-model kepada ancaman-ancaman yang disimulasikan dalam persekitaran “red-teaming”.
“Menguji kesan serangan bermusuh pada model pembelajaran mesin adalah salah satu matlamat Dioptra,” tulis NIST dalam satu kenyataan akhbar. “Perisian sumber terbuka ini, seperti ciptaan anak yang boleh dimuat turun dengan percuma, boleh membantu komuniti, termasuk agensi kerajaan dan syarikat-syarikat kecil dan sederhana, menjalankan penilaian untuk menilai tuntutan pembangun-pembangun AI tentang prestasi sistem mereka.”
Dioptra diperkenalkan bersama-sama dengan dokumen-dokumen dari NIST dan Institut Keselamatan AI yang baru dibentuk oleh NIST yang membincangkan cara-cara untuk mengurangkan beberapa bahaya AI, seperti bagaimana ia boleh disalahgunakan untuk menghasilkan filem lucah tanpa kebenaran. Ia turut menandai pelancaran Inspect Institut Keselamatan AI U.K., satu set alat yang serupa yang bertujuan untuk menilai keupayaan model dan keselamatan keseluruhan model. Amerika Syarikat dan U.K. mempunyai kerjasama yang sedang berjalan untuk menjointly mengembangkan ujian model AI yang maju, yang diumumkan di AI Safety Summit U.K. di Bletchley Park pada November tahun lalu.
Dioptra juga merupakan hasil daripada arahan eksekutif Presiden Joe Biden tentang AI, yang memerintahkan (antara perkara lain) NIST untuk membantu dalam pengujian sistem AI. Arahan eksekutif itu juga menetapkan piawaian untuk keselamatan dan keselamatan AI, termasuk keperluan untuk syarikat-syarikat yang membangunkan model (contohnya Apple) memberitahu kerajaan persekutuan dan berkongsi keputusan semua ujian keselamatan sebelum mereka diterapkan kepada orang awam.
Seperti yang telah kita tunjukkan sebelum ini, penanda aras AI adalah sukar – tidak terkecuali kerana model-model AI paling canggih hari ini adalah kotak hitam yang infrastrukturnya, data latihannya, dan butiran kunci lainnya disimpan oleh syarikat-syarikat yang menciptanya. Satu laporan bulan ini dari Institut Penyelidikan bukan untung berdasarkan di U.K., yang mengkaji AI, mendapati bahawa penilaian saja tidak mencukupi untuk menentukan keselamatan model AI di dunia nyata disebabkan polisi-polisinya yang membenarkan para pembekal AI memilih secara selektif ujian mana untuk dijalankan.
NIST tidak menegaskan bahawa Dioptra boleh mengeliminasi sepenuhnya risiko model. Tetapi agensi itu bercadang bahawa Dioptra dapat menerangi jenis serangan yang mungkin membuat sistem AI berfungsi kurang efektif dan mengukur kesan ini terhadap prestasi.
Namun, dalam satu kelemahan utama, Dioptra hanya berfungsi dengan mudah pada model-model yang boleh dimuat turun dan digunakan secara tempatan, seperti keluarga Llama yang berkembang Meta. Model-model yang tersinar di sebalik API, seperti GPT-4o OpenAI, tidak boleh digunakan – sekurang-kurangnya untuk masa ini.