Sebuah organisasi yang tengah mengembangkan tolok ukur matematika untuk AI baru saja mengungkapkan bahwa mereka menerima dana dari OpenAI, dan hal ini menuai beberapa tuduhan ketidakberesan di kalangan komunitas AI.
Epoch AI, yang merupakan nonprofit dan didanai oleh Open Philanthropy, baru mengumumkan pada 20 Desember lalu bahwa OpenAI membantu penciptaan FrontierMath. FrontierMath adalah sebuah tes dengan soal-soal tingkat ahli yang dirancang untuk mengukur kemampuan matematis AI. Tes ini merupakan salah satu tolok ukur yang digunakan OpenAI untuk mendemonstrasikan AI unggulan mereka, o3.
Di forum LessWrong, seorang kontraktor Epoch AI dengan nama pengguna “Meemi” menyatakan bahwa banyak kontributor untuk FrontierMath tidak tahu tentang keterlibatan OpenAI sampai diumumkan secara publik.
“Komunikasi mengenai hal ini sangat tidak transparan,” tulis Meemi. “Menurut saya, Epoch AI seharusnya sudah mengungkapkan dukungan dari OpenAI, dan para kontraktor seharusnya mendapatkan informasi yang jelas mengenai potensi penggunaan karya mereka dalam benchmark.”
Di media sosial, sejumlah orang mengungkapkan kekhawatiran bahwa kerahasiaan ini bisa merusak reputasi FrontierMath sebagai tolok ukur yang objektif. Selain mendukung FrontierMath, OpenAI juga memiliki akses ke banyak soal dan solusi di dalamnya—informasi yang tidak dibagikan Epoch AI sebelum pengumuman o3.
Menanggapi postingan Meemi, Tamay Besiroglu, direktur asosiasi Epoch AI, mengklaim bahwa integritas FrontierMath tetap terjaga, tetapi mengakui bahwa pihaknya “melakukan kesalahan” dengan kurangnya transparansi.
“Kami tidak bisa mengungkapkan kemitraan ini sampai menjelang peluncuran o3, dan sekarang kami menyadari bahwa seharusnya kami bernegosiasi lebih keras untuk bisa menjelaskan kepada kontributor benchmark secepat mungkin,” kata Besiroglu. “Matematika kami berhak tahu siapa saja yang mungkin memiliki akses ke pekerjaan mereka. Meskipun kami dibatasi secara kontraktual, seharusnya transparansi kepada kontributor menjadi hal yang tidak bisa dinegosiasikan dalam kesepakatan kami dengan OpenAI.”
Besiroglu juga menyebutkan bahwa meskipun OpenAI memiliki akses ke FrontierMath, ada “kesepakatan lisan” antara mereka dan Epoch AI untuk tidak menggunakan set soal FrontierMath untuk melatih AI mereka. (Melatih AI dengan FrontierMath sama seperti mengajarkan mereka untuk lulus ujian.) Epoch AI juga memiliki “set pemisahan terpisah” yang berfungsi sebagai langkah tambahan untuk verifikasi independen hasil benchmark FrontierMath, kata Besiroglu.
“OpenAI sepenuhnya mendukung keputusan kami untuk menjaga set pemisahan yang terpisah dan tidak terlihat,” lanjutnya.
Namun, ada pernyataan yang sedikit membingungkan dari kepala matematikawan Epoch AI, Ellot Glazer, di Reddit, yang mengatakan bahwa Epoch AI belum bisa secara independen memverifikasi hasil FrontierMath yang diperoleh OpenAI dengan o3.
“Pendapat pribadi saya adalah bahwa skor [OpenAI] legit (maksudnya, mereka tidak melatih di dataset), dan mereka tidak memiliki insentif untuk berbohong tentang performa benchmarking internal,” kata Glazer. “Namun, kami tidak bisa menjamin mereka sampai evaluasi independen kami selesai.”
Kisah ini adalah contoh lain dari tantangan yang dihadapi dalam mengembangkan tolok ukur empiris untuk mengevaluasi AI—dan untuk mendapatkan sumber daya yang diperlukan tanpa menimbulkan kesan adanya konflik kepentingan.