Minggu yang penuh drama bagi OpenAI, dengan beberapa pegawai atasan berangkat dan perkembangan dana yang besar. Namun, startup ini tetap berusaha untuk menarik minat pembangun dalam membina alat dengan model AI mereka semasa DevDay 2024. Pada hari Selasa, syarikat ini mengumumkan beberapa alat baru, termasuk beta terbuka untuk “Realtime API” yang membolehkan penciptaan aplikasi dengan respons suara AI yang rendah latensi. Ia hampir mirip dengan Mod Suara Lanjutan ChatGPT, tetapi tidak sepenuhnya sama.
Dalam taklimat dengan wartawan sebelum acara, pegawai produk utama OpenAI, Kevin Weil, menyatakan bahawa kepergian Ketua Teknologi, Mira Murati dan Ketua Penyelidikan, Bob McGrew, tidak akan menjejaskan kemajuan syarikat.
“Bob dan Mira adalah pemimpin yang hebat. Saya banyak belajar dari mereka dan mereka merupakan sebahagian besar dari pencapaian kami hari ini,” kata Weil. “Kami juga tidak akan memperlambatkan usaha kami.”
Semasa OpenAI menjalani perubahan pimpinan lagi – mengingatkan pada kekacauan selepas DevDay tahun lalu – syarikat ini berusaha meyakinkan pembangun bahawa mereka masih menawarkan platform terbaik untuk membina aplikasi AI. Pihak pengurusan mengklaim lebih dari 3 juta pembangun menggunakan model AI mereka, tetapi persaingan makin sengit.
OpenAI menyatakan mereka telah mengurangkan kos akses kepada API mereka sebanyak 99% dalam dua tahun terakhir, kemungkinan disebabkan oleh pesaing seperti Meta dan Google yang terus menurunkan harga.
Salah satu fitur baru OpenAI, yang dipanggil Realtime API, membolehkan pembangun mencipta pengalaman suara-ke-suara hampir nyata dalam aplikasi mereka, dengan pilihan enam suara yang disediakan oleh OpenAI. Suara ini berbeza daripada yang ditawarkan untuk ChatGPT, dan pembangun tidak boleh menggunakan suara pihak ketiga untuk mengelakkan isu hak cipta. (Suara yang mirip dengan Scarlett Johansson tidak tersedia di mana-mana.)
Dalam taklimat tersebut, ketua pengalaman pembangun OpenAI, Romain Huet, menunjukkan demo aplikasi merancang trip yang dibina dengan Realtime API. Aplikasi ini membolehkan pengguna bercakap dengan pembantu AI tentang trip ke London dan mendapatkan respons dengan latensi rendah. Realtime API juga mempunyai akses kepada beberapa alat, membolehkan aplikasi tersebut menandakan peta dengan lokasi restoran sambil memberi jawapan.
Pada satu ketika, Huet menunjukkan bagaimana Realtime API dapat bercakap di telepon dengan manusia untuk menanyakan pesanan makanan untuk acara. Berbeza dengan Google Duo, API OpenAI tidak dapat menghubungi restoran atau kedai secara langsung; namun, ia boleh digabungkan dengan API panggilan seperti Twilio untuk melakukan itu. Dengan catatan, OpenAI tidak menambah pengumuman agar model AI mereka secara automatik mengenali diri mereka pada panggilan seperti itu, walaupun suara yang dihasilkan AI ini terdengar sangat nyata. Buat masa ini, nampaknya tanggungjawab untuk menambah pengumuman ini adalah di tangan pembangun, yang mungkin diwajibkan oleh undang-undang baru di California.
Sebagai sebahagian dari pengumuman DevDay, OpenAI juga memperkenalkan penalaan halus visi dalam API mereka, yang membolehkan pembangun menggunakan gambar serta teks untuk meningkatkan aplikasi GPT-4o mereka. Ini seharusnya, secara teori, membantu pembangun memperbaiki prestasi GPT-4o untuk tugas yang melibatkan pemahaman visual. Olivier Godement, ketua produk API OpenAI, memberitahu TechCrunch bahawa pembangun tidak boleh memuat naik imej yang mempunyai hak cipta (seperti gambar Donald Duck), imej yang menggambarkan keganasan, atau imej lain yang melanggar dasar keselamatan OpenAI.
OpenAI berlumba untuk menandingi tawaran pesaing dalam ruang pemberian lesen model AI. Ciri caching permintaan mereka mirip dengan apa yang dilancarkan oleh Anthropic beberapa bulan lalu, membolehkan pembangun menyimpan konteks yang sering digunakan antara panggilan API, mengurangkan kos dan meningkatkan latensi. OpenAI menyatakan pembangun boleh menjimatkan 50% menggunakan ciri ini, sementara Anthropic menjanjikan diskaun 90%.
Akhir sekali, OpenAI menawarkan ciri penyulingan model yang membolehkan pembangun menggunakan model AI yang lebih besar, seperti o1-preview dan GPT-4o, untuk meningkatkan model yang lebih kecil seperti GPT-4o mini. Menggunakan model yang lebih kecil umumnya menjimatkan kos berbanding menggunakan model yang lebih besar, tetapi ciri ini harus membolehkan pembangun meningkatkan prestasi model AI kecil tersebut. Sebagai sebahagian dari penyulingan model, OpenAI melancarkan alat penilaian beta supaya pembangun dapat mengukur prestasi penalaan mereka dalam API OpenAI.
DevDay mungkin lebih dikenang dengan apa yang tidak diumumkan – sebagai contoh, tidak ada berita mengenai GPT Store yang diumumkan pada DevDay tahun lalu. Setahu kami, OpenAI sedang menjalankan program perkongsian hasil dengan beberapa pencipta GPT yang paling popular, tetapi syarikat tidak banyak mengumumkan sejak itu.
Selain itu, OpenAI menyatakan tidak akan melancarkan sebarang model AI baru selama DevDay tahun ini. Pembangun yang menanti OpenAI o1 (bukan versi preview atau mini) atau model penghasilan video mereka, Sora, terpaksa menunggu sedikit lebih lama.