Sesame, sebuah syarikat AI, baru saja melancarkan model asas yang menjadi pendorong kepada Maya, asisten suara yang sangat realistik.
Model ini berukuran 1 bilion parameter, yang merujuk kepada komponen individu dalam model tersebut. Dengan lesen Apache 2.0, model ini boleh digunakan untuk tujuan komersial dengan sedikit sekatan. Dikenali sebagai CSM-1B, model ini menghasilkan “RVQ audio codes” dari input teks dan audio, seperti yang dinyatakan oleh Sesame di platform pengembang AI, Hugging Face.
RVQ adalah singkatan untuk “residual vector quantization,” sebuah teknik yang digunakan untuk mengekod audio ke dalam token diskrit yang dikenali sebagai kod. Teknik ini digunakan dalam pelbagai teknologi audio AI terbaru, termasuk SoundStream dari Google dan Encodec daripada Meta.
CSM-1B menggunakan model dari keluarga Llama Meta sebagai asas yang dipadankan dengan komponen “decoder” audio. Menurut Sesame, terdapat varian yang telah disesuaikan dari CSM yang memacu Maya.
“Model yang dibuka sumber di sini ialah model generasi asas,” tulis Sesame di repositori CSM-1B di Hugging Face dan GitHub. “Ia mampu menghasilkan pelbagai suara, tetapi belum disesuaikan untuk mana-mana suara tertentu […] Model ini mempunyai sedikit kemampuan untuk bahasa bukan Inggeris akibat pencemaran data dalam data latihan, tetapi mungkin tidak berfungsi dengan baik.”
Namun, tidak jelas jenis data yang digunakan oleh Sesame untuk melatih CSM-1B kerana syarikat tersebut tidak mengumumkannya.
Menariknya, model ini tidak mempunyai banyak langkah keselamatan. Sesame hanya mengharapkan para pengembang dan pengguna untuk tidak menggunakannya bagi meniru suara seseorang tanpa kebenaran, mencipta kandungan mengelirukan seperti berita palsu, atau terlibat dalam aktiviti “berbahaya” atau “jahat.”
Saya mencuba demo di Hugging Face dan untuk meniru suara saya hanya mengambil masa kurang dari seminit. Dari situ, mudah untuk menghasilkan ucapan yang saya inginkan, termasuk untuk topik kontroversi seperti pilihan raya dan propaganda Rusia.
Consumer Reports baru-baru ini memberi amaran bahawa banyak alat penyalinan suara berkuasa AI yang popular di pasaran tidak mempunyai langkah keselamatan yang “bermakna” untuk mencegah penipuan atau penyalahgunaan.
Sesame, yang diasaskan oleh Brendan Iribe, salah seorang pencipta Oculus, menjadi tular pada akhir Februari kerana teknologi asisten suara mereka, yang hampir menembusi kawasan uncanny valley. Maya dan asisten lain dari Sesame, Miles, mampu mengambil nafas dan bercakap dengan disfluensi, serta boleh dipotong semasa bercakap, sama seperti Mod Suara dari OpenAI.
Sesame telah mengumpul dana yang tidak didedahkan daripada Andreessen Horowitz, Spark Capital, dan Matrix Partners. Selain membangunkan teknologi asisten suara, syarikat ini juga sedang mencipta prototaip cermin mata AI “direka untuk dipakai sepanjang hari” yang akan dilengkapi dengan model custom mereka.