Hai, semua! Selamat datang ke buletin AI mingguan TechCrunch. Jika anda mahu menerima buletin ini setiap hari Rabu, daftar di sini.
Minggu ini, data sintetik menjadi tumpuan dalam dunia AI.
Khamis lalu, OpenAI melancarkan Canvas, satu cara baharu untuk berinteraksi dengan ChatGPT, chatbot berkuasa AI mereka. Canvas menyediakan ruang kerja untuk menulis dan mengod, di mana pengguna boleh menghasilkan teks atau kod. Sekiranya perlu, mereka juga boleh menonjolkan bahagian tertentu untuk diedit dengan bantuan ChatGPT.
Dari sudut pandang pengguna, Canvas adalah satu peningkatan yang sangat berguna. Tapi yang paling menarik perhatian kami adalah model yang ditala khusus untuk fungsi ini. OpenAI menyatakan bahawa mereka mengubah suai model GPT-4o mereka menggunakan data sintetik untuk “membolehkan interaksi pengguna baharu” di Canvas.
“Kami menggunakan teknik penghasilan data sintetik yang baru, seperti mendistilkan output dari o1-preview OpenAI, untuk menyesuaikan GPT-4o bagi membuka canvas, melakukan suntingan tepat, dan meninggalkan komen berkualiti tinggi secara inline,” kata Nick Turley, ketua produk ChatGPT, dalam satu posting di X. “Pendekatan ini membolehkan kami memperbaiki model dengan cepat dan membolehkan interaksi pengguna baharu, semuanya tanpa bergantung pada data yang dihasilkan manusia.”
Namun, OpenAI bukan satu-satunya syarikat besar yang semakin bergantung kepada data sintetik untuk melatih model mereka. Meta, dalam penghasilan Movie Gen, satu set alat berkuasa AI untuk mencipta dan mengedit klip video, juga sebahagian besarnya bergantung pada kapsyen sintetik yang dihasilkan oleh Llama 3. Mereka menggaji pasukan penilai manusia untuk membetulkan kesilapan dan menambah maklumat tambahan, tetapi kerja teras dilakukan secara automatik.
Sam Altman, CEO OpenAI, berpendapat bahawa AI akan suatu hari nanti dapat menghasilkan data sintetik yang cukup baik untuk melatih dirinya sendiri dengan berkesan. Ini akan memudahkan syarikat-syarikat seperti OpenAI yang menghabiskan banyak wang untuk penilai manusia dan lesen data.
Meta juga telah mengubah suai model Llama 3 menggunakan data sintetik. Dan dilaporkan bahawa OpenAI juga melihat untuk mendapatkan data latihan sintetik dari o1 untuk model generasi berikutnya mereka yang dikenali sebagai Orion.
Namun, pendekatan yang berfokus pada data sintetik ini mempunyai risikonya. Seorang penyelidik baru-baru ini mengingatkan saya bahawa model yang digunakan untuk menghasilkan data sintetik cenderung membuat kesilapan (atau “hallucinate”) dan mempunyai bias serta batasan. Kekurangan ini akan terpapar dalam data yang dihasilkan oleh model.
Oleh itu, untuk menggunakan data sintetik dengan selamat, ia perlu dikurasi dan ditapis dengan teliti, sama seperti amalan standard dengan data yang dihasilkan manusia. Gagal berbuat demikian boleh menyebabkan model “runtuh”, di mana model itu menjadi kurang “kreatif” dan lebih berat sebelah dalam outputnya, yang akhirnya boleh menjejaskan fungsi asasnya.
Tugas ini bukanlah mudah, terutama di skala yang besar. Tetapi dengan data latihan dari dunia sebenar menjadi semakin mahal dan sukar diperoleh, vendor AI mungkin melihat data sintetik sebagai pilihan terbaik. Kita harap mereka berhati-hati dalam mengadopsi pendekatan ini.
Berita
Iklan di AI Overview: Google memberitahu bahawa mereka akan mula menunjukkan iklan dalam AI Overviews, ringkasan yang dihasilkan AI untuk carian tertentu.
Google Lens, kini dengan video: Lens, aplikasi pencarian visual Google, kini ditingkatkan untuk menjawab soalan tentang sekeliling anda secara hampir masa nyata. Anda boleh merakam video melalui Lens dan bertanya tentang objek dalam video tersebut. (Kemungkinan iklan akan hadir juga.)
Dari Sora ke DeepMind: Tim Brooks, salah seorang pemimpin penghasil video OpenAI, Sora, berpindah ke Google DeepMind. Brooks mengumumkan dalam satu posting di X bahawa dia akan bekerja pada teknologi penghasilan video dan “simulator dunia.”
Fluxing it up: Black Forest Labs, startup yang disokong Andreessen Horowitz yang mencipta komponen penghasilan imej untuk pembantu xAI, telah melancarkan API dalam beta — serta model baharu.
Tak begitu telus: Undang-undang AB-2013 yang baru diluluskan di California menghendaki syarikat yang membangunkan sistem generatif AI untuk menerbitkan ringkasan data yang mereka gunakan untuk melatih sistem. Namun, sehingga kini, sedikit syarikat yang bersedia untuk mengatakan sama ada mereka akan mematuhi. Undang-undang ini memberi mereka sehingga Januari 2026.
Kertas penyelidikan minggu ini
Peneliti Apple telah bekerja keras dalam fotografi komputasi selama bertahun-tahun, dan salah satu aspek penting dalam proses itu adalah pemetaan kedalaman. Sebelum ini, ini dilakukan dengan stereoscopy atau sensor kedalaman khusus seperti unit lidar, tetapi yang tersebut cenderung mahal dan mengambil ruang dalaman berharga. Melakukannya secara eksklusif dalam perangkat lunak adalah lebih baik dalam banyak hal. Kertas ini, Depth Pro, membahas hal itu.
Aleksei Bochkovskii dan pasukannya berkongsi satu kaedah untuk anggaran kedalaman monocular tanpa sebarang latihan sebelumnya, bermakna ia hanya menggunakan satu kamera, tidak perlu dilatih pada perkara tertentu (ia boleh berfungsi pada unta walaupun tidak pernah melihatnya), dan menangkap bahkan aspek yang sukar seperti bulu-bulu halus. Ini mungkin telah digunakan pada iPhone sekarang (walaupun mungkin versi yang ditambah baik dan disesuaikan), tetapi anda juga boleh mencuba dan mendapatkan sedikit anggaran kedalaman sendiri dengan menggunakan kod yang ada di halaman GitHub ini.
Model minggu ini
Google telah melancarkan model baharu dalam keluarga Gemini, iaitu Gemini 1.5 Flash-8B, yang mereka katakan adalah antara model yang paling berprestasi mereka.
Versi “distilled” dari Gemini 1.5 Flash ini, yang sudah dioptimumkan untuk kelajuan dan kecekapan, Gemini 1.5 Flash-8B, lebih murah 50% untuk digunakan, mempunyai latensi yang lebih rendah, dan datang dengan had kadar 2x lebih tinggi di AI Studio, persekitaran pemaju yang berfokus pada AI milik Google.
“Flash-8B hampir sepadan dengan prestasi model 1.5 Flash yang dilancarkan pada bulan Mei di banyak penanda aras,” tulis Google dalam satu posting blog. “Model kami [berterusan] dipandu oleh maklum balas pemaju dan ujian kami sendiri tentang apa yang mungkin.”
Gemini 1.5 Flash-8B sangat sesuai untuk perbualan, transkripsi, dan terjemahan, kata Google, serta tugas “ringkas” dan “bervolum tinggi.” Selain itu, model ini juga tersedia secara percuma melalui API Gemini milik Google, dengan had kadar 4,000 permintaan per minit.
Koleksi Pelbagai
Berbicara tentang AI yang murah, Anthropic telah melancarkan ciri baharu, Message Batches API, yang membolehkan pengembang memproses sejumlah besar pertanyaan model AI secara asinkron dengan kos yang lebih rendah.
Mirip dengan batching permintaan Google untuk API Gemini, pengembang menggunakan Message Batches API Anthropic boleh menghantar kumpulan hingga 10,000 pertanyaan setiap kumpulan. Setiap kumpulan akan diproses dalam tempoh 24 jam dan kosnya adalah 50% lebih murah daripada panggilan API biasa.
Anthropic menyatakan bahawa Message Batches API sangat berguna untuk tugas “skala besar” seperti analisis dataset, pengelasan dataset yang besar, dan penilaian model. “Sebagai contoh,” syarikat itu menulis dalam satu posting, “menganalisis repositori dokumen syarikat secara keseluruhan — yang mungkin melibatkan jutaan fail — menjadi lebih menjimatkan dengan memanfaatkan [diskaun] batching ini.”
Message Batches API kini dalam beta awam, disertakan dengan sokongan untuk Model Claude 3.5 Sonnet, Claude 3 Opus, dan Claude 3 Haiku dari Anthropic.