Sertai surat berita harian dan mingguan kami untuk mendapatkan kemas kini terkini dan kandungan eksklusif mengenai laporan AI terkemuka. Ketahui lebih lanjut.
Meta baru-baru ini membuat beberapa pengumuman penting berkaitan dengan robotik dan sistem AI yang diwujudkan. Mereka melancarkan beberapa penanda aras dan bahan untuk memahami serta berinteraksi dengan dunia fizikal. Tiga artefak penyelidikan – Sparsh, Digit 360, dan Digit Plexus – memfokuskan pada persepsi sentuhan, ketangkasan robot, dan interaksi manusia-robot. Selain itu, Meta juga memperkenalkan PARTNR, satu penanda aras untuk menilai perancangan dan pemikiran dalam kerjasama manusia-robot.
Keluaran ini hadir ketika kemajuan dalam model asas menghidupkan kembali minat dalam bidang robotik, dan syarikat AI semakin memperluas penglibatan mereka dari dunia digital ke dunia fizikal.
Terdapat harapan baru dalam industri bahawa dengan bantuan model asas seperti model bahasa besar (LLM) dan model bahasa-visual (VLM), robot akan mampu melaksanakan tugas yang lebih rumit yang memerlukan tahap perancangan dan pemikiran yang lebih tinggi.
Persepsi Sentuhan
Sparsh, yang dibangunkan dengan kerjasama Universiti Washington dan Universiti Carnegie Mellon, adalah satu set model pengenalan untuk pengesanan sentuhan berasaskan penglihatan. Ia direka untuk memberikan kemampuan persepsi sentuhan kepada robot, yang penting dalam menentukan tekanan yang boleh dikenakan pada objek untuk mengelakkan kerosakan.
Pendekatan klasik untuk memasukkan sensor sentuhan berasaskan penglihatan dalam tugas robot adalah dengan menggunakan data yang dilabel untuk melatih model khusus. Namun, pendekatan ini tidak berfungsi secara umum merentasi pelbagai sensor dan tugas.
Meta menggambarkan Sparsh sebagai model serba guna yang boleh digunakan untuk pelbagai jenis sensor sentuhan berasaskan penglihatan dan tugas. Untuk mengatasi cabaran yang dihadapi oleh model persepsi sentuhan yang lepas, penyelidik melatih model Sparsh melalui pembelajaran tanpa pengawasan, yang tidak memerlukan data berlabel. Model ini telah dilatih menggunakan lebih dari 460,000 gambar sentuhan dari pelbagai dataset. Dalam eksperimen, Sparsh menunjukkan peningkatan purata sebanyak 95.1% berbanding model spesifik tugas dan sensor di bawah belanjawan data berlabel yang terhad. Penyelidik juga mencipta pelbagai versi Sparsh berdasarkan pelbagai seni bina, termasuk model I-JEPA dan DINO keluaran Meta.
Sensor Sentuhan
Selain memanfaatkan data sedia ada, Meta turut melancarkan perkakasan untuk mengumpul maklumat sentuhan yang kaya dari dunia sebenar. Digit 360 adalah sensor sentuhan berbentuk jari buatan dengan lebih dari 18 fitur pengesanan. Sensor ini mempunyai lebih 8 juta taxel yang menangkap deformasi granular dan omnidirectional pada permukaan hujung jari. Digit 360 menangkap pelbagai mod sensing untuk memberikan pemahaman yang lebih baik tentang persekitaran dan interaksi objek.
Digit 360 juga dilengkapi dengan model AI di dalamnya untuk mengurangkan kebergantungan kepada pelayan awan. Ini membolehkan ia memproses maklumat secara tempatan dan bertindak balas terhadap sentuhan dengan latensi yang minimum, mirip dengan refleks manusia dan haiwan.
Penyelidik Meta percaya sensor inovatif ini berpotensi besar dalam pelbagai aplikasi dari bidang perubatan dan prostetik hingga realiti maya dan telepresence.
Meta juga akan mengeluarkan kod dan reka bentuk untuk Digit 360 bagi merangsang penyelidikan dan inovasi berasaskan komuniti dalam persepsi sentuhan. Sebagai tambahan kepada pelancaran model sumber terbuka, Meta mempunyai banyak untuk diuntungkan daripada potensi penggunaan perkakasan dan model ini. Menurut penyelidik, maklumat yang dikumpul oleh Digit 360 boleh membantu dalam pembangunan persekitaran maya yang lebih realistik, yang amat penting untuk projek metaverse Meta pada masa hadapan.
Seterusnya, Meta memperkenalkan Digit Plexus, sebuah platform perkakasan-perisian yang bertujuan untuk memudahkan pembangunan aplikasi robotik. Digit Plexus boleh menggabungkan pelbagai sensor sentuhan di hujung jari dan kulit pada satu tangan robot, menyandikan data sentuhan yang dikumpulkan dan menghantarnya ke komputer host melalui satu kabel. Meta juga melepaskan kod dan reka bentuk untuk Digit Plexus bagi membolehkan penyelidik membina platform ini dan meningkatkan penyelidikan mengenai ketangkasan robot.
Meta akan menghasilkan Digit 360 dengan kerjasama pengeluar sensor sentuhan, GelSight Inc. Mereka juga akan bekerjasama dengan syarikat robotik dari Korea Selatan, Wonik Robotics, untuk membangunkan tangan robot sepenuhnya dengan sensor sentuhan menggunakan platform Digit Plexus.
Menilai Kerjasama Manusia-Robot
Seterusnya, Meta memperkenalkan Planning And Reasoning Tasks in humaN-Robot collaboration (PARTNR), sebuah penanda aras untuk menilai keberkesanan model AI dalam kerjasama dengan manusia dalam tugas-tugas rumah tangga.
PARTNR dibangunkan berasaskan Habitat, persekitaran simulasi Meta. Ia merangkumi 100,000 tugas bahasa semula jadi dalam 60 rumah dan melibatkan lebih 5,800 objek unik. Penanda aras ini direka untuk menilai prestasi LLM dan VLM dalam mengikuti arahan dari manusia.
Penanda aras baru dari Meta ini menyertai pelbagai projek yang sedang meneroka penggunaan LLM dan VLM dalam robotik dan AI yang diwujudkan. Dalam setahun yang lalu, model-model ini menunjukkan janji besar untuk berfungsi sebagai modul perancangan dan pemikiran bagi robot dalam tugas-tugas kompleks. Beberapa syarikat seperti Figure dan Covariant telah membangunkan prototaip yang menggunakan model asas untuk perancangan. Di waktu yang sama, makmal AI sedang berusaha untuk mencipta model asas yang lebih baik untuk robotik. Contohnya, projek RT-X dari Google DeepMind yang menggabungkan dataset dari pelbagai robot untuk melatih model tindakan-bahasa-visual (VLA) yang boleh menggeneralasikan kepada pelbagai morfologi dan tugas robotik.