PENGELOLA Microsoft Research Asia memperkenalkan perangkat kecerdasan buatan (artificial intelligence/AI) eksperimental bernama VASA-1 yang bisa mengambil foto atau gambar diam dan berkas audio yang ada untuk membuat semacam video.
Menurut siaran Engadget pada Sabtu (20/4), model AI tersebut dapat membuat video yang menampilkan orang sedang berbicara dengan memasukkan foto dan sampel suara.
VASA-1 dilaporkan memiliki kemampuan menghasilkan ekspresi wajah serta gerakan kepala dari foto orang serta gerakan bibir yang sesuai dengan audio percakapan atau lagu.
Para peneliti telah mengunggah banyak contoh pada halaman proyek, dan hasilnya terlihat bagus sehingga bisa membuat orang mengira bahwa mereka nyata.
Meskipun gerakan kepala dan bibir pada contoh-contoh masih tampak robotik dan tidak selaras jika diamati dari dekat, tetapi teknologi tersebut bisa dengan mudah disalahgunakan untuk membuat video palsu dari seseorang.
Para peneliti menyadari potensi bahaya tersebut dan memutuskan untuk tidak mengeluarkan “perangkat demo daring, API, produk, tambahan detail implementasi, dan hal terkait lain” sampai mereka yakin teknologi mereka “akan digunakan secara bertanggung jawab dan sesuai dengan regulasi.”
Tim pengembang percaya VASA-1 memiliki banyak manfaat meskipun berpotensi disalahgunakan.
Menurut mereka, teknologi tersebut dapat digunakan untuk meningkatkan ekuitas pendidikan, meningkatkan aksesibilitas bagi orang yang memiliki tantangan komunikasi, serta menghadirkan teman berbicara sekaligus pendukung terapi bagi yang membutuhkan.
Menurut publikasi ilmiah tentang teknologi tersebut, VASA-1 dilatih menggunakan VoxCeleb2 Dataset yang berisi lebih dari satu juta ucapan untuk 6.112 selebritas yang diambil dari video YouTube.
Walau dilatih menggunakan wajah tokoh asli, VASA-1 juga dapat bekerja pada gambar-gambar artistik seperti Mona Lisa, yang oleh para peneliti digabungkan dengan berkas audio aktris Anne Hathaway.
(nes)