Setelah mengetahui saya memiliki waktu luang dijadwalkan di Konferensi Pengembang Game 2024, saya melirik salah satu tampilan digital yang menunjukkan acara hari itu. Salah satu pembicaraan di Summit Pembelajaran Mesin menarik perhatian saya: 'Kesatuan Pembelajaran Mesin: Sintesis Ucapan Fiktif untuk Menghindari Risiko dalam Konten Generatif.'
'Sintesis Ucapan Fiktif?' Itu keren. Setiap penggemar fantasi sejati pasti tahu seberapa besar pekerjaan yang dilakukan dalam bahasa fiksi seperti Elvish dalam The Lord of the Rings dan Klingon dalam Star Trek. Itu adalah proyek yang dipimpin oleh hasrat yang membuat worldbuilding menjadi luar biasa. Apakah Square Enix berharap menggunakan teknologi untuk menggunakan teknik linguistik ini secara efisien dalam banyak permainan fantasi mereka?
Jawabannya: tidak jelas. Peneliti AI Yusuke Mori tidak mengindikasikan apakah penelitiannya digunakan dalam produksi game yang aktif. Pembicaraan itu mirip dengan presentasi akademis yang mengeksplorasi riset dan metodologi yang mungkin digunakan untuk menggunakan teknologi, bukan pengembangan aktif.
Meskipun begitu, menangkap sebagian dari karyanya cukup menarik. Apa yang dia persembahkan tidak terlihat langsung berguna bagi seseorang yang berharap mengambil alih Game of Thrones, tetapi menyerupai versi yang lebih dipercantik dari Simlish dalam franchise The Sims atau berbagai gemuruh karakter dalam seri Animal Crossing.
Terkait: SAG-AFTRA mengatakan ketentuan perjanjian suara AI yang kontroversial akan mempengaruhi negosiasi masa depan
Di bawah ini adalah pembicaraan singkat tentang apa yang ditampilkan oleh Mori.
Square Enix's AI tool mendukung generasi bahasa dinamis dan statis
Mori memperlihatkan sepasang demo yang menjelaskan bagaimana teknologi tersebut bisa digunakan dalam lingkungan digital. Yang pertama menunjukkan bagaimana alat tersebut bisa digunakan untuk menerjemahkan baris pembukaan Moby Dick karya Herman Melville, yang kedua menampilkan bagaimana pemain mungkin menemui bahasa-bahasa ini dalam ruang 3D.
Pada demo pertama, kata-kata 'Namakan saya Ishmael. Beberapa tahun yang lalu—tidak peduli berapa lama secara persis—sedikit sekali uang di dompet saya, dan tidak ada yang istimewa untuk menarik minat saya di pantai, saya pikir saya akan berlayar sebentar dan melihat bagian berair dunia' diucapkan oleh alat teks-ke-suara AI—tetapi satu-satunya kata yang bisa Anda pilih adalah 'Ishmael.' Mori mengajak audiens untuk memikirkan bagaimana jika Moby Dick terdengar dalam dunia fantasi, dibacakan oleh seseorang yang berbicara dalam bahasa bukan dari planet Bumi. Kata benda khusus akan dipertahankan, sementara setiap kata lainnya akan secara alami sesuai dengan dunia game itu.
Dia menunjukkan tiga iterasi teks fantasi, masing-masing lebih sengaja mengasah kata-kata ke dalam sintaksis tertentu, untuk memastikan tidak terlihat 'acak.'
Pada demo berikutnya (dengan aset 3D yang sangat sederhana), seorang pemain mendekati satu NPC yang mengatakan 'Selamat datang di dunia baru. Sekarang kami berencana untuk membuat kota kami di sini.' Kemudian mereka mendekati dua NPC lain, yang berbicara dalam bahasa yang sama dalam percakapan yang saling berbalas (Mori tidak dapat membagikan secara tepat apa yang dikatakan).
Penjelasan selanjutnya dari Mori agak membingungkan. Dia menyiratkan bahwa jika kata-kata muncul dalam pola yang konsisten, pemain akan dapat menyimpulkan artinya dan akhirnya menerjemahkan seluruh bahasa dalam game. Dia mengusulkan sebaliknya, bahwa kata-kata begitu acak sehingga 'tidak ada jawaban yang benar' sehingga interpretasi teks setiap pemain akan valid.
Melalui teknologi ini, pengembang akan dapat menulis teks dalam bahasa asli mereka yang secara otomatis dikonversi ke bahasa fantasi.
Sebenarnya, itu tidak sepenuhnya benar. Mori menjelaskan bahwa beberapa bahasa lebih mudah dimasukkan dalam sistem ini daripada yang lain. 'Relatif mudah untuk mengonversi teks bahasa Jepang karena teks tersebut mencakup kanji, hiragana, dan katakana,' katanya. 'Ada masalah dengan bahasa yang ditulis dalam alfabet [Barat],' katanya.
Nampaknya teks yang ditulis dalam bahasa Inggris berfungsi dengan baik, tetapi teks bahasa Prancis dan Jerman tidak kompatibel dengan sistem dengan baik. Bagi telinga yang tidak terlatih, tidak mudah untuk membedakan apa masalah yang dijelaskan Mori tersebut.
Mori mengusulkan solusi yang sederhana: cukup menyalin bahasa dari satu bahasa nyata ke yang lain, kemudian memasukkannya ke dalam alat.
Sulit untuk menjelaskan bagaimana alat ini bekerja, karena didasarkan pada penelitian sebelumnya Mori tentang 'token' dalam generasi teks berbasis pembelajaran mesin.
Apa risiko dari teknologi ini?
Mori sangat tegas dalam membahas kerugian yang timbul dari penggunaan teknologi ini. 'Teks generik dapat mengandung konten berbahaya,' dia akui. Dia tidak menyebutkan apakah ini merujuk pada pesan kebencian yang mungkin muncul dari mulut NPC, atau apakah teknologi tersebut mungkin secara keliru mengeluarkan cacian jika diberi cukup waktu dan variabel yang tidak terkontrol.
Dia tampak khawatir bahwa meskipun bahasa fiksi bisa konsisten, mereka tidak akan menangkap sistem tata bahasa bagaimana bahasa alami berevolusi. Sejarah bahasa dan latar belakang budaya dunia tidak bisa dihasilkan dengan autentisitas yang sama seperti bahasa nyata.
Ada juga kemungkinan bahwa saat pemain mencoba menganalisis apa arti bahasa, mereka menafsirkannya hingga pada titik di mana mereka membuat asumsi yang salah tentang apa yang diinginkan pengembang dalam game.
'Cara penggunaannya sangat penting,' katanya.
Seberapa dapat diandalkan teknologi bahasa fiksi yang dihasilkan AI ini?
Ketika menjelaskan teknologi dengan peserta lain di sekitar GDC, saya secara teratur dihadapi dengan keluhan tentang aplikasinya. Salah seorang rekan saya menyatakan bahwa proses ini menghilangkan apa yang membuat bahasa seperti Elvish dan Klingon begitu hipnotis: keduanya dibuat oleh pakar linguistik yang dapat mensimulasikan beberapa karakteristik yang dikatakan Mori tidak dimiliki penciptaannya.
Ada elemen lain yang tidak nyaman yang menyangkut bagaimana pengisi suara berjuang untuk perlindungan terhadap penggantian kinerja vokal yang dihasilkan secara buatan.
Presentasi Mori tidak hanya tentang mengonversi teks dari bahasa lisan ke bahasa fiksi, tetapi tentang merangkai alat yang akan membuatnya memungkinkan bagi program teks-ke-suara untuk menciptakan kata-kata dan aturan pelafalan secara langsung.
Namun menginterpretasikan bagaimana Square Enix akan menggunakan teknologi ini memerlukan sedikit kesadaran diri. Ini pada dasarnya adalah alat untuk terjemahan buatan, dan terjemahan dari Jepang ke Inggris mungkin telah mempengaruhi bagaimana peserta GDC memahami presentasi Mori. Bahasa Inggris bukan bahasa pertamanya, dan nuansa tentang penggunaan teknologi mungkin telah hilang... ya, dalam terjemahan.
Pengembang pembelajaran mesin, insinyur audio, dan bahkan penulis seperti saya memiliki sesuatu untuk diperoleh dengan mempelajari kemajuan Square Enix dengan teknologi ini. Jika generasi prosedural tidak dapat mengatasi risiko yang dijelaskan oleh Mori, mungkin pendekatan manusia klasik ke generasi bahasa fiksi adalah yang akan membuat pengalaman yang jauh lebih baik.
Pengembang Game dan Konferensi Pengembang Game adalah organisasi bersaudara di bawah Informa Tech.