OpenAI Rilis Point-E, mirip DALL-E Tapi Untuk 3D Modelling

OpenAI merupakan sebuah Startup kecerdasan buatan (AI) yang didirikan oleh Elon Musk, OpenAI pada hari Selasa 20 Desember 2022 telah meluncurkan teknologi terbarunya untuk membuat gambar yang diberi nama POINT-E, yang dapat menciptakan 3D Modelling langsung dari perintah teks. Sementara sistem AI yang ada saat ini seperti DreamFusion punya Google membutuhkan beberapa jam proses dengan jumlah GPU yang banyak untuk menghasilkan gambar tersebut, akan tetapi Point-E hanya membutuhkan satu GPU dengan proses kerja yang singkat satu atau dua menit. Sebelumnya sudah ada juga generator teks-ke-gambar namanya DALL-E yang sudah lebih dulu populer tetapi POINT-E menawarkan sesuatu yang berbeda akan kemampuanya mengolah tulisan menjadi 3D Modelling. Dibawah ini adalah hasil generate 3D Modelling dari POINT-E

Hasil dari POINT-E

Daftar Isi Artikel

Teknologi 3D Modeling Basis AI

3D modeling telah diterapkan di berbagai macam industri dan aplikasi. Seperti yang sudah di terapkan pada Efek CGI pada film blockbuster modern, video game, VR dan AR, misi pemetaan kawah bulan NASA, proyek pelestarian situs warisan Google, dan visi Meta untuk Metaverse semuanya bergantung pada kemampuan 3D modeling. Namun, membuat gambar 3D yang fotorealistik masih merupakan proses yang memakan sumber daya juga waktu, meskipun NVIDIA telah melakukan upaya untuk mengotomatisasi pembuatan objek dan aplikasi mobile bernama RealityCapture milik Epic Game, yang memungkinkan bagi siapa saja yang memiliki smartphone dengan sistem operasi iOS untuk memindai objek dunia nyata menjadi bentuk 3D.

Teknologi AI Teks-ke-Gambar seperti DALL-E 2 dan Craiyon dari OpenAI, DeepAI, Prisma Lab’s Lensa, atau HuggingFace’s Stable Diffusion, dengan cepat mendapatkan perhatian, pengakuan, dan popularitas dalam beberapa tahun terakhir ini. Konsep Teks-ke-3D adalah sebuah terobosan baru dari teknologi tersebut. Point-E, berbeda dengan sistem yang sebelumnya, “Memanfaatkan korpus besar dari rangkaian (teks dan gambar), sehingga dapat memenuhi permintaan yang beragam dan kompleks, sementara model gambar-ke-3D kami dilatih pada kumpulan data yang lebih kecil dari rangkaian (gambar, 3D),” tim peneliti OpenAI yang dipimpin oleh Alex Nichol menulis dalam Point-E: Sebuah Sistem untuk Menghasilkan 3D Point Clouds dari Prompt yang Kompleks, diterbitkan pada minggu lalu. “Untuk menghasilkan objek 3D dari prompt teks, pertama-tama kami mengambil sampel gambar menggunakan model teks-ke-gambar, kemudian mengambil sampel objek 3D yang dikondisikan pada gambar sampel. Kedua langkah ini bisa dilakukan dalam beberapa detik, dan tidak memerlukan biaya mahal untuk prosedur pengoptimalan.”

Point-E 3D Modeling

Cara Kerja Point-E Menghasilkan Gambar 3D

Jika Anda memasukkan prompt teks, katakanlah, “Seekor kucing yang sedang makan Daging,” Point-E pertama-tama akan menghasilkan tampilan sintetis rendering 3D dari kucing pemakan burrito tersebut. Kemudian, Point-E akan menjalankan gambar yang dihasilkan melalui serangkaian model difusi untuk membuat 3D, RGB point cloud dari gambar awal – pertama-tama menghasilkan model cloud dengan 1.024 titik yang kasar, hingga 4.096 titik yang lebih halus. “Dalam praktiknya, kami mengasumsikan bahwa gambar berisi informasi yang relevan dari teks, dan tidak secara eksplisit mengkondisikan cloud poin berdasarkan teks,” ungkap tim peneliti.

Model difusi ini masing-masing telah dilatih menggunakan “jutaan” model 3d, semuanya dikonversi ke dalam format standar. “Meskipun metode ini memiliki performa yang lebih buruk jika dibandingkan metode yang sudah ada sebelumnya,” tim peneliti mengakui, “Metode ini menghasilkan beberapa sampel dengan waktu yang lebih singkat.” Jika Anda ingin mencobanya sendiri, OpenAI telah memposting kode open-source proyek di Github.

Penutup

AI (Artificial Intelligence) Teks-ke-Gambar adalah teknologi yang memungkinkan komputer untuk menghasilkan gambar dari teks yang diberikan. Hal ini dapat dilakukan dengan menggunakan algoritma machine learning yang telah diberi training dengan dataset gambar dan teks yang terkait. Setelah dilatih, algoritma tersebut dapat menerjemahkan teks menjadi gambar yang sesuai dengan maksudnya. Dengan hadirnya teknologi AI Point-E tentu menambahkan sebuat feature baru dari sistem Teks-ke-Gambar yang sudah ada selama ini dengan fitur 3d Modelingnya. Selain itu, AI Teks-ke-Gambar masih belum dapat menghasilkan gambar dengan kualitas yang setara dengan gambar yang dibuat oleh manusia. Namun, dengan terus berkembangnya teknologi ini, diharapkan AI text-to-image akan semakin diperbaiki dan dapat menghasilkan gambar yang lebih baik di masa mendatang.