Aplikasi DALL-E OpenAI Menghasilkan Gambar Hanya Dari Deskripsi

OpenAI, perusahaan didirikan bersama oleh Elon Musk dan didukung oleh Microsoft, telah menguasai Dota 2 dan seni menulis berita palsu . Sekarang, telah mencapai tonggak sejarah lain dengan DALL-E (portmanteau dari "Wall-E" dan "Dali"), sebuah aplikasi AI yang dapat membuat gambar dari hampir semua deskripsi. Misalnya, jika Anda meminta "kucing dari sushi" atau "ilustrasi berkualitas tinggi dari chimera penyu jerapah," itu akan memberikan hal-hal itu, seringkali dengan kualitas yang sangat baik (dan terkadang tidak).

DALL-E dapat membuat gambar berdasarkan deskripsi atributnya, seperti "jam hijau pentagonal," atau "kumpulan gelas ada di atas meja." Dalam contoh terakhir, ini menempatkan minuman dan kacamata di atas meja dengan berbagai tingkat keberhasilan.

Itu juga dapat menggambar dan menggabungkan banyak objek dan memberikan sudut pandang yang berbeda, termasuk cutaway dan interior objek. Tidak seperti program teks-ke-gambar sebelumnya, program ini bahkan menyimpulkan detail yang tidak disebutkan dalam deskripsi tetapi diperlukan untuk gambar yang realistis. Misalnya, dengan deskripsi "lukisan rubah duduk di lapangan selama musim dingin," agen dapat menentukan bahwa bayangan diperlukan.

"Tidak seperti mesin rendering 3D, yang inputnya harus ditentukan dengan jelas dan detail lengkap, DALL · E sering kali dapat ‘ isi yang kosong saat teks menyiratkan bahwa gambar harus berisi detail tertentu yang tidak   dinyatakan secara eksplisit," menurut tim OpenAI.

 ' DALL-E ' AI menghasilkan gambar dari apa pun yang Anda gambarkan

OpenAI juga memanfaatkan kemampuan yang disebut "zero-shot reasoning." Hal ini memungkinkan agen untuk menghasilkan jawaban dari deskripsi dan isyarat tanpa pelatihan tambahan, dan telah digunakan untuk terjemahan dan tugas lainnya. Kali ini, para peneliti menerapkannya pada domain visual untuk melakukan terjemahan gambar-ke-gambar dan teks-ke-gambar. Dalam satu contoh, ia dapat menghasilkan gambar kucing dari sketsa, dengan isyarat "kucing yang sama persis di atas dengan sketsa di bawah."

Sistem ini memiliki banyak bakat lain, seperti memahami bagaimana telepon dan objek lain berubah dari waktu ke waktu, memahami fakta geografis dan landmark, serta membuat gambar dalam gaya fotografi, ilustrasi, dan bahkan clip-art.

Untuk saat ini, DALL-E sangat terbatas. Terkadang, itu memberikan apa yang Anda harapkan dari deskripsi dan di lain waktu Anda hanya mendapatkan beberapa gambar aneh atau jelek. Seperti sistem AI lainnya, bahkan para peneliti sendiri tidak memahami secara pasti bagaimana ia menghasilkan gambar tertentu karena sifat kotak hitam dari sistem tersebut.

Namun, jika dikembangkan lebih lanjut, DALL-E memiliki berpotensi mengganggu bidang seperti fotografi stok dan ilustrasi, dengan semua hal baik dan buruk yang diperlukan. "Di masa depan, kami berencana untuk menganalisis bagaimana model seperti DALL · E terkait dengan masalah sosial seperti dampak ekonomi pada proses kerja dan profesi tertentu, potensi bias dalam keluaran model, dan tantangan etika jangka panjang yang tersirat dengan teknologi ini," tulis tim.