DALL-E 3: Co všechno umí, novinky

Organizace OpenAI oznámila třetí verzi DALL-E 3 svého generativního GPT modelu na tvorbu obrázků. Nová verze umožňuje uživatelům používat textové příkazy pomocí nástroje chatGPT. Nově bude lépe chápat kontext a měla by zahrnout veškeré textové instrukce.

Co je DALL-E

DALL·E je nástroj vyvinutý společností OpenAI založený na architektuře GPT-3, ale je speciálně navržený pro generování obrázků. Zatímco GPT-3 je primárně určený pro práci s textem, DALL·E je navržený tak, aby mohl generovat vizuální obsah na základě textových popisů.

Zde je několik klíčových vlastností a schopností DALL·E:

Generování obrázků z textových popisů: Můžete zadat textový popis, například „dvouhlavý papoušek“, a DALL·E vygeneruje obrázek, který odpovídá tomuto popisu.
Vysoká kreativita a flexibilita: DALL·E může generovat obrázky, které jsou často kreativní a někdy i bizarní, což ukazuje, jak hluboké a flexibilní je jeho porozumění textovým popisům.
Detailní a kvalitní obrázky: Obrázky generované DALL·E mají často vysokou úroveň detailů a jsou vizuálně přesvědčivé.
Schopnost kombinovat koncepty: DALL·E může kombinovat různé koncepty do jednoho obrázku. Například pokud zadáte „skleněný tygr na modré louce“, DALL·E se pokusí vygenerovat obrázek, který kombinuje všechny tyto prvky.
Experimentální aplikace: Ačkoli DALL·E byl původně prezentován jako experimentální projekt, ukázal potenciál pro různé aplikace, včetně designu, umění, hraní her a mnoho dalších.

Je důležité si uvědomit, že ačkoli DALL·E je schopen generovat mnoho jedinečných a kreativních obrázků, nemusí vždy perfektně interpretovat nebo realizovat každý textový popis.

Jako všechny modely založené na strojovém učení má i DALL·E své limity a může někdy produkovat neočekávané nebo nepřesné výsledky.

Moje vlastní zkušenost s DALL-E

Původní model jsem zkoušel jen párkrát a to z několika jednoduchých důvodů:

DALL-E ani zdaleka nedosahoval takové úrovně jako Midjourney.
Měl často problém pochopit zadání a kontext.
Rozsah možností a stylů byl velmi omezený.

Co nabízí DALL-E 3

Nové funkce DALL-E 3

Přímé propojení s nástrojem chat GPT.
Snadnější tvorba zadání (nebude nutný prompt engineering).
Možnost dodatečné úpravy obrázku s pomocí textové výzvy.
Možnost tvorby textů v obrázku.
Přístupný pro platící uživatele, firmy a vývojáře od října 2023.
Obrázky budou vaše a nepotřebujete žádné další povolení.
Zaměření na bezpečnost (blokace násilného či sexuálního obsahu).
Zamezení tvorby a odmítnutí žádostí o tvorbu veřejných osob v negativním kontextu.
Odmítnutí tvorby současných žijících umělců.

Ukázky tvorby DALL-E 3

Konkrétní příklady ze svojí praxe přidám hned, jakmile bude nový model přístupný + přidám i nějaké zhodnocení a porovnání s Midjourney.

Porovnání DALL-E a Mindjourney

Pro porovnání jsem použil již zveřejněné výstupy a prompty, které jsou k dispozici na internetu. Samotná verze DALL-E 3 byla měla být k dispozici začátkem října 2023.