Organizace OpenAI oznámila třetí verzi DALL-E 3 svého generativního GPT modelu na tvorbu obrázků. Nová verze umožňuje uživatelům používat textové příkazy pomocí nástroje chatGPT. Nově bude lépe chápat kontext a měla by zahrnout veškeré textové instrukce.
Co je DALL-E
DALL·E je nástroj vyvinutý společností OpenAI založený na architektuře GPT-3, ale je speciálně navržený pro generování obrázků. Zatímco GPT-3 je primárně určený pro práci s textem, DALL·E je navržený tak, aby mohl generovat vizuální obsah na základě textových popisů.
Zde je několik klíčových vlastností a schopností DALL·E:
- Generování obrázků z textových popisů: Můžete zadat textový popis, například „dvouhlavý papoušek“, a DALL·E vygeneruje obrázek, který odpovídá tomuto popisu.
- Vysoká kreativita a flexibilita: DALL·E může generovat obrázky, které jsou často kreativní a někdy i bizarní, což ukazuje, jak hluboké a flexibilní je jeho porozumění textovým popisům.
- Detailní a kvalitní obrázky: Obrázky generované DALL·E mají často vysokou úroveň detailů a jsou vizuálně přesvědčivé.
- Schopnost kombinovat koncepty: DALL·E může kombinovat různé koncepty do jednoho obrázku. Například pokud zadáte „skleněný tygr na modré louce“, DALL·E se pokusí vygenerovat obrázek, který kombinuje všechny tyto prvky.
- Experimentální aplikace: Ačkoli DALL·E byl původně prezentován jako experimentální projekt, ukázal potenciál pro různé aplikace, včetně designu, umění, hraní her a mnoho dalších.
Je důležité si uvědomit, že ačkoli DALL·E je schopen generovat mnoho jedinečných a kreativních obrázků, nemusí vždy perfektně interpretovat nebo realizovat každý textový popis.
Jako všechny modely založené na strojovém učení má i DALL·E své limity a může někdy produkovat neočekávané nebo nepřesné výsledky.
Moje vlastní zkušenost s DALL-E
Původní model jsem zkoušel jen párkrát a to z několika jednoduchých důvodů:
- DALL-E ani zdaleka nedosahoval takové úrovně jako Midjourney.
- Měl často problém pochopit zadání a kontext.
- Rozsah možností a stylů byl velmi omezený.
Co nabízí DALL-E 3
Nové funkce DALL-E 3
- Přímé propojení s nástrojem chat GPT.
- Snadnější tvorba zadání (nebude nutný prompt engineering).
- Možnost dodatečné úpravy obrázku s pomocí textové výzvy.
- Možnost tvorby textů v obrázku.
- Přístupný pro platící uživatele, firmy a vývojáře od října 2023.
- Obrázky budou vaše a nepotřebujete žádné další povolení.
- Zaměření na bezpečnost (blokace násilného či sexuálního obsahu).
- Zamezení tvorby a odmítnutí žádostí o tvorbu veřejných osob v negativním kontextu.
- Odmítnutí tvorby současných žijících umělců.
Ukázky tvorby DALL-E 3





Konkrétní příklady ze svojí praxe přidám hned, jakmile bude nový model přístupný + přidám i nějaké zhodnocení a porovnání s Midjourney.
Porovnání DALL-E a Mindjourney
Pro porovnání jsem použil již zveřejněné výstupy a prompty, které jsou k dispozici na internetu. Samotná verze DALL-E 3 byla měla být k dispozici začátkem října 2023.
Porovnání DALL-E 2 a Midjourney
An expressive oil painting of a basketball player dunking, depicted as an explosion of a nebula


An armchair in the shape of an avocado


A 3D render of an astronaut walking in a green desert


3D render of a cute tropical fish in an aquarium on a dark blue background, digital art


Zkusme něco trochu složitějšího.
Známý obraz: Zaporozhian Cossacks writing a letter to the Turkish Sultan
Originál zde:

Painting Zaporozhian Cossacks write a letter to the Turkish Sultan
A zde porovnání DALL-E 2 a Midjourney:


Když jsem přidal konkrétní fotku, tak Midjourney vygeneroval následující obrázky.

Sami můžete vidět, že rozdíly jsou veliké. Brzo přidám i výstupy z DALL-E 3.
Vaše zpětná vazba
Jaká je vaše zkušenost s DALL-E nebo Midjourney?
Napište mi do komentáře.