Po oficiálním ohlášení chat GPT 4V a cca 14 dnech čekání jsme se konečně dočkali i v Česku a měl jsem možnost vyzkoušet nové funkce při praktickém použití.
Co nového chatGPT 4V (Vision) nabízí:
- Rozpoznávání a analýza obrázků
- Chatování pomocí hlasu
- Generování obrázků (DALL-E 3)
Analýza obrázků
Pozoruhodná funkce, která vám umožní identifkovat různé druhy obrázků, úloh, grafů, značek, cizích jazyků a mnoho dalších možností.
Sám jsem vyzkoušel několik různých možností.
Rozpoznání rostliny
Soška Kratose
Ruční poznámky ze školení
Chatování pomocí hlasu
Funguje pouze na mobilu.
Zkoušel jsem vézt krátkou konverzaci se zapnutým Custom instructions. Téma konverzace není důležité, spíše co mě zaujalo:
- Je potřeba mluvit dostatečně nahlas a spisovně. Pokud budete huhňat nebo mluvit slangem, tak váš jazyk vyhodnotí jinak a může vám pak odpovídat třeba rusky nebo polsky.
- Je lepší mluvit spíše v kratších sekvencích, nebo si občas konverzaci pozastavit. Pokud budete dělat příliš dlouhé pauzy, vyhodnotí to jako konec vaší promluvy a začne vám odpovídat (bez ohledu na dokončení vaší myšlenky).
- Hodí se to spíše na nějaká více teoretická témata. Chat GPT v této aplikaci nemá k dispozici internet, ani možnost analýzy. Vychází tedy pouze z naučených dat do cca leden 2022.
- Trochu mi tam chybí prvek reálné konverzace, kdy člověk pozná, že už může mluvit. Zde nefunguje skákání do řeči, ani nějaká plynulejší rychlá konverzace.
- Může to dobře fungovat u nějaké role. Například pokud si nastavíte v Custom Instructions, že chcete mluvit s nějakou historickou postavou, která je dostatečně známá a zdokumentovaná.
Generování obrázků
Vychází z nástroje DALL-E 3.
Logo pro pivovar
Nálepky bagrů
Omalovánky pro děti
Design na tričko
Porovnání s jinými generátory obrázků
Jak jsem slíbil v předchozím článku o DALL-E 3, tak přidávám porovnání DALL-E 2, Midjourney a DALL-E 3.
An expressive oil painting of a basketball player dunking, depicted as an explosion of a nebula
An armchair in the shape of an avocado
A 3D render of an astronaut walking in a green desert
3D render of a cute tropical fish in an aquarium on a dark blue background, digital art
Painting Zaporozhian Cossacks write a letter to the Turkish Sultan
Sami můžete vidět, jaké jsou rozdíly.
Můj komentář ohledně novinek
Analýza obrázků
Analýzu obrázků jsem zatím vyzkoušel jen krátce, ale přijde mi jako velmi přesná a nutí mě občas jen zírat. Také je to zatím bezkonkurenční nástroj, který nikdo jiný momentálně nenabízí (aktualizace: už nabízí).
Přepis ručně psaných poznámek a doplnění informací, vnímám jako velmi praktický a užitečný nástroj na mnoho různých věcí.
Hlasová konverzace
Obecně si myslím, že bude nutné zapracovat na tom, aby konverzace byla plynulejší.
Ale jinak je naprosto neuvěřitelné, že chat dokáže rozumět hlasu a ještě odpovídat perfektní češtinou (i když s přízvukem, ale to nevnímám jako slabinu). Blíží se doba, kdy taková konverzace bude nerozeznatelná od člověka.
Uplatnění vidím i v simultánním živém překladu, jinými slovy: budete si rozumět s kýmkoliv, bez ohledu na řeč a dialekt.
Generování obrázků
Kvalita obrázků je výrazně vyšší, než u DALL-E 2 i rozhraní je příjemnější (společně s chatem), než u Bingu.
Ale stále vidím násobně vyšší kvalitu u konkurenčního Midjourney. Pokud umíte používat prompty a příkazy u MJ budete mít výrazně lepší obrázky.
Výhodou je schopnost tvořit text přímo do obrázku. Bohužel to nefunguje vždy a často použije nějakou zkomoleninu.
Slibované příkazy na úpravu hotového obrázku bohužel nefungují (vygeneruje se podobný, ale již jiný obrázek). Stejně tak nefunguje přirozený jazyk, stále je to spíše v rovině dobrého promptu. Výhodou může být zadání v rodném jazyce, ale chatGPT si stejně text přeloží do angličtiny.
Vaše zpětná vazba
Jaká je vaše zkušenost s chat GPT 4-V? Napište mi do komentáře.
Jedna odpověď