ChatGPT – Vidí, slyší a mluví: Velká aktualizace

Nová aktualizace chatGPT je opravdu smysluplná 🙂 OpenAI na svém webu oznámil, že chatGPT bude nově mít schopnost identifikovat zaslané obrázky, slyšet váš hlas a sám bude mít schopnost odpovídat jedním z několika hlasů namluvených pomocí profesionálních herců.

Je to neuvěřitelné, ale tento týden na nás technologické firmy chrlí jednu novinku za druhou a každá z nich je natolik revoluční a převratná, že si ani neumíme představit, jaký to bude mít dopad na naše životy.

Google přišel s aktualizací Bard, kde můžete pomocí chatbota hledat letenky, hotely, prohledávat Google drive, sumarizovat YouTube nebo odpovídat na Gmailu.

OpenAI oznámil nový generátor obrázků DALL-3, který už umí i texty ve vizuálech.

Microsoft představil svého multifunkčního Copilota Windows a Copilota 365.

A nyní se dozvídáme, že OpenAI ještě čekalo s další velkou novinkou, což je rozpoznávání hlasů a interakce s obrázky přímo v chatGPT.

Možnost použití hlasu není nová

Funkci hlasu už bylo možné používat díky rozšíření v Google Chrome, ale předpokládám, že nová verze přímo zabudovaná do chatGPT bude mít lepší funkci rozpoznávání hlasu.

Posledně jsem totiž musel mluvící plugin vypnout, protože se vlastně jednalo o přepis hlasu na text a pokud jste nemluvili dost rychle chatGPT mezi tím už začal odpovídat na vaši nedokončenou otázku.

Naopak, chatGPT odpovídal pomaleji, než byla moje schopnost přečíst si napsanou odpověď v textu 🙂

Nová hlasová funkce bude zatím jen v angličtině, ale konverzace by snad měla probíhat dle ukázek plynuleji.

Co nabízí aktualizace

OpenAI zavádí nové hlasové a obrazové funkce do ChatGPT, které umožňují uživatelům vést hlasové konverzace a ukázat ChatGPT, o čem mluví. Uživatelé budou moci pomocí těchto funkcí interagovat s ChatGPT různými způsoby, například ukázat fotografie a diskutovat o nich.

Nové funkce budou zpočátku dostupné pro uživatele Plus a Enterprise. Technologie za těmito funkcemi zahrnuje pokročilé modely převodu textu na řeč a multimodální GPT modely pro pochopení obrazu.

OpenAI je si vědoma potenciálních rizik a pracuje na zabezpečení a zodpovědném používání těchto funkcí. Přístup k novým funkcím se postupně rozšíří na další skupiny uživatelů.

Aktualizace by měla být přístupná do 14 dnů v angličtině.

Hlasové funkce

Recept

„Today, we’re going to make the perfect iced latte.
Start by brewing a strong shot of espresso—or two if you’re feeling it.
Let it cool down a bit, then pour it over a glass filled with ice.
Add your choice of milk—be it almond, oat, or classic cow’s milk—and give it a good stir.
For an extra touch of sweetness, add a splash of vanilla syrup or a dash of cinnamon on top.
Sit back, sip, and let those caffeine vibes roll in. Cheers!“

Proslov

„Growing up with my sister, she had this touch that made regular days feel special. She’d pick a color each day, doodling moments in that hue, and would craft playlists to capture the essence of our week. So, to my new brother-in-law: with her, life won’t just be lived—every day will be turned into a gallery of beautiful memories. Cheers to the exhibit of moments you’ll craft together.„

Rozpoznávání obrázků

V nové funkci bude možné vyfotit fotku, poslat jí do chatu a komunikovat o daném obrázku.

Časté dotazy

Jak mohu začít používat hlasové a obrazové funkce?
- Uživatelé se mohou přihlásit k hlasovým konverzacím v mobilní aplikaci a využívat obrazové funkce na všech platformách.
Kdo má přístup k novým hlasovým a obrazovým funkcím?
- Zpočátku budou mít přístup uživatelé Plus a Enterprise, později se přístup rozšíří na další skupiny, včetně vývojářů.
Jaké technologie jsou použity pro hlasové a obrazové funkce?
- Používá se nový model převodu textu na řeč a multimodální GPT modely pro pochopení a analýzu obrazu.
Jaké bezpečnostní opatření jsou přijata pro ochranu uživatelů a zabránění zneužití?
- OpenAI implementovala různé bezpečnostní opatření a pracuje na dalších zlepšeních, aby zajistila zodpovědné používání a ochranu soukromí.
Budou nové funkce dostupné v jiných jazycích než angličtině?
- Model je schopen zpracovat anglický text, ale může mít problémy s jazyky, které používají jiné než latinské písmo.

Shrnutí výzkumu nového modelu GPT

GPT-4V je nejnovější verze velkého jazykového modelu od společnosti OpenAI, která přidává schopnost zpracovávat obrazové vstupy od uživatelů. Model prošel fází testování a přípravy před širším zpřístupněním, aby bylo zajištěno jeho bezpečné nasazení.

Hlavní body:

GPT-4V kombinuje textové a obrazové vstupy, což přináší nové možnosti i rizika. OpenAI se zaměřila na hodnocení a zmírnění rizik souvisejících s obrázky lidí.
Model prošel kvalitativním i kvantitativním testováním včetně externího testování od expertů. Byly hodnoceny schopnosti i omezení v oblastech jako je vědecká způsobilost, lékařské rady, stereotypy, dezinformace, nenávistný obsah a vizuální zranitelnost.
Byly implementovány mitigační opatření na úrovni modelu i systému, včetně doplňkového tréninkového datasetu pro vynucování odmítnutí nežádoucích dotazů.
Další práce se zaměří na vylepšení rozpoznávání lidí na obrázcích, rozšíření do dalších jazyků a zapojení veřejnosti do diskuze o tom, jak by se AI systémy měly chovat.
OpenAI bude pokračovat v iterativním nasazení modelu a vylepšování jeho bezpečnosti na základě zkušeností z reálného používání.