V tomto návodu vám ukážu, jak se pomocí openAI asistenta dotazovat na své pdf dokumenty. Můžete tak interpretovat technické dokumenty, vědecké zprávy, nebo rozsáhlá textová data.
Tento kód budeme spouštět pomocí platformy Google Colab.
Návod
Nejprve si nainstalujeme potřebné knihovny.
!pip install openai cohere tiktoken
Nastavíme klíč od OpenAI do proměnného prostředí.
os.environ[„OPENAI_API_KEY“] = „Váš klíč“
V následujícím kódu uděláme:
- Importujeme knihovny.
- Definujeme třídu PDFAssistant
- Získáváme API klíč OpenAI z proměnných prostředí.
- nahrajeme soubor a vytvoříme asistenta.
- Inicializujeme PDFAssistanta.
- Získáváme odpovědi na dotaz.
Nahrajeme pdf dokument do prostředí Google Colab. Jako příklad jsem použil jednu studii ohledně LLM: RoleEval: Srovnávací hodnocení dvojjazyčných rolí pro velké jazykové modely.
Kód
Odpověď GPT:
Studie vyvíjí „RoleEval“, benchmark určený k hodnocení, jak dobře jsou znalosti o rolích zapamatovány, využívány a zpracovávány. K tomu shromažďuje rozmanitou sbírku postav a formuluje otázky zaměřené na systematické hodnocení různých základních aspektů znalostí rolí. RoleEval pochází ze sbírek postav z různých komplexních a specializovaných online encyklopedií, jako jsou Wikipedia, Baidu Baike, Fandom a Moegirlpedia, a nabízí bohatý přehled informací v různých kategoriích, mezi které patří celebrity, anime a komiksy, filmové a televizní série, hry a fikce【12†source】. Cílem benchmarku je primárně hodnotit faktické znalosti a posoudit porozumění a interpretaci modelů různým charakterovým rolím a kontextům. Kromě základních znalostí, které jsou přímo uvedeny v encyklopediích, jsou navrženy také otázky na více úrovní, které zkoumají schopnost dynamicky kombinovat a uvažovat s existujícím znalostním základem. RoleEval se skládá z více než 6 000 otázek ve formě víceúčelových výběrů se čtyřmi možnostmi pro každou otázku, a to na základě 300 postav získaných z online encyklopedií【9†source】. Pro zajištění kvality a efektivnosti navrhuje studie také hybridní proces kontroly kvality, který kombinuje automatickou a lidskou verifikaci, aby zajistil vhodnou obtížnost a schopnost diskriminace otázek【10†source】. Výzkum je podpořen nedávnými pokroky v oblasti velkých jazykových modelů (LLMs), kde byla vyvinuta řada benchmarků hodnotících faktické znalosti modelů, což je klíčové pro potlačení halucinací a prospěšné pro vývoj sladěných LLMs【11†source】. Hlavní závěry studie jsou tedy následující: RoleEval je podrobný nástroj určený pro hodnocení znalostí o rolích využívaných v jazykových modelech, spojuje automatizovanou i manuální kontrolu kvality, využívá data z různých encyklopedií a je zaměřen na širokou škálu postav a scénářů z reálného i fiktivního světa pro komplexní vyhodnocení různých aspektů znalostí rolí v případě charakterů a osobností.
Konverzace
Následně můžeme pokládat další otázky, které nás zajímají.
Odpověď:
Hlavní závěry studie zahrnují následující body: 1. **Celkový výkon**: Tabulka 3 a 4 ukazují výsledky experimentů s několika výstřely. GPT-4 zaznamenal lepší výsledky ve srovnání s předchozími verzemi pro RoleEval-Global, což se přičítá aktualizovanějším informacím obsaženým v nejnovější verzi (gpt-4-1106) a které zvyšují výkon v oblastech s rychle se vyvíjejícími informacemi. Přesto celková přesnost ukazuje, že i pro špičkové jazykové modely (LLMs) je stále velký prostor pro zlepšení. Některé čínské modely, jako například Qwen-72B a Yi-34B, vykazovaly lepší výsledky než GPT-4 v čínské sadě dat RoleEval-Chinese (zh), což je pravděpodobně způsobeno vyšším podílem čínských tréninkových korpusů a bohatými diskuzemi o těchto modelech na čínských online platformách. V oblasti anime a her si GPT-4 udržuje náskok, což naznačuje význam vyvážených tréninkových dat a hodnocení znalostí rolí v různých jazycích a kulturních prostředích【11†source】. 2. **Rozdíly v jazycích datových sad**: Výkon GPT-4 a 3.5 se výrazně zlepšil na anglické sadě dat RoleEval (en) ve srovnání s čínskou sadou (zh), přestože tyto dvě části datových sad mají identický sémantický obsah. Tento trend byl také patrný u modelů výrazně zaměřených na angličtinu, zejména u modelů s malým množstvím tréninkových dat v čínštině, jako jsou LLaMA Mistral a Falcon, což naznačuje, že ani nejsilnější modely LLM zatím efektivně nezvládají přenos vědomostí napříč jazyky【12†source】. 3. **Srovnávací analýza open-source modelů**: LLaMA2-70B se ukázal jako nejlepší open-source model primárně trénovaný v angličtině, blízko GPT-3.5. Čínské modely Qwen-72B a Yi-34B nejenže překonaly GPT-3.5, ale také předčily GPT-4 v čínské sadě dat RoleEval-Chinese (zh). Avšak tyto čínské modely stále vykazují významné rozdíly ve výkonu ve srovnání s GPT-4 v jiných scénářích【13†source】. 4. **Zákony škálování parametrů**: Přesnost role vědomostí se obecně zlepšuje s velikostí modelu pro LLaMA a Qwen, a tento trend je konzistentní s dříve stanovenými vzory přenosu znalostí. U čínských LLMů je míra zlepšení větší pro čínské sady dat než pro anglické sady dat. Naopak modely primárně trénované na anglických korpusů ukazují opačné trendy. Je také zaznamenáno, že BLOOM a Pythia neprokázaly zlepšení výkonu napříč různými nastaveními, což může být způsobeno relativně nižším objemem tréninkových tokenů, zatímco modely s výborným výkonem byly už trénovány na více než 1 TB tokenů【14†source】. Pro hlubší porozumění těmto závěrům je potřeba dále zkoumat grafy a tabulky poskytnuté ve studii, které demonstrují škálování parametrů, vliv jazyka tréninkových korpusů a relativní výkon různých modelů LLM.
Studie „RoleEval: A Bilingual Role Evaluation Benchmark for Large Language Models“ představuje RoleEval, dvojjazyčný benchmark navržený pro hodnocení schopností velkých jazykových modelů v oblasti paměti, využití a uvažování v kontextu rolí a znalostí charakterů. Benchamrk obsahuje RoleEval-Global pro mezinárodně uznávané postavy a RoleEval-Chinese pro postavy populární v Číně, včetně 6000 čínsko-anglických vzájemně propojených otázek zaměřujících se na 300 vlivných lidí a fiktivních postav z více oblastí. Otázky pokrývají základní znalosti a schopnost multi-hop uvažování, aby systematicky zkoumaly různé aspekty jako osobní informace, vztahy, schopnosti a zkušenosti charakterů. Rozsáhlé hodnocení RoleEval napříč různými otevřenými a vlastnickými velkými jazykovými modely odhalilo zajímavé poznatky, zahrnující rozdíly v distribuci znalostí mezi anglickými a čínskými modely. Studie dále zdůrazňuje důležitost RoleEval pro ocenění znalostí rolí v různých jazykových a kulturních kontextech.
Asistent funguje velmi dobře. Umí dokument projít, shrnout, vypsat hlavní body, zobrazit tabulky a odpovědět na konkrétní dotazy. Jediné co mi chybí, tak je zobrazení vizuálních dat a jejich následné interpretace. To jsem řešil v článku (GPT na analýzu obrázků). V příštím článku zkusím tyto dvě metody zkombinovat.