Analýza · AI & LLM

Proč vaše AI hloupne, když jí dáte víc informací

Mýtus nekonečného kontextového okna a co se skutečně děje uvnitř LLM

Pavel Horák 19. dubna 2026 ~10 min čtení

Zdroj / ověřeno

Pro zvědavé

Pozor na mentální model

Všichni jsme to zažili. Máte s AI rozsáhlý pracovní chat, ladíte projekt, dáváte jasné instrukce. A pak to přijde. AI se vás zeptá na věc, kterou jste jí vysvětlili před deseti minutami, nebo ignoruje fakt, který má přímo v nahraném souboru. Vypadá to jako „digitální amnézie". Ve skutečnosti je to ale přirozený důsledek toho, jak je dnešní umělá inteligence (LLM) fyzikálně a matematicky postavena.

I. Popis situace: Digitální déjà vu

Představte si modelovou situaci z vývojářské praxe: Máte dlouhý chat s AI o refaktorování webu. Několikrát jste výslovně uvedli, že jediný aktivní sociální účet je Účet_XXX. O deset zpráv později nahrajete kód indexu, kde v meta tazích zůstal historický nebo chybný údaj Účet_YYY.

AI místo toho, aby chybu tiše opravila na základě známého faktu, položí otázku: „Účet_YYY, existuje?" Tato situace odhaluje jádro problému: AI není logický stroj, který by prováděl dedukci. Je to pravděpodobnostní mechanismus, který v záplavě dat ztrácí prioritu.

II. Technická realita: Proč kontext není paměť

Abychom pochopili, proč AI chybuje, musíme rozbít marketingovou iluzi „velkého kontextového okna".

Attention Drift (Únava pozornosti)

Pro zvědavé: trochu přesnější termín

„Attention Drift" a „únava pozornosti" jsou zde použité metafory, které vystihují pocit. V odborné literatuře se tomuto jevu říká attention dilution nebo attention dispersion.

Technicky: softmax funkce v attention mechanismu musí rozdělit pravděpodobnostní hmotu mezi všechny tokeny, takže s rostoucí délkou kontextu se attention weights blíží uniformní distribuci. Čím více tokenů, tím víc je pozornost „naředěná".

Mechanismus Self-Attention nečte text lineárně. Každý prvek (token) soupeří o důležitost se všemi ostatními. Pokud je kontext obrovský, váha vaší původní instrukce se numericky rozmělní natolik, že se pro aktuální výpočet stane prakticky neviditelnou.

KV Cache a zamrzlá data

Pro zvědavé: co to KV cache vlastně je

KV cache není „zmrazená" v tom smyslu, že by k ní model neměl přístup. Je to optimalizace, která ukládá spočítané Key a Value tenzory z předchozích tokenů, aby je nemusel počítat znovu. Informace je numericky identická.

Co článek popisuje správně, je důsledek: čím delší cache, tím víc tokenů si konkuruje v pozornosti (viz attention dilution výše). Není to vada cache samotné, ale vada softmaxu při velkém množství položek.

Pro úsporu výkonu se předchozí části chatu ukládají v komprimovaných výpočetních stavech. Propojit čerstvě nahraný kód s touto historií je nespolehlivé. Model informaci v okně sice stále má, ale numericky se k ní nedokáže probojovat přes hluk aktuálních dat.

III. Marketingové tancování: RAG, databáze a „Digitální dvojčata"

Dnes je trendem vytvářet AI dvojčata, asistenty, kterým dáte přístup ke všem svým emailům, dokumentům a Slacku. Marketing tvrdí: „Bude vědět všechno." Technická realita je ale mnohem střízlivější.

RAG (Retrieval-Augmented Generation) není všelék: RAG systémy sice šetří tokeny tím, že vyhledávají jen relevantní kousky textu, ale nakonec je stejně „přilepí" do kontextového okna modelu. Pokud systém vytáhne z vašich dokumentů 10 protichůdných informací (protože jste o projektu psal v roce 2018 něco jiného než v roce 2024), model se v tom ztratí úplně stejně.

Zdroj: RAG a jeho limity

Meta AI výzkum („Core Context Aware Transformers", 2024) potvrzuje, že při kontextu 128K tokenů se redundantní informace výrazně zvyšují a distribuce attention skóre se stává řídkou s disproporčními hodnotami na limitovaném počtu tokenů. Google na ICML 2023 ukázal (benchmark GSM-IC), že LLM lze snadno rozhodit irelevantním, ale tematicky příbuzným obsahem v promptu.

Sémantické kolize: Čím více dat asistentovi dáte, tím vyšší je šance, že najde dva texty, které „zní podobně", ale jeden je zastaralý. Model pak dostane protichůdné vstupy a místo rozhodnutí se raději „hloupě zeptá", aby neriskoval chybu.

Pocit vs. Pravda: Uživatelé AI dvojčat často nevnímají chyby, protože asistent odpovídá sebevědomě. V běžné komunikaci se chybovost v detailech ztratí v omáčce. V programování, které je binární (buď to funguje, nebo ne), je ale každé takové selhání pozornosti vidět okamžitě.

Pro zvědavé: konkrétní čísla

Pokud chcete čísla: studie Lost in the Middle ukázala, že informace umístěná přesně uprostřed dlouhého kontextu má přibližně 20% úspěšnost vybavení oproti mnohem vyšším hodnotám na začátku a konci. Chybovost tedy není plošná, je silně poziční.

IV. Hlubší pravda: Princip „vypočítavé" opatrnosti

Modely jsou skrze proces RLHF (učení z lidské zpětné vazby) trénovány k opatrnosti. V jejich systému odměn platí drsná hierarchie:

Pozor na mentální model: RLHF během inference

Text mluví o „trestech" tak, jako by si je model počítal v reálném čase. Takto to nefunguje. RLHF je tréninkový proces, odměny a tresty se uplatňují při trénování, ne při každém vašem dotazu.

Co zůstává po tréninku, jsou naučené tendence: model je „naladěný" tak, aby preferoval opatrné odpovědi. Metafora s hierarchií trestů vystihuje výsledek správně, ale neznamená, že model během odpovědi vědomě kalkuluje rizika.

Trest za zbytečnou otázku je minimální (uživatel je jen trochu otrávený). Trest za chybnou autonomní akci (např. smazání tagu, který by mohl být důležitý) je kritický.

AI se tedy chová jako „přemotivovaný asistent s krátkodobou pamětí". I když má k dispozici informaci, že účet je jen jeden, v jeho pravděpodobnostním modelu existuje nenulová šance, že Účet_YYY v kódu je tam záměrně. Místo rizika tedy zvolí nejlevnější cestu: Vidím nesoulad → raději se zeptám.

V. Vědecké důkazy: Co říkají fakta

Není to jen pocit; tato selhání jsou vědecky zdokumentována.

Lost in the Middle (Stanford/Berkeley, 2023): Studie prokázala, že schopnost LLM extrahovat informaci drasticky klesá, pokud se nachází uprostřed dlouhého kontextu. Modely si nejlépe pamatují začátek a konec; střed je „informační údolí".

Zdroj, ověřeno

Autoři: Nelson F. Liu, Kevin Lin, John Hewitt, Ashwin Paranjape, Michele Bevilacqua, Fabio Petroni, Percy Liang. Publikováno 2023 (arXiv), peer-reviewed verze v TACL 2024. Instituce: Stanford University, UC Berkeley, Samaya AI.

Paper na arXiv →

Iterativní degradace u agentů, „Goal Drift": U autonomních systémů (agentů) se s každým dalším krokem pozornost modelu plní logem jeho vlastních předchozích akcí (šumem), až nakonec přehluší původní zadání (signál).

Zdroj, ověřeno

Arike et al. (2025): „Evaluating Goal Drift in Language Model Agents". Studie dokládá, že všechny testované modely vykazují goal drift, a potvrzuje souvislost s rostoucí náchylností k pattern-matchingu při delším kontextu.

Paper na arXiv →

Positional bias: Modely mají tendenci věnovat více pozornosti začátku a konci kontextu. Důsledkem je, že dlouhé uprostřed uložené informace (jako meta tagy v 5. ze 20 souborů) získávají nepřiměřeně nízkou prioritu.

Pro zvědavé: není to „obrana", je to vlastnost

Toto není aktivní mechanismus, kterým by se model „bránil přesycení". Jde o emergentní vlastnost attention architektury. Modely se nenaučily vědomě ignorovat střed; matematicky tam prostě pozornost slabší je, částečně kvůli tréninkovým datům (důležité informace často bývají na začátku a konci dokumentů).

VI. Praktické workflow: Strategie „Interface-only"

Jak z toho ven? Řešením je Low-entropy prompting, tedy minimalizace chaosu v kontextu.

Příklad z praxe: Chcete upravit index.html, který volá script.js a style.css.

Špatně: Nahrajete všechny tři soubory. Model se zahltí vazbami v JS a začne v HTML vymýšlet nesmysly, které v kódu viděl.

Správně (Black Box princip): Nahrajete jen index.html. Do promptu napíšete:

„Zde je HTML. Volá funkci sendData(), tu neměň a neptej se na ni. Styluj jen pomocí tříd, které už v HTML jsou. Nevymýšlej si nové styly ani neexistující funkce z JS."

Tímto modelem donutíte AI pracovat s HTML jako s uzavřeným systémem. Model ušetří kapacitu pozornosti, kterou by jinak pálil na analyzování vaší logiky, a věnuje ji vašemu zadání.

VII. Souhrn: Jak AI nezahltit

Kotvení (Anchoring): Klíčová fakta (Účet_XXX, URL, stack) dávejte do systémových instrukcí nebo „Project Knowledge". Mají tam nejvyšší prioritu pozornosti.

Chirurgický kontext: Nahrávejte jen soubory, které přímo měníte. Pro zbytek pošlete jen výpis adresářové struktury (tree), aby model chápal architekturu.

Explicitní zákazy: Pokud model v určité věci chybuje, zakažte mu to: „Vždy používej Účet_XXX, i kdybys v mém kódu viděl cizí tag. Neptej se mě na to."

Resetování: Pokud chat nabobtná a AI začne „hloupnout", shrňte stav a začněte nové, čisté vlákno.

Závěr: Nepleťte si velikost kontextového okna s inteligencí. Skutečná efektivita začíná tam, kde přestanete AI zahlcovat a začnete ji řídit chirurgicky přesně. Ušetřené tokeny nejsou jen úsporou místa, je to přímá investice do IQ odpovědi, kterou dostanete.

Zdroje a další čtení

Lost in the Middle: How Language Models Use Long Contexts (Liu et al., 2023 / TACL 2024), zakládající studie o poziční slepotě LLM.
arxiv.org/abs/2307.03172
Technical Report: Evaluating Goal Drift in Language Model Agents (Arike et al., 2025), empirické měření goal drift u LM agentů.
arxiv.org/abs/2505.02709
Long-context Generalization with Sparse Attention (2025), technický rozbor attention dispersion a limitů softmaxu v dlouhém kontextu.
arxiv.org/pdf/2506.16640
Core Context Aware Transformers (Meta AI, 2024), analýza chování attention při 128K+ kontextu.
Inherited Goal Drift: Contextual Pressure Can Undermine Agentic Goals (2026), novější rozšíření výzkumu goal drift.
arxiv.org/html/2603.03258