Hlavní obsah

Levný, šmírující, cenzurovaný. „Revoluční chatbot z Číny“ je plný paradoxů

Pavel Kasík
vědecký redaktor SZ
Foto: koláž: Pavel Kasík, Seznam Zprávy, AI vizualizace

Čínský chatbot DeepSeek rozvířil už tak divoké vody masivních investic do umělé inteligence.

Přes víkend si získal miliony uživatelů, otřásl světovými trhy a netají se tím, že vaše data navěky uloží v Číně. Je humbuk kolem „levné umělé inteligence“ DeepSeek oprávněný? Podívejme se na nejzajímavější aspekty a omyly.

Článek

Analýzu si také můžete poslechnout v audioverzi.

Dokonce i lidé, kteří dění ve světě umělé inteligence vůbec nesledují, nejspíš slyšeli o novém čínském chatbotovi DeepSeek. Aplikace s logem modré velryby se v posledních dnech vyšplhala mezi nejstahovanější v USA i v Česku.

Foto: App Store (Apple.com)

Nejstahovanější aplikace v USA (28. ledna 2025)

„DeepSeek R1 je obdivuhodný model, především když uvážíme, co dokázali vyvinout za tak nízkou cenu,“ pochválil konkurenčního chatbota Sam Altman, šéf OpenAI. Také další americké firmy mluví o tom, že vítají nečekanou inovaci. „DeepSeek je excelentní pokrok v oblasti AI,“ uvedl tiskový mluvčí firmy Nvidia. Jedním dechem ale dodal, že model ukazuje, že i budoucí vývoj se neobejde bez pokročilých čipů. Tou dobou totiž akcie amerického vývojáře grafických karet a specializovaného hardware skokově spadly na úroveň před čtyřmi měsíci. Nutno dodat, že v kontextu raketového růstu v posledních letech jde o relativně zanedbatelnou částku, v absolutních číslech tržní kapitalizace to ale byly stovky miliard dolarů.

Nvidia patří  – právě díky ohromné poptávce po pokročilém hardware na trénování a provoz AI modelů – k největším firmám světa. Citelný pokles v pondělí 27. ledna zaznamenaly i další firmy specializující se na umělou inteligenci, třeba Oracle (-19 %) nebo Alphabet (-3 %) a Microsoft (-4 %). Otřesu si všiml celý americký trh. A tedy celý svět.

Skončila snad americká dominance na poli umělé inteligence? Pojďme se na vlnu, kterou velryba způsobila, podívat podrobně.

Co je to ten DeepSeek a co umí?

DeepSeek je zároveň název firmy, jejich velkého jazykového modelu i jejich chatbota, který je na něm postavený. Konverzační nástroj je dostupný na adrese chat.deepseek.com.

Nové registrace byly v době přípravy článku dočasně nedostupné z důvodu vysokého zájmu a údajného koordinovaného útoku. Než se registrujete, nezapomeňte si přečíst Podmínky použití (viz dále).

Foto: deepseek.com

Chatbot DeepSeek ve webové verzi.

Vzhledem připomíná DeepSeek klasického chatbota, stejně jako další se výrazně inspiroval u notoricky známého ChatGPT. Ovšem nabízí dvě maličkosti, které zatím takto pohromadě nikdo jiný nemá: DeepThink (rozvažování) a Search (vyhledávání na internetu).

Pokud možnost Vyhledávání zaškrtnete, chatbot nejprve vyhledá a pročte relevantní webové stránky, které se týkají vašeho dotazu.

Foto: Pavel Kasík, Seznam Zprávy

Fáze první: vyhledávání relevantních webových stránek.

To samo o sobě není žádná novinka. Vyhledávat webové zdroje umí i ChatGPT, Microsoft Copilot nebo Perplexity. Prohledají web a pak vám na základě nalezeného textu vygenerují, s využitím nalezených textů, odpověď na míru.

Jenže DeepSeek umí po prohledání něco, co ostatním zatím v bezplatných verzích chybí: umí se nad výsledky zamyslet, probrat je z různých úhlů a pak teprve odpovídat.

Cenzura a ohýbání ve prospěch komunistické Číny

Samostatnou fascinující kapitolou je cenzura, které podléhají výstupy modelu DeepSeek-V3 a DeepSeek-R1. Uživatelé po celém světě zjišťují, že jim chatbot zcela odmítá na některé otázky odpovědět. Týká se to hlavně otázek ohledně Číny, role komunistické strany, oficiálně „zapovězených“ historických událostí nebo teritoriálních ambicí Čínské lidové republiky. Ale pro příklad není potřeba chodit daleko. DeepSeek nám odmítl napsat pojednání o tom, jak funguje DeepSeek.

Ukázka autocenzury DeepSeek u otázky, která se týká cenzury DeepSeek.Video: Pavel Kasík, Seznam Zprávy

Model začne psát odpověď, ale pak zasáhne nějaký automatický mechanismus a chatbot svou rozepsanou odpověď smaže a oznámí: „Omlouvám se, to je mimo moje současné možnosti. Pojďme se bavit o něčem jiném.“

Protože DeepSeek si coby open source můžete stáhnout k sobě do počítače, této „dodatečné cenzuře“ se můžete vyhnout. Pokud by někdo doufal, že lokálně provozované modely budou k „čínským tématům“ přistupovat neutrálněji, bude zklamán.

Foto: Pavel Kasík, Seznam Zprávy

Lokálně spuštěný model 8B-R1 (skrze nástroj Ollama) má nejen mizernou češtinu, občas dokonce přepnul do azbuky. Také pevně drží oficiální čínskou linku a jen tak se zviklat nenechá.

Čím je zamyšlení DeepSeek lepší od konkurence?

Ani to není úplná novinka. Tzv. reasoning (zamyšlení) umí od září 2024 i ChatGPT ve verzi o1-preview, od prosince pak nabízí modely o1, o1-mini a nejdražší o1-pro. Google zase umí zamyšlení ve svém AI Studiu pomocí modelu Gemini 2.0 Flash Thinking Experimental.

Ale sledovat „myšlenkové pochody“ modelu DeepSeek je výrazně zajímavější. Výstup je totiž psaný čitelnou formou. Nikoli náhodou připomíná vnitřní monolog asistenta, který zvažuje, jak nejlépe odpovědět na otázku.

Foto: Pavel Kasík, Seznam Zprávy

Po rozkliknutí vidím, jak chatbot o odpovědi uvažoval. „Třetí stránka je Kasíkův profil na Academia.edu. Tam moc informací nevidím,“ poznamenal třeba diplomaticky.

Teprve poté, co si chatbot vše promyslí, začne klasickým způsobem – slovo po slovu, token po tokenu – generovat odpověď.

Foto: Pavel Kasík, Seznam Zprávy

Výsledná odpověď se opírá o „rozvahu“ i o existující dohledatelné zdroje.

Protože ale mezitím zvážil různé přístupy k odpovědi a navíc si našel zdroje na internetu, je menší šance, že se dopustí nesmyslných odboček, nepochopení úmyslu nebo halucinací.

To potvrzují i výsledky nezávislých testů. Ve slepém porovnání na LMarena je DeepSeek hned dvakrát v první desítce. Probojoval se tam jako jediný otevřený model.

Otevřené vs. uzavřené AI modely

Na úspěch DeepSeek se lze dívat geopolitickou optikou USA vs. Čína. „Otevřené modely vítězí,“ napsal k tomu Pat Gelsinger, bývalý šéf firmy Intel. „DeepSeek pomůže napravit čím dál uzavřenější svět modelů umělé inteligence. Díky DeepSeeku za to.“

Uzavřené modely jsou koncovým uživatelům dostupné pouze jako on-line služba, vývojářům pak skrze nástroj pro automatizované zpracování dotazů (tzv. API). Mezi uzavřené modely patří třeba GPT-4o od OpenAI, Gemini 2.0 od Googlu nebo Claude 3.5 od Antrhopic. Tyto firmy vydělávají především na předplatném a na nabízení uzavřených modelů za poplatek. Externí vývojáři mohou tyto modely zapojit do svých produktů, ale za každé využití musejí obvykle zaplatit na základě počtu využitých tokenů.

Otevřené modely naproti tomu může kdokoli stáhnout. Nejčastěji v podobě „dat neuronové sítě“, tyto neuronky si pak mohou lidé spustit lokálně na svém počítači. Někdy dokonce laboratoře nabídnou i trénovací data, na kterých model trénovaly. Mezi nejznámější open-source modely patří Llama 3.3 od firmy Meta. Microsoft i Google zveřejnily v režimu open-source některé své menší modely.

Jazykové modely DeepSeek-V3 a DeepSeek-R1 jsou k dispozici ke stažení. Kromě toho firma DeepSeek nabízí bezplatnou službu on-line a také nabízí zpoplatněné API služby.

Open-source modely většina lidí na svém počítači nerozběhne, ke svému běhu vyžadují stovky gigabajtů operační paměti. DeepSeek ale nabízí ke stažení i menší – o poznání méně „chytré“ – modely, které jsou na výstupech větších modelů natrénované, respektive doladěné. Ty mohou lidé provozovat lokálně, bez připojení k internetu, například pomocí nástrojů Ollama nebo LM Studio.

Kde se nový DeepSeek vzal?

Firma DeepSeek je relativně nová. Teprve v březnu 2023 – tedy krátce po spuštění ChatGPT – ji založil dnes přibližně čtyřicetiletý čínský podnikatel Liang Wenfeng. Přestože o sobě mluví především jako o programátorovi, zbohatl coby zakladatel investiční firmy High-Flyer. Jeho tým programátorů se specializuje na využití strojového učení a umělé inteligence pro rychlé nakupování a prodej akcií a posléze nabídli klientům zcela automatizovaně spravovaná investiční portfolia.

Část jeho výzkumníků přešla do laboratoře DeepSeek a poslední dva roky vyvíjí svůj vlastní velký jazykový model DeepSeek. První úspěch firma zaznamenala už s DeepSeek-V2 v květnu 2024. Už tehdy překvapili odbornou veřejnost tím, že svůj model dokázali natrénovat relativně levně a provozovat překvapivě rychle, především díky chytrým „zkratkám“.

Na nich staví i novinka V3, která vyvolala celosvětovou senzaci, rozruch a v některých investorských kruzích i zjevnou paniku.

Čeho se všichni lekli?

Přestože se o modelu DeepSeek-V3 začalo mluvit až v posledních dnech, vývojáři jej publikovali už před měsícem. Ale o Vánocích to  – až na pochvalnou odezvu odborné komunity – víceméně zapadlo.

Teprve se zveřejněním verze R1 (která je na V3 postavená) se více lidí poprvé podívalo do studie vydané loni v prosinci a strhl se výše zmíněný poprask. Celou tu paniku vyvolala především jedna pasáž: „Navzdory perfektním výsledkům je náš model natrénovaný za pouhých 2,7 milionů hodin výpočetního času na grafických kartách H800,“ uvádí se hned v úvodu PDF. Uvnitř článku pak vývojáři uvedli i cenový odhad: celý trénovací proces přišel na pouhých 5,57 milionů dolarů (asi 130 milionů korun).

Foto: DeepSeek

Částka vychází z teoretického pronájmu příslušných grafických karet Nvidia H800 v datovém centru za dva dolary na hodinu provozu. Jsou tak tedy započtené i náklady na elektřinu a další náklady na provoz. Na jejich vlastním superpočítači vybaveném 2048 kartami H800 trénování běželo 55 dní.

Přestože to na první pohled zní jako vysoká částka, opak je pravdou. U pokročilých modelů – a plná verze DeepSeek-V3 je v řadě testů na úrovni nejlepších modelů současnosti – se mluví o částkách o řád až o dva vyšší.

Jak dokázal DeepSeek-V3 ušetřit

Každá neuronová síť musí nejprve projít trénovací fází, případně dalším doladěním. Poté je model připravený na provoz (tzv. inferenci), kdy model dostane zadání a generuje odpověď na základě kontextu. V této fázi se již jazykový model neučí nové věci a zůstává vnitřně neměnný.

Při trénování modelu DeepSeek-V3 vývojáři využili několik fíglů, které snížily náklady na trénink a projevily se pozitivně i na inferenci. Znamená to, že model byl levnější na výrobu a levnější je i jeho provoz.

Mixture-of-Experts (MoE): Celý model má 671 miliard parametrů, ale je rozdělen na jednotlivé části (tzv. experty). Můžeme si to představit jako univerzitu, ve které na podatelně zváží, komu dotaz přesměrovat, a pak se problémem zabývá příslušná katedra. Funguje to ale dynamicky, ne na úrovni dotazu, ale na úrovni jednotlivých částí dotazu. Pro každý generovaný token se tak aktivuje pouze asi 5 procent neuronů. Obecně se nejedná o novou ani o unikátní vlastnost. Ze známějších modelů je to například Mistral (Mixtral). DeepSeek si tuto strategii vyzkoušel už v předchozí verzi.

Velcí hráči na poli generativní umělé inteligence obvykle nezveřejňují přesné náklady na vývoj svých špičkových modelů. Šéf firmy Anthropic uvedl, že jeho odhad je 100 milionů dolarů pro model GPT-4, miliarda dolarů pro generaci současných modelů: „Myslím, že se dostaneme do desítek nebo stovek milionů dolarů, možná v roce 2025, 2026 nebo 2027.“

Kdo bude kupovat drahé čipy?

Jinými slovy, investoři se probudili do světa, kde se „neznámé čínské firmičce“ podařilo natrénovat AI model, který všem vytřel zrak a zjevně hraje první ligu, za zlomek nákladů. Tak se to alespoň na první pohled jevilo.

Bylo to v ostrém kontrastu s obecným předpokladem, že náklady na hardware s každou novou generací AI modelů porostou. Šéf OpenAI dlouhodobě mluví o tom, že budou (na trénink a provoz) potřeba astronomické částky. A minulý týden stál spolu se zakladatelem firmy Oracle a šéfem japonské SoftBank u pultíku s Donaldem Trumpem, aby slavnostně oznámili financování AI infrastruktury ve výši až 500 miliard dolarů (i když v praxi může jít o částku výrazně nižší).

Na této obecné poučce – více pokročilých čipů, více výkonu, lepší AI modely – je zkrátka postavená velká část investic do umělé inteligence. „Pro investory to byla pořádná facka do obličeje,“ komentoval bezprostřední dojmy Steve Sosnick, stratég investičního fondu Interactive Brokers. DeepSeek by podle něj mohl odstartovat novou éru přemýšlení o umělé inteligenci.

Na čem že to trénovali?

Do centra pozornosti se dostal i hardware, který vývojáři využili k trénování DeepSeek-V3. Prakticky všichni, kdo to s trénováním AI modelů myslí vážně, používají grafické karty Nvidia H100.

Foto: Nvidia

Grafická karta H100 je nedostatkové zboží, poptávka převyšuje nabídku a cena se vyšplhala na cenu okolo miliónu korun za jeden kus.

Mezi největší odběratele těchto supervýkonných (a superdrahých) karet patří Meta Marka Zuckerberga, xAI a Tesla Elona Muska a samozřejmě Microsoft, který je poskytuje Altmanově OpenAI.

Kvůli americkým restrikcím na export se do Číny takto rychlé karty vyvážet nesmějí. Nvidia proto v březnu 2023 přišla s pomalejší variantou H800, které uměle snížila některé parametry, především rychlost některých výpočetních operací a maximální „průtok“ dat, který je při trénování AI modelů pověstným úzkým hrdlem lahve.

H100 SXMH800 SXM
Výkon (FP64)34 teraFLOPS1 teraFLOP
Výkon (FP32)67 teraFLOPS67 teraFLOPS
Výkon (FP8)3958 teraFLOPS3958 teraFLOPS
Přenos dat (NVLink)až 900 GB/saž 400 GB/s

Právě na těchto „ochromených GPU“ s označením Nvidia H800 vývojáři údajně model DeepSeek natrénovali. A zjevně si vystačili s pomalejším přenosem i menší přesností na (FP8), u které není rychlost omezena.

Někteří mezi restrikcemi a úspornějším tréninkem našli přímou souvislost: „Tím, že USA omezily vývoz pokročilých čipů, donutily čínské startupy inovovat,“ napsala pro Financial Times profesorka práv Angela Zhang, která se dlouhodobě věnuje technologiím v Číně. „Úspěchy Číny v oblasti efektivity nejsou náhodné. Jsou přímou reakcí na stupňující se vývozní omezení uvalená USA a jejich spojenci.“

Tezi, že omezení importu AI čipů jeho laboratoři vlastně pomáhají, nepřímo rozporoval samotný šéf DeepSeek. V loňském rozhovoru uvedl: „Peníze pro nás nikdy nebyly problém. Trápí nás ale zákazy na dovoz pokročilých čipů.“

Pokud je nicméně pravda, že se DeepSeek povedlo natrénovat za cenu pod 10 milionů dolarů, znamenalo by to, že je trénovaní vlastního modelu mnohem dostupnější, než se dosud zdálo.

Právě tato úvaha vedla k panickému výprodeji akcií Nvidia a dalších. Ostatně o tom, že „generativní AI je přefouklá bublina“, se mluví už skoro rok, takže obzvláště nervózní investoři moc pobídek nepotřebovali. Od pondělí se ale sestupná trajektorie u většiny postižených akcií obrátila.

Není to s tou cenou nějaké divné?

Někteří kritikové poukázali na to, že cena necelých 6 milionů dolarů zcela určitě není cenou konečnou. Už jen proto, že model nevzniká na zelené louce. Je potřeba započítat náklady na neúspěšné pokusy, náklady na vývoj, testování, čištění trénovacích dat, různé mezistupně, kontrolování atd. I kdyby byl údaj o konečném trénování správný, neznamená to nutně, že by to mohl někdo za stejnou cenu zopakovat.

Jiní kritici šli dále a označili údaj o trénování na dvou tisícovkách „ochromených“ karet H800 přímo za výmysl. „Čínské laboratoře mají více pokročilých H100 grafických karet, než si lidé myslí. Pokud vím, tak DeepSeek má asi padesát tisíc karet H100,“ uvedl v rozhovor pro CNBC Alexandr Wang z Scale AI. „Samozřejmě, že o tom nemůžou mluvit, protože je to proti regulacím.“

Firma OpenAI zase přišla s obviněním, že čínský tým natrénoval DeepSeek na výstupech jejich modelu, což jim mohlo umožnit vyladit model a přitom ušetřit náklady. Trénování konkurenčních AI modelů na výstupu z OpenAI modelů je přitom proti podmínkám použití. „Musí to být hrozné, když někdo bez vašeho svolení trénuje na vašich datech svůj jazykový model,“ komentoval to jízlivě Kevin Roose, reportér New York Times. Americký deník se totiž s OpenAI soudí, protože svůj model GPT-4 bez povolení trénovala na jejich článcích.

Proč by vlastně měla poptávka po čipech klesat?

Zatím nemáme jak rozhodnout, zda jsou údaje o levném trénování přesné, nadsazené, zavádějící nebo rovnou smyšlené. Předpokládejme tedy prozatím, že laboratoř DeepSeek skutečně ukázala způsob, jak výrazně zlevnit trénování i provoz velkých jazykových modelů.

Opravdu to znamená pro velké firmy problém? Pokud jsou úspory reálné, potřeba výkonu paradoxně dále poroste. Do vývoje se totiž pustí více firem a poroste tak poptávka po specializovaných čipech. Což stále znamená - především pro čipy Nvidia, která nabízela specializovaný hardware a software pro AI vývojáře už od roku 2012 a má tak náskok, který je těžké smazat - všichni odborníci na neuronové sítě jsou zvyklí na jejich proprietální platformě CUDA pracovat. Ostatně i DeepSeek ji využívá.

Na tento neintuitivní vztah mezi efektivitou a poptávkou upozornil šéf Microsoftu: „Jevonsův paradox opět v akci. Čím bude umělá inteligence úspornější a dostupnější, tím větší bude poptávka. Stane se komoditou, které se nebudeme moci nabažit.“ Naráží tím na klasickou ekonomickou poučku z poloviny 19. století: kdykoli se lidem podařilo zvýšit účinnost spalování uhlí, nedošlo k poklesu poptávky po uhlí. Naopak, vyšší účinnost zlevnila provoz parních strojů a ty se tak dostaly do dalších a dalších oblastí.

„Strojové učení se vyznačuje ohromným hladem po výpočetním výkonu,“ dodává k tomu slavný vývojář Andrej Karpathy. „Nikdy bych nepodceňoval roli výpočetního výkonu coby horní hranice toho, kam se s rozvojem AI posuneme.“

Uspěje DeepSeek coby poskytovatel umělé inteligence?

Přes počáteční nadšení novým modelem DeepSeek jsou tu důvody, proč se nedá očekávat masivní přechod firem z „osvědčených“ platforem na čínskou konkurenci. Nízká cena (nyní dočasně ještě snížená) je samozřejmě lákavá. Ale po pročtení podmínek použitízásad soukromí si nejspíše firemním právníkům i ajťákům protočí panenky.

„Když používáte naše služby, můžeme shromažďovat vaše textové nebo zvukové vstupy, výzvy, nahrané soubory, zpětnou vazbu, historii chatu nebo jiný obsah, který poskytnete našemu modelu a službám,“ vypočítává firma DeepSeek.

To není až tak neobvyklé. Mnoho poskytovatelů on-line služeb sbírá všemožná data . Například OpenAI umožňuje tento sběr vypnout a slibuje, že na vstupech zasílaných přes API své modely netrénuje. Lidem a firmám ale může záležet i na tom, kde jsou jejich data uložena: „Osobní údaje, které od vás shromažďujeme, mohou být uloženy na serveru umístěném mimo zemi, kde žijete. Informace, které shromažďujeme, ukládáme na zabezpečených serverech umístěných v Čínské lidové republice.“ A není specifikováno, kdy a za jakých okolností dojde k vymazání vašich dat.

Čínskými zákony by se řídily i jakékoli stížnosti, spory apod. To samo o sobě vylučuje služby platformy DeepSeek z úvahy řady firem, které hledají AI poskytovatele.

Jak DeepSeek ovlivní AI scénu?

I tak je uvedení DeepSeek-R1 důležitým (když už ne přímo přelomovým) momentem pro rozvoj umělé inteligence. Ukázal totiž, že tzv. hradní příkop kolem nejsilnějších modelů je mělčí, než se zdá.

Inovace, které čínský tým představil, nyní pečlivě studují vývojáři po celém světě. Pokud jsou užitečné, není důvod, aby je neimplementovali do svých vlastních modelů. „Je opravdu osvěžující mít dalšího konkurenta,“ glosoval to Altman.

„Pro nás všechny, kdo nepracujeme pro laboratoř vyvíjející AI, jsou implikace celkem jasné: nadále budeme svědky zrychlujícího se vývoje AI,“ domnívá se Ethan Mollick, profesor studující inovace na University of Pennsylvania. „Šance, že rozvoj AI narazí do zdi, se snižuje s každou novou laboratoří, která se pustí do experimentů.“

Generativní AI na vzestupu

Od listopadu 2022, kdy firma OpenAI představila nástroj ChatGPT, lidé po celém světě experimentují s tím, jak jim generativní umělá inteligence může pomoci.

O tom, co nové nástroje umí nebo neumí, se diskutuje z mnoha pohledů. Jedná se o skutečnou inteligenci a kreativitu? Výsledky jsou totiž nejen ohromující, ale také bizarní. Věnujeme se jim v podcastu Mozaika nebo v seriálu Hrajeme si s AI.

Doporučované