Elképesztő kínai fejlesztés miatt esnek a tech részvények
Fotó: Fazekas Kristóf, Azénpénzem
Még december végén jelent meg egy rövid hír és publikáció arról, hogy a kínai Csöcsiang tartományban található Hangcsou városában egy addig gyakorlatilag ismeretlen start-up cég teljesen új módszerekkel fejlesztett egy mesterséges intelligencia modellt. A DeepSeek névre keresztelt rendszer R1-es verziója a cég szerint jobban (de legalábbis ugyanúgy) teljesít, mint a most piacvezető ChatGPT legújabb verziója. Ami még lényegesebb az az, hogy mindezt igen olcsón érte el az ismeretlen cég, és ez megváltoztathatja a mesterséges intelligenciával kapcsolatos jövőbeli várakozásainkat is. Ráadásul a cég open source módon mindenki számára elérhetővé teszi a modell forráskódját, így az egész világ reprodukálhatja eredményeiket és ingyenesen fejlesztheti tovább modelljüket.
Mitől különleges a DeepSeek R1
Az AI-ra szakosodott elemzők az elmúlt hetekben alaposan körbejárták az új modellt és tapasztalataikat több platformon is megosztották. Eszerint a DeepSeek egy kis cég, kevesebb, mint 200 alkalmazottal, így innen is jött egy nyomás, hogy hatékonyan járjanak el. A kínai kutatók és fejlesztők több újítást is bevezettek az új modelljükben, ezek együttes bevezetése a jelek szerint váratlan ugrást jelentett az árban és a minőségben is.Az egyik első innováció az volt, hogy szemben a nyugati modellekkel, az ő rendszerük a tanulás során nem teljes precizitással raktározza el az általa számolt adatokat (az amerikai modellek 32 tizedesjegynyi pontossággal számolnak és ezt mentik el, a kínai modell csak 8 tizedesjegyig). Csak ez önmagában 75 százalékos megtakarítást jelent a szükséges memóriában. Ezen felül az új modell egy úgynevezett multi-token rendszert használ, ahol a szavakat nem egyesével értelmezi a rendszer, hanem egy mondatot egyben kísérel meg felfogni és értelmezni. A feldolgozás kétszer olyan gyors, miközben 90 százalékig ugyanolyan pontos, mint a drágább rendszeré.
Már ezek a lépések is eredményesek voltak a hatékonyabb működésért, de az egyik legügyesebb innováció még hátra volt. A kínai kutatók egy általános, mindig mindenhez értő AI modell helyett egy szűkebb, csak speciális területhez értő „szakértői rendszert” hoztak létre. Az eddigi létező általános modellekben minden input mindig elérhető és felhasználható, ez pedig azért fontos, mert a legfejlettebb amerikai modellek ma már 3,5 billió paraméterrel dolgoznak – azaz ezt az elképesztő mennyiségű adatot kell aktívan tudni kezelniük minden alkalommal. A kínai modellnek összesen csak 670 milliárd paramétere van, de ezekből is csak 37 milliárd az, ami egy adott egy adott pillanatban aktív, függően a megválaszolandó kérdés témakörétől.
Mindezek eredményeképpen a DeepSeek állítólag alig 2000 chippel működik (ezek a Nvidia által szállított, eredetileg grafikai feladatokra specializált GPU-nak nevezett mikroprocesszorok). Az OpenAI és más hasonló nyugati modellek igénye a tanuláshoz és működtetéshez ezzel szemben több, mint 100 ezer chip! Nem meglepő, hogy végeredményben a kínai kutatók azt nyilatkozták, hogy a legutóbbi változat taníttatásának teljes költsége 6 millió dollárnak felelt meg csupán – ezzel szemben a Meta, az OpenAi és Google egyenként beleöltek 100 millió dollár nagyságrendű pénzt, hogy a saját modelljeiket elkészítsék. Az interneten terjedő egyik pletyka szerint a Meta AI részlegénél pánik üzemmódban próbálják eldönteni, hogy mit tudnak másolni a DeepSeek rendszeréből. Ahogyan egy ottani dolgozó elmondta, nehéz megindokolni az óriási részleg létezését, ahol egy-egy felsővezető éves bérezése meghaladja az új kihívó teljes fejlesztési költségét...
Kinek fáj ez?
Azt láthatjuk tehát, hogy a kínaiak kényszerből ugyan, de egy elképesztő nagy ugrást hajtottak végre. A történet hátterében az áll, hogy az amerikai kormányzat régebb óta blokkolja a legfejlettebb chipek eladását Kínának, ezért az ottani fejlesztők csak régebbi, kisebb teljesítményű hardvert használhatnak a mesterséges intelligencia alapú modellek tanításához és működtetéséhez. Az Nvidia által tervezett és gyártott chipek közül ők csak a H800-as típushoz fértek hozzá, ez kettő vagy három generációval marad el a nyugati vásárlók számára jelenleg elérhető top mikroprocesszoroktól. Így tehát a kínaiak kénytelenek voltak ügyesek lenni, ha már nem hagyatkozhattak amerikai kollégáikhoz hasonlóan a nyerserő taktikájára.Azt halkan jegyezzük meg, hogy egyelőre nincsen független visszaigazolás arról, hogy valóban csak 6 millió dollárba került-e a DeepSeek fejlesztése, sem arról, hogy csupán 2000 chip kellene hozzá – vannak, akik 5 vagy 10 ezer mikroprocesszorra becsülik a szükséges mennyiséget. Az eredmény ettől függetlenül mindenképpen figyelemreméltó, és két okból is az.
Az első, hogy mostantól sokkal olcsóbb lesz egy AI alapú ágens taníttatása és működtetése. Egyes vélemények szerint a korábbi szolgáltatókhoz képest akár harmincszor olcsóbb a DeepSeek-en keresztül lefuttatni egy beszélgetést. Ez hirtelen sokkal több cég és szervezet számára teszi elérhetővé a mesterséges intelligencia alapú szolgáltatásokat, újabb feladatkiírásokat és munkaköröket fog megváltoztatni az AI, azaz még hamarabb lesz még sokkal inkább a mindennapjaink része ez az új technológia.
A másik ok, amiért a DeepSeek teljesítménye nagyon is figyelemreméltó az az, hogy eddig egy bizonyos logika mentén képzelték el a látnokok a mesterséges intelligencia jövőjét. Minél több processzor, minél több adat, minél több energia és minél több adattárolás – azt gondolták, hogy ez lesz a kulcsa a minél jobb modelleknek. Alig egy hete, hogy az új amerikai elnök Donald Trump bejelentette, hogy 500 milliárd dollár értékben Stargate néven egy új projektet indítanak, amely az AI-hoz szükséges infrastruktúra további kiépítését célozza meg, ezzel is megőrizve az USA vezető szerepét ebben a születő iparágban.
Tegnap a DeekSeek oldalán akadozott a regisztráció. Az új felhasználókat arról tájékoztatták, hogy a DeepSeek szolgáltatásai elleni nagyszabású rosszindulatú támadások miatt a regisztráció foglalt lehet.
A DeepSeek nagyon csúnyán rácáfol erre a logikára, már ha igazolódnak majd az eddig közölt adatok a hatékonyságáról és olcsóságáról. Most hirtelen bizonytalanná vált azon cégek jövője, amelyeknek azért jósoltak az elmúlt 1-2 évben fényes kilátásokat, mert a korábbi logika mentén nagyobb bevételt remélhettek. Az Nvidia és más chipgyártó cégek mellett például az energiatermelő cégek is nagyot emelkedtek a közelmúltban az energia iránti kereslet várható növekedése miatt, most ezek mind csökkenésnek indulhatnak.Ahogyan korábban már írtuk, a részvénypiaci fellendülést főleg a technológiai cégek és azon belül is a Fantasztikus Hetek néven futó vállalatok vezették eddig. Most, hogy hirtelen megkérdőjeleződött a nagyon fényes jövőbe vetett feltétlen hit, a befektetők hirtelen rádöbbenhetnek, hogy nagyon drágák már ezek a cégek – főleg, ha nem fognak úgy nőni a bevételeik, ahogyan korábban remélték. Kérdés, hogy a hétfőn kibontakozó eladási hullám tartós visszaeséssé válik-e vagy csak rövid hullámvölgyet jelent. Mindenesetre az új kínai kihívó színrelépése mindenképpen el kell hogy gondolkodtasson minden befektetőt: kik és mennyire lesznek sikeresek hosszú távon ezen a piacon?
Szerző: Szepesi László
Címkék: befektetés, tőzsde, mesterséges intelligencia, MI, AI, DeepSeek, ChatGPT, Meta, Nvidia, Fantasztikus hetes