Elon Musk e Palmer Luckey sono tra i leader tecnologici a mettere in dubbio il budget rivendicato e l’uso dei chip della startup cinese.

Dopo aver causato onde d’urto con un modello di intelligenza artificiale con capacità che rivaleggiano con le creazioni di Google e Openai, Deepseek della Cina sta affrontando domande sul fatto che le sue affermazioni audaci resistano al controllo.
L’annuncio della startup con sede a Hangzhou di aver sviluppato R1 a una frazione del costo degli ultimi modelli della Silicon Valley immediatamente ha messo in discussione ipotesi sul dominio degli Stati Uniti nell’intelligenza artificiale e sulle valutazioni del mercato altissime delle sue migliori aziende tecnologiche.
Alcuni scettici, tuttavia, hanno sfidato il resoconto di Deepseek di lavorare su un budget ridotto, suggerendo che l’impresa probabilmente aveva accesso a chip più avanzati e più finanziamenti di quanto non abbia riconosciuto.
“È una domanda aperta se le affermazioni di Deepseek possano essere prese al valore nominale. La comunità di AI scaverà in loro e lo scopriremo ”, ha detto ad Al Jazeera Pedro Domingos, professore di informatica e ingegneria di informatica e ingegneria dell’Università di Washington.
“È plausibile per me che possano addestrare un modello con $ 6 milioni”, ha aggiunto Domingos.
“Ma è anche del tutto possibile che questo sia solo il costo dei modelli di perfezionamento e post-elaborazione che costano di più, che DeepSeek non avrebbe potuto farlo senza costruire su modelli più costosi da parte di altri.”
In un documento di ricerca pubblicato la scorsa settimana, il team di sviluppo di DeepSeek ha dichiarato di aver utilizzato GPU da 2.000 NVIDIA H800 – un chip meno avanzato originariamente progettato per conformarsi ai controlli delle esportazioni statunitensi – e hanno speso $ 5,6 milioni per formare il modello di base di R1 di R1, V3.
Il CEO di Openi Sam Altman ha dichiarato che è costato più di $ 100 milioni per formare il suo chatbot GPT-4, mentre gli analisti hanno stimato che il modello ha utilizzato fino a 25.000 GPU H100 in più avanzate.
L’annuncio di DeepSeek, fondato alla fine del 2023 dall’imprenditore seriale Liang Wenfeng, ha rivolto la convinzione ampiamente ritenuta che le aziende che cercano di essere in prima linea nell’intelligenza artificiale hanno bisogno di investire miliardi di dollari in data center e grandi quantità di costosi chip di fascia alta.
Ha anche sollevato domande sull’efficacia degli sforzi di Washington per limitare il settore dell’IA in Cina vietando le esportazioni dei chip più avanzati.
Le azioni di Nvidia con sede in California, che detengono un quasi monopolio sulla fornitura di GPU che l’IA generativa di energia, lunedì, è precipitata del 17 percento, cancellando quasi $ 593 miliardi dal valore di mercato del gigante del chip-una cifra paragonabile al prodotto interno lordo (PIL (PIL (PIL (PIL ) di Svezia.
Sebbene vi sia un ampio consenso sul fatto che il rilascio di R1 di Deepseek rappresenta almeno un risultato significativo, alcuni importanti osservatori hanno messo in guardia dal prendere le sue richieste al valore nominale.
Palmer Luckey, il fondatore della società di realtà virtuale Oculus VR, mercoledì ha etichettato il bilancio rivendicato di Deepseek come “fasullo” e ha accusato troppi “utili idioti” di cadere per la “propaganda cinese”.
“È spinto da un hedge fund cinese per rallentare gli investimenti nelle startup americane di intelligenza artificiale, servire i propri pantaloncini contro titani americani come Nvidia e nascondere l’evasione della sanzione”, ha detto Luckey in un post su X.
“L’America è un letto fertile per Psyops come questo perché il nostro apparato mediatico odia le nostre società tecnologiche e vuole vedere il presidente Trump fallire.”
In un’intervista con la CNBC la scorsa settimana, Alexandr Wang, CEO di Scale AI, ha anche messo in dubbio sul racconto di Deepseek, dicendo che era la sua “comprensione” che aveva accesso a 50.000 chip H100 in più di cui non poteva parlare a causa dell’esportazione degli Stati Uniti controlli.
Wang non ha fornito prove per la sua richiesta.

Il miliardario tecnologico Elon Musk, uno dei confidenti più stretti del presidente degli Stati Uniti Donald Trump, ha sostenuto gli scettici di Deepseek, scrivendo “ovviamente” su X sotto un post sull’affermazione di Wang.
DeepSeek non ha risposto alle richieste di commento.
Ma Zihan Wang, un dottorato di dottorato che ha lavorato a un precedente modello di Deepseek, ha colpito i critici della startup, dicendo: “Il discorso è economico”.
“È facile da criticare”, ha detto Wang su X in risposta alle domande di Al Jazeera sul suggerimento che le affermazioni di Deepseek non dovrebbero essere prese al valore nominale.
“Se trascorressero più tempo a lavorare sul codice e riprodurre l’idea di profondità, sarà meglio che parlare sul giornale”, ha aggiunto Wang, usando una traduzione inglese di un linguaggio cinese sulle persone che si impegnano in discorsi inattivi.
Non ha risposto direttamente a una domanda se credeva che DeepSeek avesse speso meno di $ 6 milioni e usato chip meno avanzati per addestrare il modello di base di R1.
In un’intervista del 2023 con le onde cinesi dei media, Liang ha affermato che la sua società ha accumulato 10.000 patatine A100 di Nvidia-che sono più vecchie dell’H800-prima che l’amministrazione dell’allora presidente Joe Biden abbia vietato la loro esportazione.
Gli utenti di R1 indicano anche le limitazioni che deve affrontare a causa delle sue origini in Cina, vale a dire la sua censura di argomenti considerati sensibili da Pechino, incluso il massacro del 1989 in Tiananmen Square e lo status di Taiwan.
In un segno che il panico iniziale sul potenziale impatto di Deepseek sul settore tecnologico degli Stati Uniti aveva iniziato a ritirarsi, martedì il prezzo delle azioni di Nvidia ha recuperato quasi il 9 percento.
Il NASDAQ 100 pesante di tecnologia è aumentato dell’1,59 percento dopo aver lasciato cadere più del 3 percento del giorno precedente.
Tim Miller, un professore specializzato in AI all’Università del Queensland, ha affermato che era difficile dire quanta scorta dovrebbe essere messa nelle affermazioni di Deepseek.
“Il modello stesso emette alcuni dettagli su come funziona, ma i costi delle principali modifiche che sostengono – che ho capito – non” si presentano “nel modello stesso”, ha detto Miller ad Al Jazeera.
Miller ha affermato di non aver visto “campane di allarme”, ma ci sono argomenti ragionevoli sia a favore che contro la fiducia del documento di ricerca.
“La svolta è incredibile – quasi uno stile” troppo bello per essere vero “. La ripartizione dei costi non è chiara “, ha detto Miller.
D’altra parte, ha detto, le scoperte si verificano occasionalmente nell’informatica.
“Questi grandi modelli su scala sono un fenomeno molto recente, quindi si trovano efficienze”, ha detto Miller.
“Dato che sapevano che questo sarebbe stato ragionevolmente semplice da riprodurre per gli altri, avrebbero saputo che sarebbero stati stupidi se fossero stati bocci. C’è una squadra già impegnata nel tentativo di riprodurre il lavoro. “
Costi di calo
Lucas Hansen, co-fondatore della no profit di Civai, ha affermato che, sebbene fosse difficile sapere se DeepSeek abbia eluso i controlli delle esportazioni statunitensi, il bilancio di formazione rivendicato della startup si riferiva a V3, che è approssimativamente equivalente a GPT-4 di Openi, non a R1 stesso.
“GPT-4 ha terminato la formazione alla fine del 2022. Dal 2022 ci sono stati molti miglioramenti algoritmici e hardware, abbattendo il costo della formazione di un modello di classe GPT-4. Una situazione simile è avvenuta per GPT-2. All’epoca era una seria impegno per allenarsi, ma ora puoi allenarlo per $ 20 in 90 minuti “, ha detto Hansen ad Al Jazeera.
“DeepSeek ha creato R1 prendendo un modello di base – in questo caso, V3 – e applicando alcuni metodi intelligenti per insegnare quel modello di base per pensare più attentamente”, ha aggiunto Hansen.
“Questo processo di insegnamento è relativamente economico rispetto al prezzo della formazione del modello di base. Ora che DeepSeek ha pubblicato dettagli su come bootstrap un modello di base in un modello di pensiero, vedremo un numero enorme di nuovi modelli di pensiero. “