A.I.

DeepSeek(ret): dati ‘distillati’, ambiguità e propaganda cinese

4 Febbraio 2025

Dalla data di lancio del 10 gennaio 2025, il nuovo chatbot DeepSeek-R1, prodotto dell’azienda cinese DeepSeek, non è di certo passato inosservato. Dopo i primi commenti entusiasti poiché gratuito, open source e (pare) economicissimo rispetto al competitor OpenAI, si sono fatte largo alcune legittime perplessità.

Innanzitutto, lo sviluppo di DeepSeek-R1 va riconosciuto come un importante passo strategico della Cina per ridefinire i rapporti di forza in un settore attualmente dominato dagli Stati Uniti, che non intendono perdere la propria posizione di leadership. La vera sfida per il futuro è lo sviluppo di un’intelligenza artificiale generale (AGI) o forte, ossia capace di eseguire un qualsiasi compito umano. Attualmente, i modelli linguistici di grande dimensione (LLM) come ChaptGPT o DeepSeek appartengono ancora alla categorie delle IA “ristrette”, poiché vengono addestrati su enormi (ma non infiniti) dataset testuali, al fine di generare contenuti che sembrino prodotti da essere umani. Gli USA stanno investendo massicciamente nella ricerca in questo campo, segno che la nuova guerra fredda – verosimilmente con la Cina come avversaria – si combatte sul terreno dell’IA e la crescente competizione tra LLM ne è una chiara dimostrazione.

A meno di un mese dal suo debutto, DeepSeek-R1 si presenta come un chatbot multilingue, addestrato sia in inglese che in mandarino, caratteristica che lo rende particolarmente attraente per il pubblico cinese, poiché sensibile alle sfumature linguistiche e culturali. Oltre ad essere (per ora) gratuito, DeepSeek è “open source”, permettendo agli utenti di accedere e persino modificare i suoi algoritmi e tutte le informazioni sulle modalità di training.

Un aspetto che ha suscitato particolare interesse è il costo del progetto, che ammonterebbe a 6 milioni di dollari contro i 100 milioni spesi da OpenAI. Le fonti ufficiali spiegano il risparmio come risultato dell’adozione di strategie tecniche che riducono i tempi di addestramento e il consumo di memoria, abbattendo così i costi operativi. Oltre ai benefici economici, questa efficienza comporta un minore impatto ambientale, riducendo il consumo di elettricità e acqua necessari al raffreddamento dei server.

Tuttavia, alcuni aspetti meritano un’analisi più approfondita, a partire dalla mancanza di prove concrete dell’effettivo risparmio dichiarato. Minimizzare i costi può avere una valenza strategica, proiettando un’immagine di efficienza e autosufficienza. Inoltre, affermare di aver sviluppato un’IA di alto livello nonostante le sanzioni statunitensi sull’export di chip avanzati potrebbe voler nascondere il reale impatto di tali restrizioni. Risulta infatti che DeepSeek abbia addestrato i propri modelli con circa 2.000 unità di elaborazione grafiche (GPU) Nvidia H800 (che rientrano nel divieto di esportazione), probabilmente accumulate prima dell’inasprimento delle restrizioni nell’ottobre 2023. Di conseguenza, l’azienda di Hangzhou ha dovuto sviluppare soluzioni innovative per ottimizzare le risorse disponibili, dimostrando la capacità di Pechino di aggirare le limitazioni tecnologiche imposte da Washington. Inoltre, molte aziende tecnologiche cinesi ricevono supporto governativo spesso non dichiarato in modo trasparente, il che potrebbe rendere i dati divulgati gonfiati o parziali.

I concorrenti americani non sono rimasti a guardare. OpenAI ha accusato il rivale cinese di avere utilizzato tecniche di “distillazione”, un metodo comune per addestrate l’IA estraendo dati da modelli superiori. Secondo Bloomberg, OpenAI e Microsoft stanno conducendo un’indagine dopo aver rilevato esfiltrazioni di grandi quantità di dati dai loro account di sviluppo alla fine del 2024, attribuite a soggetti legati a DeepSeek, che spiegherebbero ulteriormente i costi ridotti. Eppure, il precetto “non fare agli altri ciò che non vorresti fosse fatto a te” risulta quanto mai calzante. La stessa casa madre di ChatGPT ha utilizzato interi archivi di grandi editori come Axel Springer, Condé Nast e The Associated Press senza autorizzazione. Gli accordi raggiunti successivamente con vari media sembrano più un risarcimento per evitare controversie legali legate a violazioni di copyright.

Oltre a queste polemiche, i ricercatori di Wiz hanno segnalato una grave falla di sicurezza. Un database critico di DeepSeek è stato lasciato esposto online senza protezioni adeguate, rendendo accessibili oltre un milione di dati sensibili. Questo avrebbe permesso a chiunque di accedervi, modificarlo o persino prenderne il controllo, sebbene non è chiaro se ciò sia avvenuto.

In tema di sicurezza, il Garante per la privacy ha recentemente bloccato l’accesso a DeepSeek in Italia, in mancanza di informazioni sufficienti sulla tipologia dei dati raccolti, le finalità del trattamento degli stessi e l’ubicazione dei server. La società cinese ha dunque cercato di sottrarsi alle normative europee, motivando così l’immediata sospensione del servizio. Non è la prima volta che il Garante prende misure simili. Nel marzo 2023, aveva sospeso temporaneamente ChatGPT fino all’adozione di misure correttive da parte di OpenAI; che però, a dicembre 2024, è stata multata per 15 milioni di euro per violazioni del GDPR.

Anche sul fronte della trasparenza, DeepSeek riflette le proprie origini cinesi, evitando domande sugli eventi di Piazza Tienanmen, sulla rivoluzione degli ombrelli di Hong Kong o sull’autonomia di Taiwan. Il chatbot non contribuisce solo alla propaganda, ma anche alla disinformazione. Secondo un audit di NewsGuard, DeepSeek ha registrato un tasso di errore complessivo dell’83%: fornendo informazioni false il 30% delle volte e non rispondendo nel 53% dei casi. Inoltre, ha smentito affermazioni false solo nel 17% dei casi e non ha ancora una politica chiara su come contrastare la disinformazione, lasciando agli utenti l’onere di verificare le informazioni ricevute.

Se da un lato la competizione tra IA favorisce un libero mercato del progresso tecnologico, è fondamentale tenere conti di aspetti etici, di sicurezza e di legalità, poiché da lì dipende la battaglia per conquistare il cuore e la mente dell’opinione pubblica.

Cina competitività dati disinformazione intelligenza artificiale internet privacy Stati Uniti tecnologia