DeepSeek: dalla Cina con furore
La startup cinese DeepSeek ha recentemente annunciato un grande balzo in avanti nel campo dell’Intelligenza Artificiale tramite il lancio di DeepSeek Coder V2, un modello di linguaggio di codice open-source che supera - è tutto da verificare - i limiti dei suoi predecessori.
Basato su un’architettura “mixture of experts” (MoE), DeepSeek Coder V2 supporterebbe oltre 300 linguaggi di programmazione e vanterebbe una finestra di contesto estesa a 128K token, gli stessi garantiti da ChatGPT-4 e ChatGPT-4o.
Il modello precedente, con i suoi 33 miliardi di parametri, era già competitivo, ma la versione V2 sembra aver ampliato notevolmente le sue capacità: nei test su benchmark come MBPP+, HumanEval e Aider, V2 ha ottenuto punteggi impressionanti, superando modelli come GPT-4 Turbo e Claude 3 Opus.
Secondo gli specialisti il segreto del successo di DeepSeek Coder V2 risiede nell’addestramento su un dataset aggiuntivo di 6 trilioni(!!!) di token, focalizzato sulle analisi e realizzazione di codice e sulla matematica.
Questo approccio ha permesso al modello di attivare solo i parametri esperti necessari, ottimizzando l’uso delle risorse computazionali.
Oltre alle sue prodezze nella programmazione, V2 si distinguerebbe anche nei compiti di ragionamento generale e comprensione linguistica, come dimostrato dal suo punteggio nel benchmark MMLU (uno dei parametri di riferimento più comunemente utilizzati per confrontare le capacità dei LLMs).
Nonostante GPT-4o e Claude 3 Opus rimangano in testa in questa categoria, V2 si avvicina rapidamente ai leader del settore, promettendo di essere uno strumento rivoluzionario per sviluppatori e ricercatori.
E' tutto hype o davvero V2 si rivelerà rivoluzionario?
Staremo a vedere...
Condividi su Facebook // Dai un like // Assegna una lettura
Precedente - Torna alla lista - Successivo