Notizie

Intel è pronta per i carichi di lavoro Meta Llama 3 GenAI: ottimizzati per CPU Xeon e Core Ultra, GPU Arc e acceleratori Gaudi

Aprile 18, 2024

Perchè importa: Nell’ambito della sua missione di portare l’intelligenza artificiale ovunque, Intel investe nel software e nell’ecosistema dell’intelligenza artificiale per garantire che i suoi prodotti siano pronti per le ultime innovazioni nello spazio dinamico dell’intelligenza artificiale. Nel data center, i processori Gaudi e Xeon con accelerazione Advanced Matrix Extension (AMX) offrono ai clienti opzioni per soddisfare requisiti dinamici e di ampia portata.

Annunciato il nuovo gioco del Signore degli Anelli

L’evento Fortnite x Star Wars ha Chewbecca, Lando, spade laser e molto altro

Il regista di Fallout 5, Todd Howard, specifica dove si svolgerà il gioco

Balatro riceve il primo grande aggiornamento del saldo

Le voci sul remake di Horizon Zero Dawn si rafforzano dopo il nuovo PlayStation Move

I processori Intel Core Ultra e i prodotti grafici Arc forniscono sia un veicolo di sviluppo locale che un’implementazione su milioni di dispositivi con supporto per framework e strumenti software completi, tra cui PyTorch e Intel Extension per PyTorch utilizzati per la ricerca e lo sviluppo locale e il toolkit OpenVINO per lo sviluppo e l’inferenza di modelli .

Informazioni su Llama 3 in esecuzione su Intel: I test iniziali e i risultati delle prestazioni di Intel per i modelli Llama 3 8B e 70B utilizzano software open source, tra cui PyTorch, DeepSpeed, la libreria Optimum Habana e Intel Extension for PyTorch per fornire le ottimizzazioni software più recenti.

Gli acceleratori Intel Gaudi 2 hanno ottimizzato le prestazioni sui modelli Llama 2 (parametri 7B, 13B e 70B) e ora dispongono di misurazioni iniziali delle prestazioni per il nuovo modello Llama 3. Con la maturità del software Gaudi, Intel ha eseguito facilmente il nuovo modello Llama 3 e ha generato risultati per l’inferenza e la messa a punto. Llama 3 è supportato anche dall’acceleratore Gaudi 3 recentemente annunciato.
I processori Intel Xeon affrontano carichi di lavoro AI end-to-end impegnativi e Intel investe nell’ottimizzazione dei risultati LLM per ridurre la latenza. I processori Xeon 6 con core Performance (nome in codice Granite Rapids) mostrano un miglioramento doppio della latenza di inferenza di Llama 3 8B rispetto ai processori Xeon di quarta generazione e la capacità di eseguire modelli linguistici più ampi, come Llama 3 70B, sotto i 100 ms per token generato.
Intel Core Ultra e Arc Graphics offrono prestazioni impressionanti per Llama 3. In un primo ciclo di test, i processori Core Ultra generano già velocità di lettura più veloci rispetto a quelle tipiche di un essere umano. Inoltre, la GPU Arc A770 ha X^e Accelerazione AI Matrix eXtensions (XMX) e 16 GB di memoria dedicata per fornire prestazioni eccezionali per i carichi di lavoro LLM.

Processori scalabili Xeon

Intel ottimizza costantemente l’inferenza LLM per le piattaforme Xeon. Ad esempio, rispetto a Llama 2, i miglioramenti del software di lancio in PyTorch e Intel Extension per PyTorch si sono evoluti per offrire una riduzione della latenza di 5 volte. L’ottimizzazione utilizza l’attenzione di paginazione e il tensore parallelo per massimizzare l’utilizzo del calcolo disponibile e la larghezza di banda della memoria. La Figura 1 mostra le prestazioni dell’inferenza di Meta Llama 3 8B sull’istanza AWS m7i.metal-48x, basata sul processore scalabile Xeon di quarta generazione.

Abbiamo confrontato Meta Llama 3 su un processore Xeon 6 con core Performance (precedentemente nome in codice Granite Rapids) per condividere un’anteprima delle prestazioni. Questi numeri di anteprima dimostrano che Xeon 6 offre un miglioramento doppio della latenza di inferenza di Llama 3 8B rispetto ai processori Xeon di quarta generazione ampiamente disponibili e la capacità di eseguire modelli linguistici più ampi, come Llama 3 70B, sotto i 100 ms per token generato su un singolo due- server presa.

Modello	TP	Precisione	Lunghezza immessa	Lunghezza di uscita	Portata	Latenza*	Lotto
Meta-Llama-3-8B-Istruzione	1	FP8	2k	4k	1549.27 gettone/sec	7.747 SM	12
Meta-Llama-3-8B-Istruzione	1	bf16	1k	3k	469.11 gettone/sec	8.527 SM	4
Meta-Llama-3-70B-Istruire	8	FP8	2k	4k	4927.31 gettone/sec	56.23 SM	277
Meta-Llama-3-70B-Istruire	8	bf16	2k	2k	3574.81 gettone/sec	60.425 SM	216

Piattaforme clienti

In un primo ciclo di valutazione, il processore Intel Core Ultra genera già velocità di lettura più veloci rispetto a quelle tipiche di una persona. Questi risultati sono guidati dalla GPU Arc integrata con 8 Xe-core, accelerazione AI DP4a inclusa e fino a 120 GB/s di larghezza di banda della memoria di sistema. Siamo entusiasti di investire in continue ottimizzazioni delle prestazioni e dell’efficienza energetica su Llama 3, soprattutto quando passiamo ai nostri processori di prossima generazione.

Con il supporto il giorno del lancio dei processori Core Ultra e dei prodotti grafici Arc, la collaborazione tra Intel e Meta fornisce sia un veicolo di sviluppo locale che un’implementazione su milioni di dispositivi. L’hardware client Intel viene accelerato tramite framework e strumenti software completi, tra cui PyTorch e Intel Extension for PyTorch utilizzati per la ricerca e lo sviluppo locali e OpenVINO Toolkit per l’implementazione e l’inferenza dei modelli.

Qual è il prossimo: Nei prossimi mesi, Meta prevede di introdurre nuove funzionalità, dimensioni di modelli aggiuntivi e prestazioni migliorate. Intel continuerà a ottimizzare le prestazioni dei suoi prodotti IA per supportare questo nuovo LLM.

Tecit

Intel è pronta per i carichi di lavoro Meta Llama 3 GenAI: ottimizzati per CPU Xeon e Core Ultra, GPU Arc e acceleratori Gaudi

Processori scalabili Xeon

Piattaforme clienti