Notizie
Intel è pronta per i carichi di lavoro Meta Llama 3 GenAI: ottimizzati per CPU Xeon e Core Ultra, GPU Arc e acceleratori Gaudi
Perchè importa: Nell’ambito della sua missione di portare l’intelligenza artificiale ovunque, Intel investe nel software e nell’ecosistema dell’intelligenza artificiale per garantire che i suoi prodotti siano pronti per le ultime innovazioni nello spazio dinamico dell’intelligenza artificiale. Nel data center, i processori Gaudi e Xeon con accelerazione Advanced Matrix Extension (AMX) offrono ai clienti opzioni per soddisfare requisiti dinamici e di ampia portata.
I processori Intel Core Ultra e i prodotti grafici Arc forniscono sia un veicolo di sviluppo locale che un’implementazione su milioni di dispositivi con supporto per framework e strumenti software completi, tra cui PyTorch e Intel Extension per PyTorch utilizzati per la ricerca e lo sviluppo locale e il toolkit OpenVINO per lo sviluppo e l’inferenza di modelli .
Informazioni su Llama 3 in esecuzione su Intel: I test iniziali e i risultati delle prestazioni di Intel per i modelli Llama 3 8B e 70B utilizzano software open source, tra cui PyTorch, DeepSpeed, la libreria Optimum Habana e Intel Extension for PyTorch per fornire le ottimizzazioni software più recenti.
- Gli acceleratori Intel Gaudi 2 hanno ottimizzato le prestazioni sui modelli Llama 2 (parametri 7B, 13B e 70B) e ora dispongono di misurazioni iniziali delle prestazioni per il nuovo modello Llama 3. Con la maturità del software Gaudi, Intel ha eseguito facilmente il nuovo modello Llama 3 e ha generato risultati per l’inferenza e la messa a punto. Llama 3 è supportato anche dall’acceleratore Gaudi 3 recentemente annunciato.
- I processori Intel Xeon affrontano carichi di lavoro AI end-to-end impegnativi e Intel investe nell’ottimizzazione dei risultati LLM per ridurre la latenza. I processori Xeon 6 con core Performance (nome in codice Granite Rapids) mostrano un miglioramento doppio della latenza di inferenza di Llama 3 8B rispetto ai processori Xeon di quarta generazione e la capacità di eseguire modelli linguistici più ampi, come Llama 3 70B, sotto i 100 ms per token generato.
- Intel Core Ultra e Arc Graphics offrono prestazioni impressionanti per Llama 3. In un primo ciclo di test, i processori Core Ultra generano già velocità di lettura più veloci rispetto a quelle tipiche di un essere umano. Inoltre, la GPU Arc A770 ha Xe Accelerazione AI Matrix eXtensions (XMX) e 16 GB di memoria dedicata per fornire prestazioni eccezionali per i carichi di lavoro LLM.
Processori scalabili Xeon
Intel ottimizza costantemente l’inferenza LLM per le piattaforme Xeon. Ad esempio, rispetto a Llama 2, i miglioramenti del software di lancio in PyTorch e Intel Extension per PyTorch si sono evoluti per offrire una riduzione della latenza di 5 volte. L’ottimizzazione utilizza l’attenzione di paginazione e il tensore parallelo per massimizzare l’utilizzo del calcolo disponibile e la larghezza di banda della memoria. La Figura 1 mostra le prestazioni dell’inferenza di Meta Llama 3 8B sull’istanza AWS m7i.metal-48x, basata sul processore scalabile Xeon di quarta generazione.
Abbiamo confrontato Meta Llama 3 su un processore Xeon 6 con core Performance (precedentemente nome in codice Granite Rapids) per condividere un’anteprima delle prestazioni. Questi numeri di anteprima dimostrano che Xeon 6 offre un miglioramento doppio della latenza di inferenza di Llama 3 8B rispetto ai processori Xeon di quarta generazione ampiamente disponibili e la capacità di eseguire modelli linguistici più ampi, come Llama 3 70B, sotto i 100 ms per token generato su un singolo due- server presa.
Modello | TP | Precisione | Lunghezza immessa | Lunghezza di uscita | Portata | Latenza* | Lotto |
Meta-Llama-3-8B-Istruzione | 1 | FP8 | 2k | 4k | 1549.27 gettone/sec | 7.747 SM | 12 |
Meta-Llama-3-8B-Istruzione | 1 | bf16 | 1k | 3k | 469.11 gettone/sec | 8.527 SM | 4 |
Meta-Llama-3-70B-Istruire | 8 | FP8 | 2k | 4k | 4927.31 gettone/sec | 56.23 SM | 277 |
Meta-Llama-3-70B-Istruire | 8 | bf16 | 2k | 2k | 3574.81 gettone/sec | 60.425 SM | 216 |
Piattaforme clienti
In un primo ciclo di valutazione, il processore Intel Core Ultra genera già velocità di lettura più veloci rispetto a quelle tipiche di una persona. Questi risultati sono guidati dalla GPU Arc integrata con 8 Xe-core, accelerazione AI DP4a inclusa e fino a 120 GB/s di larghezza di banda della memoria di sistema. Siamo entusiasti di investire in continue ottimizzazioni delle prestazioni e dell’efficienza energetica su Llama 3, soprattutto quando passiamo ai nostri processori di prossima generazione.
Con il supporto il giorno del lancio dei processori Core Ultra e dei prodotti grafici Arc, la collaborazione tra Intel e Meta fornisce sia un veicolo di sviluppo locale che un’implementazione su milioni di dispositivi. L’hardware client Intel viene accelerato tramite framework e strumenti software completi, tra cui PyTorch e Intel Extension for PyTorch utilizzati per la ricerca e lo sviluppo locali e OpenVINO Toolkit per l’implementazione e l’inferenza dei modelli.
Qual è il prossimo: Nei prossimi mesi, Meta prevede di introdurre nuove funzionalità, dimensioni di modelli aggiuntivi e prestazioni migliorate. Intel continuerà a ottimizzare le prestazioni dei suoi prodotti IA per supportare questo nuovo LLM.