AI-ul vine peste noi și au început să apară tot felul de termeni noi care determină performanța în sarcini AI precum TOPS sau tokens. Ce sunt?
Era PC-urilor AI aduce un nou mod de a măsura performanța pentru task-urile pe bază de AI, cu termeni care pot fi dificil de înțeles atunci când alegeți între desktop-urile și laptop-urile disponibile.
Ați auzit vreodată de „TOPS”, „token-uri” sau „batch size”?
- Performanța TOPS: Un indicator TOPS mai mare înseamnă o procesare mai rapidă a task-urilor bazate pe AI. Cu plăci video precum GeForce RTX 4090 care oferă peste 1300 TOPS, veți obține o experiență excelentă în crearea de conținut digital și în jocurile favorite.Gândiți-vă la TOPS ca la un indicator de performanță brută, similar cu puterea nominală a unui motor. Mai mult este mai bine.De exemplu, gama de PC-uri Copilot+ recent anunțată de Microsoft, care include unități de procesare neuronală (NPU) capabile să realizeze peste 40 TOPS. Efectuarea a 40 TOPS este suficientă pentru unele sarcini ușoare asistate de inteligență artificială, cum ar fi să întrebi un chatbot local unde sunt notițele de ieri.
Sistemul de condus autonom al Tesla ar avea nevoie de 140 TOPS pentru a funcționa. - Înțelegerea conceptului de token: TOPS este doar începutul poveștii. Performanța LLM se măsoară în numărul de tokens generate de model.Token-urile reprezintă rezultatul LLM. Un token poate fi un cuvânt dintr-o propoziție sau chiar un fragment mai mic, cum ar fi punctuația sau spațiile albe. Performanța pentru sarcinile accelerate de inteligență artificială poate fi măsurată în “jetoane pe secundă”.Un alt factor important este dimensiunea batch-ului, sau numărul de intrări procesate simultan într-o singură trecere. Deoarece un LLM va sta în centrul multor sisteme moderne de inteligență artificială, capacitatea de a gestiona intrări multiple (de exemplu, de la o singură aplicație sau de la mai multe aplicații) va fi un factor cheie de diferențiere. Deși dimensiunile mai mari ale batch-urilor îmbunătățesc performanța pentru intrările simultane, acestea necesită, de asemenea, mai multă memorie, în special atunci când sunt combinate cu modele mai mari.
- Generarea rapidă a imaginilor: Plăcile video RTX accelerează modelele AI populare, cum ar fi Stable Diffusion, ceea ce face crearea de conținut de tip text-to-image și video să fie cu până la 70% mai rapidă.
Accelerarea TensorRT va fi disponibilă în curând pentru Stable Diffusion 3 – noul și foarte anticipatul model text-to-image al Stability AI – sporind performanța cu 50%.