Alati za smanjenje potrosnje energije AI modela sa prevodom

MIT-jev laboratorij razvija nove nacine upotrebe energije koju trose racunalni resursi pri radu s umjetnom inteligencijom.

Ogromni, popularni AI modeli poput ChatGPT-a dovode do prognoza koje predvidaju da ce podatkovni centri crpiti do 21 posto svjetske opskrbe elektricnom energijom do 2030. godine.

MIT Lincoln Laboratory Supercomputing Center (LLSC) razvija tehnike za pomoc podatkovnim centrima u smanjenju potrosnje energije. Njihove tehnike krecu se od jednostavnih, ali ucinkovitih promjena, poput hardvera za ogranicenje snage, do usvajanja novih alata koji mogu rano zaustaviti AI obuku. Najvaznije je da su otkrili da ove tehnike imaju minimalan utjecaj na performanse modela.

Poput mnogih podatkovnih centara, LLSC je dozivio znacajan porast u broju AI poslova koji se izvode na njegovom hardveru. Primijetivsi povecanje potrosnje energije, informaticare na LLSC-u zanimali su nacini za ucinkovitije vodenje poslova. Zeleno racunalstvo princip je centra koji se u potpunosti napaja energijom bez ugljika.

Uvjezbavanje AI modela, proces kojim uci uzorke iz ogromnih skupova podataka, zahtijeva koristenje grafickih procesorskih jedinica (GPU), koje su hardver gladan energije. Kao jedan primjer, procjenjuje se da su GPU-ovi koji su trenirali GPT-3 (prethodnik ChatGPT-a) potrosili 1300 megavat-sati elektricne energije, sto je otprilike jednako onoj koju mjesecno trosi 1450 prosjecnih americkih kucanstava.

Dok vecina ljudi trazi GPU-ove zbog njihove racunalne snage, proizvodaci nude nacine za ogranicavanje kolicine energije koju GPU dopusta. “Proucavali smo ucinke ogranicenja snage i otkrili da mozemo smanjiti potrosnju energije za oko 12 do 15 posto , ovisno o modelu”, kaze Siddharth Samsi, istrazivac LLSC-a.

Kompromis za ogranicenje snage je povecanje vremena zadatka, pa ce GPU-ovima trebati oko 3 posto vise vremena da dovrse zadatak, sto je prema znanstvenicima “jedva primjetno” s obzirom na to da se modeli cesto obucavaju danima ili cak mjesecima. U jednom od njihovih eksperimenata u kojima su uvjezbavali popularni jezicni model BERT, ogranicavanjem snage GPU-a na 150 vata doslo je do dvosatnog povecanja vremena uvjezbavanja (s 80 na 82 sata), ali je ustedeno energije ekvivalenta tjednu energije americkog kucanstva.

Tim je zatim izradio softver koji ukljucuje ovu mogucnost ogranicenja snage u siroko koristen sustav Slurm. Softver omogucuje vlasnicima podatkovnih centara da postave ogranicenja u cijelom svom sustavu ili za svaki pojedinacni posao.

Pojavile su se i sporedne koristi. Otkako su uvedena ogranicenja napajanja, GPU-ovi na LLSC superracunalima rade na nizoj i konzistentnijoj temperaturi, smanjujuci opterecenje na rashladni sustav. Pokretanje hardverskog hladnjaka potencijalno takoder moze povecati pouzdanost i vijek trajanja.

Kako bi olaksao ovaj proces drugima, tim je u suradnji s profesorom Deveshom Tiwarijem i Baolinom Lijem sa Sveucilista Northeastern, nedavno razvio i objavio sveobuhvatan okvir za analizu ugljicnog otiska racunalnih sustava visokih performansi. Prakticari sustava mogu koristiti ovaj okvir analize kako bi bolje razumjeli koliko je njihov trenutni sustav odrziv i razmotrili promjene za sustave sljedece generacije.

Osim prilagodbi operacija podatkovnog centra, tim smislja nacine kako uciniti razvoj AI-modela ucinkovitijim. Kada obucavaju modele, programeri umjetne inteligencije cesto se usredotocuju na poboljsanje tocnosti i nadograduju se na prethodne modele kao pocetnu tocku. Kako bi postigli zeljeni rezultat, moraju shvatiti koje parametre koristiti, a to zahtijeva testiranje tisuca konfiguracija. Ovaj proces, nazvan optimizacija hiperparametara, jedno je podrucje za koje su istrazivaci LLSC-a otkrili da je zrelo za smanjenje rasipanja energije.

“Razvili smo model koji u osnovi gleda na brzinu kojom odredena konfiguracija uci”, kaze znanstvenik LLSC-a Vijay Gadepally. S obzirom na tu stopu, model predvida vjerojatnu izvedbu. Modeli s losijim rezultatima rano se zaustavljaju. “Mozemo vam dati vrlo tocnu procjenu na pocetku da ce najbolji model biti u ovih 10 najboljih od 100 modela koji se prikazuju”, kaze on.

U studijama je ovo rano zaustavljanje dovelo do dramaticnih usteda, 80 posto smanjenja energije koja se koristi za obuku modela. Primijenili su ovu tehniku na modele razvijene za racunalni vid, obradu prirodnog jezika i aplikacije za dizajn materijala.

Obuka je samo jedan dio emisija AI modela. Najveci doprinos emisijama tijekom vremena je zakljucivanje modela ili proces pokretanja modela uzivo, na primjer kada korisnik razgovara s ChatGPT-om. Kako bi brzo odgovorili, ovi modeli koriste redundantni hardver, koji radi cijelo vrijeme, cekajuci da korisnik postavi pitanje.

Jedan od nacina poboljsanja ucinkovitosti zakljucivanja je koristenje najprikladnijeg hardvera. Takoder sa Sveucilistem Northeastern, tim je stvorio optimizator koji odgovara modelu s najucinkovitijom kombinacijom hardvera po emisiji ugljika, kao sto su graficki procesori velike snage za racunalno intenzivne dijelove zakljucivanja i sredisnje procesorske jedinice male snage (CPU) za manje zahtjevne aspekte. Ovaj je rad nedavno osvojio nagradu za najbolji rad na Medunarodnom ACM simpoziju o paralelnom i distribuiranom racunalstvu visokih performansi.

Koristenje ovog alata za optimizaciju moze smanjiti potrosnju energije za 10-20 posto dok se i dalje ispunjava isti “cilj kvalitete usluge” (koliko brzo model moze odgovoriti).

Ovaj je alat posebno koristan za klijente u oblaku, koji iznajmljuju sustave iz podatkovnih centara i moraju odabrati hardver medu tisucama opcija. “Vecina kupaca precjenjuje ono sto im je potrebno, odabiru hardver koji je previse sposoban samo zato sto ne znaju nista bolje”, kaze Gadepally.

Dio ovog napora zahtijeva blizu suradnju s proizvodacima hardvera kako bi prijenos podataka s hardvera bio laksi i precizniji. Ako proizvodaci mogu standardizirati nacin na koji se podaci ocitavaju, tada se alati za ustedu energije i izvjescivanje mogu primijeniti na razlicitim hardverskim platformama. U tijeku je suradnja izmedu istrazivaca LLSC-a i Intela na ovom problemu.