Nvidia un AMD mikroshēmas vairs nav obligātas: DeepSeek V4 apmācībai izmantoti Huawei Ascend procesori

DeepSeek V4 mākslīgā intelekta uzdevumu veikšanai izmanto Huawei mikroshēmas, taču jaunākajā pētījumā uzņēmums ir piemērojis Ascend procesorus, lai pabeigtu modeļa V4 Pro pēcapmācību (post-training). Tas ir kārtējais izrāviens Ķīnas MI pusvadītāju industrijā.
Ķīnas mikroshēmu ražotāji veiksmīgi nodrošina datu izsecināšanu (inference) ar MI, taču saskaras ar grūtībām MI modeļu apmācībā, kas ir daudz sarežģītāks uzdevums. Pētnieku komanda izmantoja Huawei procesorus, lai veiktu mākslīgā intelekta modeļa DeepSeek V4 Pro pēcapmācību. Šī projekta īstenošanā kopīgi piedalījās Huawei un tādas institūcijas kā Shenzhen Loop Area, Harbinas Tehnoloģiju institūta Šeņdžeņas pilsētiņa (Shenzhen Campus of Harbin Institute of Technology) un Šeņdžeņas Lielo datu institūts (Shenzhen Institute of Big Data).
Pētnieku grupa izmantoja skaitļošanas klasteri, kas darbojas uz Huawei Ascend 910C mikroshēmu bāzes, lai veiktu DeepSeek V4 Pro modeļa pēcapmācību. Tā bija pilna parametru apmācība, kuras gaitā modelis tika pilnībā atjaunināts, nemainot tā struktūru.
Rezultātu izsecināšana un pēcapmācība ir divi dažādi lielo valodu modeļu (LLM) segmenti mākslīgā intelekta jomā. Pirmais ir vienkārša metode, kā palaist “jau gatavu” modeli, lai atbildētu uz lietotāja pieprasījumiem, savukārt otrais ir vērsts uz to, kā panākt, lai MI modelis strādātu ar cilvēka komandām. Sākotnējā apmācība (pre-training) ir MI modeļa runas apmācības process, apstrādājot milzīgus datu apjomus. Turpretim pēcapmācība attiecas uz MI modeļa darbu ar cilvēka instrukcijām, drošības noteikumiem un citām operācijām. Pēdējie soļi šajā virzienā palīdzēs palielināt Ķīnas mākslīgā intelekta nozares pašpietiekamību.
Pirms Huawei, MI LLM programmu apmācība tika veikta uz Nvidia vai Advanced Micro Devices (AMD) mikroshēmojumiem. DeepSeek V3 apmācība notika skaitļošanas klasterī, kas sastāvēja no 2048 Nvidia H800 procesoriem.
Iepriekš tika ziņots, ka Ķīnas MI jaunuzņēmums DeepSeek gatavojas vērienīgam finansējuma raundam, kurā plāno piesaistīt aptuveni 50 miljardus juaņu (aptuveni 7,4 miljardus ASV dolāru). DeepSeek ir Ķīnas uzņēmums un jaudīgu atvērtā pirmkoda lielo valodu modeļu (LLM) saime, kas specializējas mākslīgā intelekta (MI) jomā, konkurējot ar ChatGPT un citiem populāriem modeļiem, vienlaikus izceļoties ar zemākām apmācības izmaksām. Tas ģenerē tekstu, raksta kodu, risina loģikas uzdevumus, kā arī spēj uzģenerēt attēlus.
Avots: Huaweicentral