Mākslīgais intelekts iemācījies programmēt pats sevi

Zinātnieki jau sen cerēja pilnībā nobeigt ciklu, izveidojot mākslīgā intelekta aģentus, kas pašatjaunojas un uzlabo sevi. Jaunais pētījums demonstrē iespaidīgu šādas sistēmas piemēru.
„Tas ir labs darbs,” teica Jūrgens Šmidhubers, datorspeciālists no King Abdullah University of Science and Technology (KAUST) Saūda Arābijā. „Es domāju, ka daudziem cilvēkiem šie rezultāti ir pārsteidzoši. Ņemot vērā, ka es strādāju pie šīs tēmas jau gandrīz 40 gadus, man tas, iespējams, ir mazāk pārsteidzoši.”
2003. gadā Šmidhubers izveidoja uzdevumu risinātājus, kas pārrakstīja savu kodu tikai tad, ja viņi varēja pierādīt, ka atjauninājumi bija noderīgi. Viņš tos nodēvēja par Gödel’s Machines, par godu matemātiķim Kurtam Gēdelim, kurš strādāja pie pašnorādītām sistēmām. Tomēr sarežģītiem aģentiem pierādāma noderība ir grūti sasniedzama.
Jaunās sistēmas, kas aprakstītas nesenajā pētījumā, paļaujas uz empīriskiem pierādījumiem. Par godu Šmidhuberam tās tiek sauktas par Darvina-Gēdeļa Mašīnām (DGM). DGM ar kodējošu aģentu, kas spēj lasīt, rakstīt un izpildīt kodu, izmantojot LLM (lielā modeļa valoda) lasīšanai un rakstīšanai. Tad tas izmanto evolūcijas algoritmu, lai izveidotu jaunu aģentu kopumu. Katras iterācijas laikā DGM izvēlas vienu aģentu no populācijas un noraksta LLM izveidoto izmaiņu, lai uzlabotu aģenta spējas rakstīt kodu. LLM ir kaut kas līdzīgs intuīcijai par to, kas varētu palīdzēt, jo tie ir apmācīti uz lieliem, cilvēku rakstītiem kodiem. Tā rezultātā rodas vadāma evolūcija, kaut kas vidējs starp nejaušu mutāciju un pierādāmi noderīgu uzlabojumu. Pēc tam DGM testē jauno aģentu, novērtējot tā spēju risināt programmēšanas uzdevumus.
Daži evolūcijas algoritmi saglabā tikai vislabākos dalībniekus, pieņemot, ka progress virzās bezgalīgi uz priekšu. DGM, tomēr, saglabā visus dalībniekus, lai, ja sākotnēji neveiksmīga inovācija vēlāk varētu kļūt par atslēgu uz izrāvienu, veicot turpmākus uzlabojumus. Šī ir “atvērta izpēte”, kas nenoslēdz ceļus uz progresu (tomēr DGM dod priekšroku labākajiem aģentiem).
Zinātnieki palaida DGM 80 iterācijās, izmantojot piemērotu SWE-bench kodu un vēl 80 iterācijas ar Polyglot kodu. Aģentu rezultāti uzlabojās uz SWE-bench no 20% līdz 50%, un uz Polyglot — no 14% līdz 31%.
„Mēs bijām tiešām pārsteigti, ka aģents spēja pats uzrakstīt tik sarežģītu kodu,” teica Dženija Džana, zinātniece no British Columbia University un vadošā raksta autore. „Viņš spēja rediģēt vairākus failus, izveidot jaunus failus un veidot patiesi sarežģītas sistēmas.” Svarīgi, ka DGM pārspēja alternatīvu metodi, kur izmantoja ārēju sistēmu, lai uzlabotu aģentus. Ar DGM uzlabojumi uzkrājās, jo aģenti paši uzlaboja sevi. DGM arī pārspēja versiju, kas nesaglabāja populāciju un vienkārši modificēja pēdējo aģentu. Labākais SWE-bench aģents nebija tik labs kā labākais cilvēku radītais aģents, kas ieguva apmēram 70%, bet tas tika ģenerēts automātiski un, iespējams, ar pietiekamu laiku un aprēķinu jaudu, aģents varētu pārspēt cilvēku.
Aģenti var kļūt neinterpretējami vai pārstāt sekot cilvēka norādēm. Tādēļ Džana un viņas kolēģi ieviesa aizsardzības mehānismus. Viņi saglabāja DGM bez piekļuves internetam vai operētājsistēmai, reģistrējot un pārbaudot visas kodu izmaiņas. Viņi paredz, ka nākotnē turpinās pētījumu, apbalvojot aģentus par to, ka viņi padara sevi vairāk interpretējamus un saskaņotus.