Microsoft VALL-E mākslīgais intelekts varēs atdarināt jebkuru cilvēka balsi, tikai trīs sekundes noklausoties balss oriģinālu
Korporācija Microsoft ir ieviesusi mākslīgo intelektu VALL-E, kas spēj atdarināt jebkuru cilvēka balsi, tikai trīs sekundes noklausoties balss oriģinālu. Balss tiks atdarināta, saglabājot gan oriģināla tembru, gan emocionālo kolorītu.
Microsoft VALL-E sauc par “neironu kodeku valodas modeli”. Izstrāde ir balstīta uz EnCodec tehnoloģiju. Atšķirībā no citām teksta pārveidošanas metodēm, kas bieži sintezē runu, ņemot vērā skaņas viļņu formas, VALL-E galvenokārt analizē cilvēka balsi, sadala šo informāciju atsevišķās kopās un izmanto apmācības datus, lai noteiktu, kā šī balss skanēs, ja tiks teiktas citas frāzes.
VALL-E māksīgais intelekts tika apmācīts LibriLight bibliotēkā, kurā bija pieejami 60 000 stundu gari dažādi balss ieraksti angļu valodā, kurus bija ierunājuši vairāk nekā 7000 cilvēku.
2018. gadā arī Google prezentēja savu mākslīgo intelektu Duplex, kas spēj runāt līdzīgi cilvēkam, taču Microsoft, izstrādājot jauno tehnoloģiju, vairāk balstījās uz spēju atdarināt dažādas cilvēku balsis.
Avots: Valle