Eiropā izveidota platforma, kas palīdzēs nojaukt valodu barjeru

Eiropā izveidota platforma, kas palīdzēs nojaukt valodu barjeru

Eiropas Savienības finansētā projektā “SELMA” izveidotā platforma palīdzēs nojaukt valodu barjeras, “Latvijas Avīzei” apliecināja Latvijas Universitātes Mākslīgā intelekta laboratorijas vadošais pētnieks Guntis Bārzdiņš.

Latvijas Universitātes Matemātikas un informātikas institūts (LU MII) sācis līdzdalību Eiropas Savienības pētniecības un inovāciju programmas “Horizon 2020” projekta “SELMA” īstenošanā.

Projekta laikā ar dažādu valstu institūciju palīdzību tiks izveidota daudzvalodu atvērtā pirmkoda platforma, kurā, izmantojot dziļo mašīnmācīšanos, izstrādās jaunas metodes mākslīgā intelekta valodas modeļu iegūšanai. Vienkāršoti runājot, īpašā platformā žurnālisti un mediju analītiķi varēs pētīt tekstuālo un audiovizuālo saturu.

Kā “Latvijas Avīzei” skaidroja LU MII Māk­slīgā intelekta laboratorijas vadošais pētnieks Guntis Bārzdiņš, “SELMA” projektā izveidotā platforma palīdzēs nojaukt valodu barjeras.

“Vēsturiski kvalitatīvas runas transkriptēšanas un tulkošanas tehnoloģijas bija pieejamas tikai lielajām kompānijām, taču jaunākās daudzvalodu dziļās mašīnmācīšanās metodes nepieciešamos valodas modeļus padara pieejamus ikvienam. Projekts lielākoties ir vērsts uz šo visjaunāko tehnoloģiju pielāgošanu mediju vajadzībām, lai atvieglotu to ieviešanu ikdienas darba procesos.”

Līdztekus liela apjoma ziņu tulkošanai un automātiskai grupēšanai pa tēmām, viens no interesantākajiem projekta virzieniem būs automātiska videosižetu tulkošana, kas būtībā ļaus tulkot pat veselas filmas.

Videosižeta tulkošana ietvers vairākus soļus – oriģinālo audio transkriptēšanu, teksta tulkošanu, dažādu balsu runas sintēzi no teksta. Turklāt šie soļi būs jāveic sinhroni, lai tulkotā runa sakristu ar runātāja lūpu kustībām.

Izklausās kā kaut kas līdzīgs jau valodu tehnoloģiju uzņēmuma “Tilde” veidotajām sistēmām, tostarp iespējai ierunātu audiofailu transkriptēt žurnālista vietā.

Diemžēl žurnālistiem sistēma vēl nav īsti izmantojama. Bārzdiņš skaidro, ka runas transkriptēšanas sistēmu kļūdām ir divi avoti – neskaidri izrunāts teksts un jauni, sistēmai nezināmi vārdi – pārsvarā personu uzvārdi un reti lietoti termini.

“Atšķirībā no “Tildes” “SELMA” tehnoloģijas pamatā ir iespēja lietotājam interaktīvi izlabot sistēmas pieļautās kļūdas, un šie labojumi automātiski papildinās “SELMA” vārdu krājumu ar jaunu terminu un uzvārdu pareizrakstību, tādējādi uzlabojot gan tālāko transkripciju, gan tulkošanu, gan runas sintēzi.”

Platforma spēs apstrādāt desmit miljonus satura vienību dienā. Satura vienība varēs būt gan videosižets, gan preses paziņojums dažādos kanālos, gan citas ziņas. Izstrādātāji skaidro, ka platformas mākslīgā intelekta komponenti tiks regulāri pilnveidoti un sistēma spēs pašmācīties.

Svarīgi, ka platforma vispirms apkopos un analizēs saturu oriģinālvalodā, nevis izmantos angļu valodu kā starpniekvalodu. Savukārt tulkošana un runas sintēze citās valodās tiks veikta pēc pieprasījuma.

Projektu gandrīz 3,5 miljonu apmērā pilnībā finansē Eiropas Savienība, taču ikviens no partneriem, tostarp LU, jau iepriekš daudzus gadus strādājuši šīs jomas attīstīšanai.

Bārzdiņš pārliecināts, ka visu “SELMA” partneru kopējās investīcijas šīs jomas attīstīšanai ir mērāmas desmitos miljonu eiro.

Avots: LA.lv. Visu rakstu lasiet šeit.

Leave a Reply