| Regionas | Apskritis | Savivaldybė |
|---|---|---|
| Netaikoma | Vilniaus apskritis, Alytaus apskritis, Kauno apskritis, Klaipėdos apskritis, Marijampolės apskritis, Panevėžio apskritis, Šiaulių apskritis, Tauragės apskritis, Telšių apskritis, Utenos apskritis | Vilniaus m. sav., Jonavos r. sav., Telšių r. sav., Elektrėnų sav., Molėtų r. sav., Palangos m. sav., Kauno m. sav., Prienų r. sav., Klaipėdos m. sav., Kauno r. sav., Vilkaviškio r. sav., Tauragės r. sav., Klaipėdos r. sav., Alytaus m. sav., Ignalinos r. sav., Kretingos r. sav., Anykščių r. sav., Šiaulių r. sav., Panevėžio m. sav., Šiaulių m. sav., Lazdijų r. sav., Druskininkų sav., Utenos r. sav., Panevėžio r. sav., Biržų r. sav., Varėnos r. sav., Joniškio r. sav., Marijampolės sav., Rokiškio r. sav., Šalčininkų r. sav., Akmenės r. sav., Šakių r. sav., Alytaus r. sav., Kazlų Rūdos sav., Vilniaus r. sav., Rietavo sav., Kaišiadorių r. sav., Pakruojo r. sav., Kelmės r. sav., Ukmergės r. sav., Plungės r. sav., Šilutės r. sav., Mažeikių r. sav., Šilalės r. sav., Švenčionių r. sav., Pagėgių sav., Radviliškio r. sav., Kėdainių r. sav., Jurbarko r. sav., Raseinių r. sav., Trakų r. sav., Neringos sav., Kupiškio r. sav., Kalvarijos sav., Zarasų r. sav., Širvintų r. sav., Pasvalio r. sav., Birštono sav., Visagino sav., Skuodo r. sav. |
Morfologiškai ir sintaksiškai anotuotų tekstynų modeliai apmokymui (auksiniai standartai) Įgyvendinama
Kvietimo numeris
02-098-K
Projekto numeris
02-098-K-0001
Sutarties įsigaliojimo data
2024-08-12 00:00
Projekto vykdytojas
Vytauto Didžiojo universitetas
Vykdytojo kodas
111950396
Veiklų vykdymo pabaigos data
2026-05-31 00:00
Administruojanti institucija
Centrinė projektų valdymo agentūra
Bendra projekto tinkamų finansuoti išlaidų suma
1 524 898,54 €
Projektu sprendžiamos problemos
Kaip nurodoma 2021–2030 metų valstybės skaitmeninimo plėtros programoje, šios programos paskirtis – skatinti valstybės skaitmeninimą siekiant sudaryti galimybes viešajam sektoriui, verslo įmonėms ir akademinei bendruomenei efektyviai bei saugiai kurti ir naudotis inovatyviais produktais bei paslaugomis, stiprinti pačių gyventojų gebėjimus visavertiškai pasinaudoti naujomis technologijomis, didinti supratimą apie būsimus technologinius pokyčius ir sudaryti sąlygas valstybei prie jų prisitaikyti. Minėtoje programoje akcentuojama problema, kad neišnaudojamos turimos valstybės skaitmeninimo galimybės, taip nesudaromos sąlygos kurti naujomis technologijomis pagrįstus sprendimus lietuvių kalbai, juos diegti kuriant pažangias ir saugias skaitmenines paslaugas lietuvių kalba ir teikti šias paslaugas visuomenei.
Lietuvių kalba priskiriama prie retai vartojamų kalbų grupės, jos technologinė pažanga neprilygsta didžiųjų kalbų pažangai, o turimi kalbos technologijų ištekliai – negausūs. Minėtos aplinkybės lemia tai, kad lig šiol nespėjama su tokiu lietuvių kalbai pritaikytų inovatyvių technologinių sprendimų kūrimo ir kokybės progresu, koks matomas pasauliniame kontekste stebint didžiųjų kalbų technologinius pajėgumus. Atitinkamai nepakankami (kokybės, apimties ir kt. požiūriais) yra ir įvairūs išvestiniai, turimų automatinių sprendimų pagrindu realizuojami lietuvių kalbos produktai (leksikonai, žodynai, dažniniai sąrašai ir pan.).
Su dar didesniais iššūkiais lietuvių kalba susiduria dirbtinio intelekto (DI) ir juo paremtų pažangių modelių plėtros kontekste. DI – tai ne tik technologiniai sprendimai, modeliai, algoritmai – didelę reikšmę juos taikant įgyja ir duomenys bei kompiuterijos pajėgumai, todėl, kaip pastebima baltojoje knygoje „Dirbtinis intelektas. Europos požiūris į kompetenciją ir pasitikėjimą“ (https://eur-lex.europa.eu/legal-content/LT/TXT/?uri=celex%3A52020DC0065), „kompiuterijos pažanga ir didėjantis duomenų prieinamumas yra pagrindiniai veiksniai, lemiantys dabartinį DI pakilimą“. Ligšiolinės tendencijos rodo nekvestionuojamą poreikį didelių duomenų ir jais paremtų išteklių, tinkamų DI modeliams mokyti, ir jų pagrindu – naujiems, funkcionaliems sprendimams vystyti. Neabejotina, jog toks poreikis tik stiprės, o tai reiškia, kad būtina stiprinti lietuvių kalbos technologinį potencialą užtikrinant jos resursų pakankamumą, pasiekiamumą ir adaptyvumą pagal sparčiai kintančią DI rinką.
Įvertinus anksčiau paminėtas aplinkybes, paraiškoje aprašytu projektu siekiama atliepti esamą lietuvių kalbos išteklių problematiką, kylančią daugiausia iš jų stokos / neprieinamumo, netinkamo parengimo naudoti DI modelių mokymo tikslams ir pan. Projekte numatoma parengti 10 mln. žodžių morfologiškai ir sintaksiškai anotuotų tekstynų modelius, kurie ateityje būtų naudojami kaip aukso standartas (tam tikras etalonas) apmokant įvairius įrankius (tiek pagrįstus įvairiomis automatinio veikimo technologijomis, tiek veikiančius konkrečiai DI pagrindu). Suplanuotų parengti tekstynų duomenys yra būtina prielaida siekiant realizuoti inovatyvius technologinius sprendimus, kurie leistų atliepti profesionalų ir visuomenės poreikius ir galėtų funkcionaliai tarnauti tiek verslo, tiek kasdienio gyvenimo sąlygomis, tokiu būdu, be kita ko, skatinant ir spartesnę Lietuvos skaitmeninę transformaciją. Numatyta tekstynų apimtis šiuo atveju yra atskira išties reikšminga sąlyga siekiant efektyvaus jų panaudojamumo minėtiems tikslams, kadangi viena iš čia aptariamos problematikos, susijusios su lietuvių kalbos skaitmeninimu, dedamųjų yra stoka didelių, atitinkamai apdorotų ir tolesniam naudojimui parengtų išteklių. Projekte numatytais spręsti uždaviniais tiesiogiai atsižvelgiama į šios problemos sprendimo poreikį ir tam sprendimui rastis reikiamas iniciatyvas.
Kaip teigiama 2020 m. parengtoje baltojoje knygoje „Dirbtinis intelektas. Europos požiūris į kompetenciją ir pasitikėjimą“ (https://eur-lex.europa.eu/legal-content/LT/TXT/?uri=celex%3A52020DC0065), tvarus Europos ekonomikos augimas ir visuomenės gerovė vis labiau priklauso ir priklausys nuo duomenų sukuriamos vertės. DI yra viena iš svarbiausių duomenų ekonomikos technologijų. Pasinaudojus ES pajėgumais investuoti į naujos kartos technologijas ir infrastruktūrą, taip pat į skaitmeninius gebėjimus, pvz., gebėjimą naudotis duomenimis, padidės Europos technologinis suverenumas duomenų ekonomikai svarbių bazinių didelio poveikio technologijų ir infrastruktūros srityse. Infrastruktūra turėtų padėti kurti Europos duomenynus, sudarančius sąlygas patikimam, t. y. Europos vertybėmis ir taisyklėmis grindžiamam, DI.
Baltojoje knygoje taip pat teigiama, kad „Europa, remdamasi savo moksline kompetencija, ir toliau bus DI algoritmų kūrimo pažangos priešaky. Reikia įveikti prarają tarp šiuo metu atskirai plėtojamų disciplinų, pavyzdžiui, mašinų mokymosi ir giliojo mokymosi (kuriems būdingas ribotas interpretavimas, poreikis turėti daug duomenų modeliams mokyti ir mokytis iš koreliacijų) ir simbolinių metodų (kurių taisyklės kuriamos įsikišant žmogui).“ Taigi akivaizdu, kad visoms Europos kalboms reikalingi gausūs duomenys DI modeliams mokyti.
Besinaudojantys DI įrankiais lietuvių kalba pastebi, kad pateikiama informacija nėra tokia kokybiška (pvz., netinkamas žodžių kaitymas, suderinimas), kokia gaunama pagrindinėmis pasaulio kalbomis (pvz., anglų). Tai reiškia, kad, norint pasinaudoti ar į kitas veiklas integruoti DI rezultatus, prireikia nemažai žmogaus įsikišimo gana paprastiems darbams, pvz., kaip jau minėta, tinkamai sintaksiškai suderinti žodžius, parinkti morfologiškai tinkamas gramatines formas, o tai lėtina lietuvių kalbos skaitmenizacijos darbus. Parengus morfologiškai ir sintaksiškai anotuotų tekstynų modelius apmokymui ir juos integravus į DI įrankius, pvz., spaCy (https://spacy.io/), pagerėtų kalbos kokybė, DI įrankių sugeneruota kalba labiau prilygtų gimtakalbių vartojamai kalbai, todėl prireiktų mažiau peržiūros, taisymų, tai leistų sutaupyti laiko ir lėšų.
Paminėtina, kad turimas gana didelis įdirbis su lietuvių kalbos morfologija. Kaip matyti iš mokslinių tyrimų, morfologinio anotavimo kokybė pasiekia 96 proc. ir net didesnį tikslumą. Morfologiškai anotuoto tekstyno rengimas prasidėjo maždaug 2000 m., per tą laiką buvo tobulinami morfologinio anotavimo įrankiai. O sintaksiškai anotuotas tekstynas pradėtas rengti gerokai vėliau – 2015 m., jo dydis tik 3643 sakiniai (apie 60 000 žodžių), taigi tiek duomenų nepakanka kalbų technologijų sprendimams tobulinti.
Daugiau
Mažiau
Projekto tikslas
Parengti 10 mln. žodžių morfologiškai ir 10 mln. žodžių sintaksiškai anotuotų tekstynų modelius kaip auksinį standartą įvairių įrankių (tiek pagrįstų įprastomis technologijomis, tiek panaudojant DI) apmokymui.
Programos tipas
Naujos kartos Lietuva
Komponentas
Skaitmeninė transformacija ekonomikos augimuiTeritorija, kuriai tenka didžioji dalis projekto lėšų
ES fondas
| Veiklos pavadinimas | Fondas |
|---|---|
| Kalbinių išteklių dirbtinio intelekto technologijų sprendimų poreikiams plėtra | Ekonomikos gaivinimo ir atsparumo didinimo priemonė |
Finansavimo šaltiniai
| Finansavimo šaltinio kodas | Finansavimo šaltinio forma | Finansavimo šaltinio suma |
|---|---|---|
| 1. | Projektams skiriamos finansavimo lėšos | 1 524 898,54 € |
| 1.2. | EGADP subsidijos lėšos | 1 479 989,96 € |
| 1.6. | Valstybės biudžeto lėšos, skirtos ES fondų lėšomis netinkamam finansuoti PVM apmokėti | 44 908,58 € |
| 2. | Nuosavas įnašas | 0,00 € |
Projekto veiklos
| Sutarties projekto veiklos numeris ir pavadinimas | Sutarties poveiklės numeris ir pavadinimas |
|---|---|
| 05-002-01-07-08-02 Kalbinių išteklių dirbtinio intelekto technologijų sprendimų poreikiams plėtra | 05-002-01-07-08-02-01 Kalbinių išteklių dirbtinio intelekto technologijų sprendimų poreikiams plėtra |
Sutarties intervencinių priemonių srities duomenys
- 021a - Parama skaitmeninio turinio kūrimui ir platinimui