Poliitika kujundamisel on vaja toetuda kvaliteetsele ja asjakohasele infole. Aga kuidas leida oluline teave üha kasvavast andmehulgast? STACC ja TEXTA asusid seda ülesannet lahendama Riigikantselei tellimusel. Meie loodud töövahendi prototüüp võimaldab riigiametnikel kasutada semantilist tekstiotsingut, mis muudab teabe leidmise kiiremaks, lihtsamaks ja täpsemaks.
Otsustamine vajab head ülevaadet andmetest
Igal aastal lisandub tuhandeid eestikeelseid uuringuid, aruandeid, seadusi ja muid dokumente. Väärtuslike allikate hajus paiknemine ja suur andmemaht muudab info otsimise aeganõudvaks ja võib tähendada seda, et midagi olulist jääb otsuste ettevalmistusprotsessis tähelepanuta. Kuna poliitika kujundamine mõjutab tervet ühiskonda, siis on otsustajate tööprotsessi tõhustamisel laiaulatuslik mõju.
Riigiametnike abistamiseks tellis Riigikantselei semantilise tekstiotsingu rakenduse prototüübi. Idee on lihtne: võimekas keelemudel analüüsib kasutaja küsimust, leiab seotud allikad ja koostab selge vastuse. Näiteks saab eelnõu hindamisel rakendusega kiire ülevaate asjakohastest avalikest uuringutest. Esialgne sihtgrupp on kõik poliitikakujundamise otsuste ettevalmistajad.
GPT-4o oli parim valik
Milline keelemudel kasutaja soovidele kõige paremini vastaks? Võrdlesime kaheksat erinevat mudelit, et leida parim tasakaal hinna, kiiruse ja kvaliteedi vahel. Kasutuslugudest tulenevalt pidime hindama sisukokkuvõtteid ja suurte keelemudelite (LLM – large language model) võimet vastata faktiküsimustele. Selleks panime me paika hindamiskriteeriumid ja hindasime tulemusi kasutades testandmestikuna Eesti Rahvusringhäälingu artikleid. Tulemuseks saadud järjestuse põhjal soovitasime rakenduses kasutada GPT-4o mudelit.
Analüüsisime põhjalikult kliendi kasutuslugusid: hindasime teostatavust ja selgitasime välja kasutaja vajadused ja töövood. Sobivaimaks lahenduseks osutus RAG (retrieval-augmented generation), mis leiab kasutaja küsimuse peale dokumentidest asjakohased tekstisegmendid ning edastab need keelemudelile vastuse koostamiseks. Selline lähenemine maandab keelemudelitele omaseid miinuseid nagu hallutsineerimine, kus mudel võib anda kasutajale väärinfot.
Otsing sai targaks
Prototüübi loomisega kaasnes ulatuslik andmete töötlemine, et muuta rakenduse otsing täpseks ja tõhusaks. Kogusime kliendi antud viidete põhjal internetist kokku vajalikud andmestikud ning viisime need ühtsesse formaati. Enne andmebaasi kandmist tükeldasime ja vektoriseerisime kogutud failid. Eeltöötlus on oluline esimene samm, sest keelemudeli sisendi pikkus on piiratud ja mõjutab mudeli kasutuskulusid.
Seejärel arendasime tekstiotsingu prototüübi koos tarkvara ja kasutajaliidesega. Kasutaja saab päringut sisestades täpsustada ajavahemikku ja allikaid. Tulemuseks kuvatakse talle kaks vastust: üks mudeli enda teadmusest ning teine analüüsitud allikate põhjal. Läbipaistvuse tagamiseks näidatakse vastuses ära ka viited allikatele, mida mudel vastamiseks kasutas.
Prototüüp on täies hoos
Antud semantilise otsingu rakendus eristub teistest oma ulatusliku eestikeelse teadmusbaasi, pikaajalise testimisperioodi ja laialdase kasutuspotentsiaali poolest. Praegu on prototüüp testgrupi kasutuses ning kogume kasutusstatistikat ja tagasisidet, et rakendust edasi arendada ja täiustada.
Projekti järgmistes etappides on plaanis kaardistada avaliku sektori tekstiandmed ning luua eesti keeles hästi töötav semantilise tekstiotsingu rakendus. Lõpprakendus toetaks laiemalt avaliku sektori ametnike tööd ja on üks samm otsuste ettevalmistamiseks tehtavate tööde automatiseerimisel.
“Prototüüp loodi hanke käigus koostöös TEXTA ja STACCiga, kes suutsid tellija vajadusi hästi tajuda, neid disainimisel arvestada ning keskendusid sealjuures tellija sõnastatud eesmärkide täitmisele. Tulemuseks on teadlikult seatud piiranguid arvestades hästi toimiv prototüüp. Plaanime lähiajal seda edasi arendada ja jõuda tulemuseni, mis aitab poliitikakujundamist efektiivsemaks muuta. TEXTA ja STACC olid partneritena vaieldamatult asjatundlikud. Kasutajaliidese disaini lihtsus sai prototüübi katsetajatelt väga positiivset tagasisidet.”
— Riigikantselei projektijuht Erik Ernits
Riigikantselei Innovatsioonifondi tegevusi ja projekte rahastatakse Euroopa Liidu ühtekuuluvuspoliitika 2021-2027 perioodi meetme „Avaliku sektori innovatsioonivõimekuse tõstmine“ vahenditest.
Autorid: Tarmo Pungas (STACC), Silver Traat (TEXTA), Jane-Liina Liiv (Riigikantselei)
Allikad:
[1] Retrieval-Augmented Generation (RAG), pvml.com
Kaanefoto: Ametniku tööruum, ERA.5637.0.501762, Rahvusarhiivi fotoinfosüsteem