Tekstiandmete statistiline analüüs

Suur osa avaliku sektori andmetest on teksti kujul. Erinevalt numbritest ei saa teksti liita, lahutada ega korrutada. Samal ajal on suurte tekstide statistiline analüüs vajalik suundumuste leidmiseks, kontekstide tuvastamiseks, dokumentide klassifitseerimiseks jne. STACC pakub koostöös oma spin-off-ettevõttega TEXTA lahendusi teksti analüüsimiseks, klassifitseerimiseks ja visualiseerimiseks.

Isikuandmeid sisaldavate dokumentide tuvastamine

Avalik sektor tegutseb isikuandmetega igapäevaselt, kuid need andmed eksisteerivad väga erinevates formaatides (SQL andmebaasid, Word, Excel, PDF jne). Muudetud isikuandmete kaitse üldmääruse kontekstis peab organisatsioonidel olema selge ülevaade sellest, millised dokumendid sisaldavad isikuandmeid. STACC on aastate jooksul välja töötanud eestikeelsete tekstide jaoks anonüümseks muutmise lahenduse, mis tuvastab, kas tekst sisaldab konkreetsele isikule viitavaid tunnuseid (nimi, isikukood, aadress jne).

Andmete pseudonüümimine avatud andmete avaldamiseks

Avalik sektor liigub pidevalt avatud andmete kasutamise suurendamise suunas. Avatud andmete kasutamise eeltingimus on aga andmete anonüümseks muutmine (konkreetseid isikuid ei saa tuvastada). STACC on aastate jooksul välja töötanud eestikeelsete tekstide jaoks anonüümseks muutmise lahenduse, mis tuvastab, kas tekst sisaldab konkreetsele isikule viitavaid tunnuseid (nimi, isikukood, aadress jne) ja pseudonüümib leitud tunnused. Tööriistaga töödeldavaid andmeid saab avaldada avatud andmetena.