Õhtuleht

#natural language #predictive analytics Machine Learning masinõpe

Ajaleht Õhtuleht hakkas ilmuma 1944. aasta oktoobris, mil sõjast purustatud Tallinna elanikele oli pärast Saksamaa vägede lahkumist hädavajalik anda igapäevast tarbeinfot. Tallinna linnalehena ilmus Õhtuleht 1997. aasta märtsini ja tegi siis pöörde tabloidi suunas, hakates pakkuma sensatsioonilisemaid ja rohkem üksikostjale suunatud uudiseid, meelelahutust ja tarbijainfot.

Mida lahendasime?

Õhtulehe veebiformaadi kommentaariumis leidus hulgaliselt sobimatu sisuga diskrimineerivaid, halvustavaid või muud moodi kohatuid kommentaare, mis oleksid võinud Õhtulehele ebaeetilise sisu omamise eest kaasa tuua süüdistusi või isegi trahve. Lõime lahenduse, mis aitas taolised kommentaarid välja filtreerida, vähendades nõnda Õhtulehe toimetajate kommentaariumi haldamisele ja puhastamisele kulunud aega.

Kuidas lahendasime?

Ehitasime veebi API (application programming interface – rakendustarkvara liides), mis võimaldab masinõppemudeli, reeglite ja keeleressursside abil tuvastada soovimatu sisuga kommentaare. Masinõppemudeli loomisel kasutasime Õhtulehe artikleid ja andmeid ning lisaks lõime erinevaid soovimatu sisu leksikone vägivallast ja ähvardustest rassismini. Sisendtekste töödeldi enne mudelile etteandmist loomuliku keele töötluse häid praktikaid kasutades. Meie logistilise regressiooni mudel tuvastas 6 erinevat tüüpi soovimatut sisu.

Milline oli kasu?

Õhtulehe kommentaarium muutus puhtamaks ja vähenes sobimatu sisu omamise eest süüdistuste saamise risk. Lisaks muutus kommentaariumi sisu haldamine lihtsamaks ja kiiremaks ning avanes võimalus tööressursse ümberpaigutada.