Andmete puhastamine kaubanduses: AI-lahenduste rakendamise alustala

Andmete puhastamine kaubanduses: AI-lahenduste rakendamise alustala

Kvaliteetsed andmed on hädavajalikud selleks, et rakendada neile edukalt masinõpet või AI-d ning luua usaldusväärseid ja töökindlaid süsteeme. Kaubanduses, kus kiire otsustamine ja täpsus mõjutavad otseselt ettevõtte kasumit, on andmete kvaliteet kriitilise tähtsusega. Kuna alusandmed pole peaaegu kunagi täiuslikult korrastatud, ühtlased ja korrektsed, sõltub masinõppe- ja AI-projektide edukus suuresti andmete põhjalikust puhastamisest.

Andmete puhastamisel on palju detaile, mida tasub silmas pidada. Lihtsamate näidete hulka kuuluvad kirjavigade parandamine, puuduvate väärtuste täitmine, duplikaatridadega tegelemine ja sobivate andmetüüpide määramine. Keerulisemaks näiteks on andmete agregeerimine ühtlasteks ajasammudeks, näiteks sündmuste ühe tunni kaupa kokku võtmine. Eelnevatele lisanduvad kaubanduses ka valdkonnaspetsiifilised ülesanded, millega STACCil on ulatuslik kogemus.

Andmete integreerimine erinevatest allikatest

Kaubanduses tuleb tihti integreerida andmeid mitmest erinevast allikast, mis on keeruline ja aeganõudev protsess.

Näiteks võivad andmeid luua erinevate kassasüsteemidega allüksused või tütarettevõtted. Toote hinna kujunemine ja kliendi kohta tekkivad andmed on erinevad e-poodide, jaemüügi ja hulgimüügi puhul. Kui ettevõte tegutseb rahvusvaheliselt, võivad andmete kogumist mõjutada erinevad valuutad, seadused ja turutingimused. Sellised andmeallikad tuleb ühtlustada, et neid oleks võimalik ühtses süsteemis tõhusalt kasutada.

Tooteandmete puhastamine

Tooteandmete puhastamine on kaubanduses sageli kriitilise tähtsusega ning keerukusi esineb igas andmetüübis, mida kogutakse.

Ettevõtte protsessid kasutavad erinevaid tooteidentifikaatoreid: triipkoodi, SKU-d, ID-d mõnes andmebaasis vms. Need identifikaatorid võivad erineda ühe ja sama toote suuruste ja värvide lõikes. Kui mõne ärilise eesmärgi saavutamiseks, näiteks soovitussüsteemi loomisel, on vajalik vaadelda tooteid mudeli tasandil, tuleb otsustada, kuidas agregeerida näitajad, mis võivad varieeruda ühe mudeli erinevate variantide vahel.

Kui mõne ärilise eesmärgi jaoks on oluline teada toodete laoseisu, tuleb andmete töötlemine ajastada laoseisu uuenemise järgi ja ühtlustada erinevate andmeallikate laoseisud. Ammu loodud tooteinfo struktuur võib erineda praeguse hetke standardist. Sõltuvalt eesmärgist võib olla vajadus tuvastada ja eemaldada sortimendist väljas olevad tooted ning “võltstooted” nagu kilekotid või pandipakendid, et tagada täpsemad andmed edasiseks analüüsiks.

Kliendiandmete puhastamine

Kliendiandmetega seotud väljakutsed on tihti seotud andmete privaatsusnõuete ja identifikaatoritega.

Isikuandmete puhul tuleb alati tähelepanu pöörata, milliseid andmeid võib eesmärgi jaoks töödelda tavakujul, milliseid tuleks anonümiseerida ning kuidas peab andmeid hoiustama, et vältida andmekaitseseaduste rikkumist.

Sarnaselt tooteandmetele võib ka kliendiandmete puhul katsumusi olla identifikaatoritega. Erinevad süsteemid kasutavad tihti erinevaid kliendiidentifikaatoreid: e-maili aadressi, kliendikaardi numbrit, isikukoodi või ID-d mõnes andmebaasis. Üks isik võib olla registreerunud ka mitu korda erinevate kontaktandmetega ning on tavaline, et inimese kliendikaarti kasutavad tema pereliikmed. Samuti võib ammu loodud kliendiinfo struktuur erineda praeguse hetke standardist.

Ostuandmete puhastamine

Ostuandmete tõhus töötlemine on kaubanduses olulise tähtsusega, sest see mõjutab otseselt analüüsitulemusi ja ärilisi otsuseid.

Sõltuvalt eesmärgist võib olla vajalik ostuandmed viia kujule, mis võimaldab arvutusi teha nii üksikute osturidade kui ka tervete ostukorvidega. Sealjuures tuleb arvesse võtta, kuidas kajastada ostukorviüleseid soodustusi, ning otsustada, kas hinnana on otstarbekam kajastada toote ühe ühiku hinda või kõikide ostetud ühikute koguhinda. 

Andmete töötlemise automatiseerimisel tuleb ostuandmete puhastamise ajastamisel arvesse võtta andmete kättesaadavuse sagedust (andmed võivad uueneda näiteks jooksvalt või igal keskööl) ja viivitust (uued ostud jõuavad kasutatud andmeallikasse kohe järgmisel uuenemisel või näiteks paar päeva hiljem).

Erinevaid andmeid võib eelnimetatutele veelgi lisanduda. Näiteks e-poe kasutusandmeid nagu tootelehe külastusi, võib vaja olla ühendada kliendi muude andmetega. Samuti võib olla vajalik üleriikliku kasutuse tarvis sooduskampaaniate hulgast eemaldada kohalikud kampaaniad.

Kuidas saab STACC aidata?

STACC on aastate jooksul aidanud mitmel kaubandusettevõttel optimeerida andmete puhastamise protsesse ja lahendada keerukaid valdkonnaspetsiifilisi katsumusi. Meie lahendused võimaldavad lisaks andmete korraldamisele luua ka kindla aluse täpsete ja usaldusväärsete AI-lahenduste loomiseks.

Kui soovid teada, kas sinu ettevõtte andmed on valmis AI-lahenduste loomiseks või kuidas selleni jõuda, võta meiega ühendust. Aitame hinnata andmete seisukorda ja luua plaani, mis viib su sammu lähemale andmepõhisele innovatsioonile.

Autor: Andreas Vija