Data cleansing: meer dan alleen het schonen van data

Data cleansing: meer dan alleen het schonen van data

22 oktober 2021

Een persoon die werkt op de computer om data cleansing uit te voeren

Is de datakwaliteit van jouw organisatie netjes in kaart gebracht? Mooi! Dan kan de weg naar (nog) betere datakwaliteit beginnen! Het blijft namelijk niet alleen bij kwaliteit meten. Meten is slechts de start van het traject waarbij je de datakwaliteit écht omhoog gaat brengen: data cleansing. Data cleansing is het kloppend en actueel maken van data en dat kan op verschillende manieren. Business consultant Lorena Tol legt uit welke manieren dat zijn en hoe je de juiste ‘schoonmaakmiddelen’ selecteert voor jouw dataprobleem. 

Data cleansing: wat is het precies?

Data cleansing is het proces waarbij missende of foutieve data wordt opgezocht en gerepareerd, zodat de data weer voldoet aan de kwaliteitsnormen van de organisatie en de toezichthouder. In organisaties wordt ook wel gesproken van ‘dweilen’; het letterlijk schoonmaken van data. Maar hoe maak je data dan ‘schoon’? Dat kan op twee manieren: handmatig of geautomatiseerd. Beide methoden hebben voor- en nadelen en passen beter bij specifieke dataproblemen. Uiteraard kan ook een combinatie van beide methoden worden ingezet. Sterker nog, dit zien wij binnen ITDS als een veelgebruikte oplossing in de markt. Wat kenmerkt het beide vormen?

 

Handmatig versus geautomatiseerd data cleansing

Handmatig cleansen

Bij handmatig cleansen bekijkt een Data Quality Analist per stuk de records. Deze zoekt in interne systemen en archieven of bij externe trusted sources (zoals het KVK-register) naar de juiste data. Soms wordt contact opgenomen met de klant om de juiste data te achterhalen of te verifiëren. Data Quality Analisten kunnen ook ingezet worden om de data daadwerkelijk te repareren in de systemen. 

Geautomatiseerd cleansen

Het alternatief is om data geautomatiseerd te cleansen. Hierbij wordt tooling ingezet om grote aantallen records tegelijkertijd te verrijken en/of te repareren. Om succesvol geautomatiseerd te werk te gaan, zijn twee onderdelen essentieel: Een goede voorbereiding en de juiste tooling. Geautomatiseerd cleansen vereist een doordacht plan van aanpak, waarbij heldere requirements opgesteld moeten worden. Onder andere over hoe de data er uit moet gaan zien, waar de benodigde informatie vandaan gehaald moet worden en onder welke omstandigheden je data wel/niet gaat wijzigen. Daarnaast is infrastructuur nodig waarmee je de data op een plaats kunt ontsluiten en heb je tooling nodig om de analyses uit te voeren en de juiste data te corrigeren in de systemen.  

 

De voor- en nadelen op een rij

Handmatig cleansen

Handmatig data cleansen is een tijdrovend en kosteninefficiënt proces. Daarnaast ontstaat het risico op fouten als mensen handmatig gegevens opzoeken en aanpassen in systemen. Een goede vastlegging van werkafspraken en heldere controlemechanismen zijn daarom noodzakelijk bij het handmatig schonen. Het aanpassen van een ogenschijnlijk simpel veld als een KVK-nummer kan daardoor al snel veel tijd in beslag nemen. 

Handmatig schonen is echter noodzakelijk als het opzoeken of verbeteren van data zo complex is dat het proces niet gevat kan worden in ‘rules’. Het is dan niet mogelijk om het proces te automatiseren. Dit is bijvoorbeeld het geval als er specifieke kennis van producten en/of portefeuilles benodigd is. Het kan ook zijn dat een automatische upload van gegevens niet toegestaan of niet mogelijk is. 

Geautomatiseerd cleansen

Bij geautomatiseerd cleansen is het risico op menselijke fouten kleiner, doordat je kunt werken met ingebouwde controlemechanismen. Op deze manier kunnen eventuele fouten in de geschoonde data snel opgespoord en hersteld worden. Daarnaast kunnen in een korte periode grote aantallen datavelden op een gestandaardiseerde manier worden opgeschoond. 

Het nadeel van geautomatiseerd cleansen is dat het aanschaffen van de juiste tooling kostbaar kan zijn. Daarnaast zijn niet alle dataproblemen geautomatiseerd op te lossen en blijft een handmatige analyse en herstelactie noodzakelijk.

 

In drie stappen naar een plan van aanpak voor jouw dataprobleem

Elk dataprobleem is anders. Hoe weet je welke oplossing bij jouw dataprobleem past? Hiervoor hanteren wij drie stappen: 

  1. Beoordeel de impact en prioriteit van het dataprobleem.
    Deze beoordeling kun je meenemen in de keuze voor een oplossingsrichting. Is er bijvoorbeeld sprake van korte tijdslijnen, dan gaat een handmatige oplossing misschien te lang duren. 
  2. Onderzoek waar je de gevraagde data zou kunnen vinden.
    Vereist dit specifieke kennis van ervaren medewerkers of is data heel gemakkelijk op een standaard plek te vinden (bijvoorbeeld in een bepaalde archiefmap)? Dit heeft impact op de mogelijkheden voor het toepassen van tooling. 
  3. Onderzoek tenslotte hoe je de verrijkte data wilt verwerken in de systemen.
    Is het mogelijk om de data via een batch te uploaden in het bronsysteem? Of heeft het wijzigen van data direct klantimpact en moeten klanten daarover individueel benaderd worden? 

 

Blijf niet dweilen met de kraan open

Het is een cliché, maar daardoor niet minder waar. Data cleansing gaat om het repareren van bestaande data. Belangrijker nog is om te zorgen dat de data niet opnieuw vervuild raakt of dat nieuwe data onjuist opgevoerd wordt. Voor een structurele oplossing is het daarom belangrijk om de root-cause van het dataprobleem te achterhalen en deze aan te pakken. Doe je dat niet, dan blijft het letterlijk dweilen met de kraan open. 

 

ITDS helpt klanten bij het opschonen van hun data. Benieuwd naar onze ervaringen met handmatig en geautomatiseerd schonen? Heb je hulp nodig bij het bepalen van de beste data cleansing strategie? Of wil je weten hoe je dataproblemen bij de bron kunt aanpakken? Laat het ons weten! Neem contact op met Lorena via l.tol@itds.nl


Gerelateerde berichten

 Bekijk alle berichten
web-monitoring-ok