Maak van data science geen rocket science

Big data: als we de experts mogen geloven, veranderen ze de wereld. De onze, in ieder geval. Maar hóé doen ze dat? En hoe zet je ze nou echt effectief in? In ieder geval niet door er eindeloos over te filosoferen, vindt Gerrit Vos.

Data Science, ofwel Big Data: we raken er niet over uitgepraat. Is het een hype of here to stay? Data zou het belangrijkste zijn van een organisatie. Sterker nog: het zou op de balans moeten staan. Goeroes maken vergelijkingen met de impact die het internet 20 jaar geleden had. Het is een radicale verandering, zeggen ze. Disruptive, bovendien. Congres-organiserend Nederland vaart er wel bij. Dat is mooi voor ze. Het is alleen de vraag of het wel allemaal zo nieuw is als voorgedaan wordt.

Laten we even teruggaan naar de basis. Bij systemen zijn er twee zaken relevant: processen en gegevens. Beide kun je niet los van elkaar zien. Het zijn Adam en Eva. Processen kunnen goed functioneren. Maar als er niets wordt vastgelegd, is het vluchtig. Slechts een ervaring. Als een leuk avondje stappen met vrienden, maar zonder iPhone. Iets vergelijkbaars geldt ook voor data. Geweldig, al die foto’s, maar als je ze af en toe niet laat zien, had je ze ook niet hoeven te maken.

Talloze methodieken

In de afgelopen jaren zijn er talloze methodieken geïntroduceerd om systemen te ontwikkelen. De ene methodiek legde het accent op de proceskant (BPM), de ander op de datakant (EAR). Er waren ook combi’s (ISAC). Door de komst van de agile-methodieken is die discussie naar de achtergrond verdwenen. Het accent bij nieuwe methodieken ligt meer op samenwerking, eigen verantwoordelijkheden en tools.

Daarom is het nu grappig te zien dat de discussie over wat belangrijk is weer oplaait. De invalshoek is wel anders: het gaat nu om kansen die nieuwe technische mogelijkheden bieden. Was het in het verleden onmogelijk om honderden terabytes aan ongestructureerde data vast te leggen en te doorzoeken, nu is het een kwestie van de juiste tools, de juiste data scientist en de portemonnee trekken en voilà! De klus is geklaard.

Drie vragen

Organisaties die met Data Science aan de gang willen gaan, moeten zichzelf drie vragen stellen: waar beginnen we, welke tools moeten we gebruiken en wat moeten we met onze datawarehouse?

Waar beginnen we?

Het antwoord op de eerste vraag is simpel: begin er niet aan als je geen concreet probleem hebt met je informatievoorziening. In al die andere gevallen: formuleer het probleem (en het moet een echt probleem zijn!) kort en krachtig.

Welke tools?

De tweede vraag lijkt lastiger, want er is een woud aan mogelijkheden. We kunnen ze verdelen in drie categorieën: BI-tools (heel veel), artificial intelligence/machine learning tools (niet zoveel) en echte data science tools (weinig). De laatste categorie is het interessantst. Deze combineert datavisualisatie, intelligentie, een ongekende opslagcapaciteit (gestructureerd en ongestructureerd) en het snel boeken van resultaten. Het lijkt een lastige keuze, maar het is een stuk eenvoudiger als je weet wat je zoekt.

Wat moeten we met onze datawarehouse?

Komen we bij onze derde vraag. Wat doen we met onze datawarehouses? Sommige specialisten geloven dat er een geleidelijke transitie van datawarehouses naar datalakes mogelijk is. Misschien is dat ingegeven door de enorme kapitalen die er in geïnvesteerd zijn (en wie gaat nou z’n baas of aandeelhouders vertellen dat…). Anderen, waaronder ikzelf, zetten vraagtekens bij zo’n geleidelijke transitie. De principes van gestructureerde (bestanden, databases) en ongestructureerde opslag (foto’s, e-mails, Excels, dossiers) zijn totaal verschillend. Laat staan de mogelijkheden om externe bronnen te betrekken bij de analyse of procesuitvoering. Begrijp me niet verkeerd, datawarehouses zijn nog heel nuttig en zullen nog jaren dienstdoen. Maar op termijn moeten we ze vervangen door data science-tools die alle bedrijfs- en externe databronnen kunnen benaderen.

Komen we terug bij die allereerste vraag. Wat is nou belangrijk: data of processen? Data mining of Process mining? Volgens mij is het simpel: soms het een soms het andere. Het hangt van de vraag af. Slim gebruik levert de beste resultaten op. En wie helemaal slim is, bekijkt ze samen. Adam en Eva!