Hoe ga je slim en ethisch om met data science?

Vroeger was data science puur wetenschappelijk. Tegenwoordig kan elke organisatie er mee aan de slag. Bijvoorbeeld om sollicitatiebrieven te screenen, gepersonaliseerde marketingcampagnes op te zetten en coronamaatregelen te toetsen. Toch is voorzichtigheid geboden: er zijn immers valkuilen die grote gevolgen kunnen hebben. Hoe houd je grip op data science?

Data science wordt steeds vaker ingezet. Dat is niet zo gek, want de benodigde tools worden alsmaar beter en betaalbaarder. Daar komt bij dat de hoeveelheid beschikbare big data elke twee jaar verdubbelt. Deze gegevens zijn voor iedereen vindbaar en bruikbaar. “Datasets van gemeenten, verkeer en over de volksgezondheid zijn online te vinden”, zegt Peter Anema, docent van de training ‘Python for data science’. Computrain heeft deze training in het leven geroepen om ontwikkelaars wegwijs te maken in data science. In vijf dagen leren zij bruikbare inzichten uit hun eigen en openbare data te filteren.

Onbegrensde mogelijkheden

Elke dag profiteren wij van de groeiende voordelen van data science. Denk aan online zoekmachines, filevoorspellingen en gepersonaliseerde tips van webwinkels. Ook bij de bestrijding van de coronapandemie heeft data science zijn waarde bewezen. “Toch moeten we kritisch blijven om de valkuilen te vermijden. Het etnisch profileren van de Belastingdienst en het misbruik van Facebook-data door Cambridge Analytica liggen nog vers in ons geheugen”, nuanceert Anema. “Als je niet oplet, gaat het data science-algoritme zijn eigen weg. Met onbedoelde, grote menselijke gevolgen.”

Etnisch profileren

We hoeven niet ver terug te gaan om een voorbeeld van een onbedoeld data science-effect in Nederland tegen te komen. Onlangs was in het nieuws dat de fiscus tussen 2012 en 2015 mensen mede op basis van een dubbele nationaliteit selecteerde voor extra controle. “De fiscus had een zogeheten selectieregel ingebouwd in zijn systemen, die aangiftes voor controle selecteerde als werd voldaan aan vijf criteria. Eén daarvan was het hebben van een tweede nationaliteit”(i), volgens het dagblad Trouw.  Vast niet bewust, maar doordat de data science-tool zo ingesteld was. Anema: “Een typisch voorbeeld van een algoritme dat zijn eigen weg gaat.”

Misbruik van persoonsgegevens

Het bedrijf Cambridge Analytica gebruikte persoonsgegevens voor onder andere de verkiezingscampagne van Donald Trump en de Brexit-campagne. Doordat Cambridge Analytica toegang had tot een gigantische hoeveelheid Facebook-data, konden zwevende kiezers geïdentificeerd en gepersonaliseerd benaderd worden. Zo maakte data science de weg vrij voor microtargeting en beïnvloeding van deze kiezers. Een voorbeeld van misbruik van persoonsgegevens dat maar weer aangeeft hoe belangrijk het is om zorgvuldig met privacy om te gaan.

COVID-19

Tijdens de coronacrisis hebben we positieve voorbeelden van data science gezien. Op basis van diverse datasets en algoritmes kon het RIVM gerichte voorspellingen doen. Bijvoorbeeld hoeveel IC-bedden er maximaal nodig zouden zijn of wat de invloed van kinderen is bij de virusverspreiding. Vandaag de dag helpt data science ons om bovenop de uitbraak te zitten en snel passende maatregelen te nemen. Maar ook hier moeten de softwarebouwers waken voor onbedoeld misbruik: legt een algoritme misschien de verkeerde verbanden? Zien we iets over het hoofd?

Waarom een training?

“Ontwikkelaars moeten een vinger aan de pols houden. Geeft het algoritme ons wel de informatie die we zoeken? Begrijpen we de resultaten? Dat zijn vragen die we onszelf moeten blijven stellen. De mens blijft immers verantwoordelijk voor de technologie. Bovendien is data science een conservatief middel; gegevens uit het verleden bepalen de toekomst. Het is goed om je daar bewust van te zijn”, zegt Anema. In de training Python for data science komt het voorkomen van onbedoeld misbruik uitgebreid aan bod. Zo kun je bijvoorbeeld als ontwerper van een sollicitatiescreening-tool beter geen feature inbouwen om te selecteren op gender of afkomst.

Vraagstelling voorop

Bij de training Python for data science proberen deelnemers antwoord te krijgen op een vraagstelling. Deze vraag destilleren ze uit beschikbare big data, bijvoorbeeld demografische gegevens. “Met de huidige trainingsgroep kijken we naar COVID-19. Daarvoor gebruiken we Nederlandse gegevens van het RIVM, maar ook Europese en wereldwijde datasets”, licht Anema toe. “Zo vergelijken we bijvoorbeeld de besmettingsgraad in verhouding met het aantal inwoners van diverse landen. In de VS zijn op dit moment zo'n 2.000.000 mensen besmet en in Nederland circa 50.000.” Dergelijke cijfers zijn eigenlijk niet te vergelijken omdat de inwoneraantallen van elk land verschillen.

Bring your own data

Naast openbare gegevens, gebruiken deelnemers bij de training Python for data science ook hun eigen gegevens. “Bring your own data, noemen we dat. Een hands-on aanpak waarmee deelnemers leren om hun nieuwe expertise direct toe te passen op de dagelijkse praktijk”, zegt Anema. In de training komt het data science-traject van A tot Z aan bod. “Van het binnenhalen, onderzoeken en opschonen van gegevens, tot de analyse, het omzetten naar grafieken en tabellen, statistiek en voorspellen aan de hand van machine learning.”

De fouten uit het verleden en het belang van data tijdens de coronacrisis vormen het harde bewijs: data science speelt een steeds grotere rol in onze samenleving. Daardoor wordt het ook alsmaar belangrijker om hier slim en ethisch mee om te gaan. Bovendien kan data science businessvoordelen opleveren zoals een gestroomlijnde productie, gepersonaliseerde marketing of voorspelling van trends. Kortom, redenen genoeg om hier als organisatie snel mee aan de slag te gaan.

Wil je data science slim en ethisch leren toepassen?

Lees meer over de training Python for data science>>

Wellicht ook interessant