Data is het nieuwe goud. Maar beschik je wel over de juiste tools om deze grondstof te verwerken? FAIR data is de volgende cruciale stap in de datarevolutie: de voorwaarde om sneller en gecontroleerder data te vinden, verwerken en delen.
Steeds meer organisaties willen datagedreven werken, zodat ze hun businessbeslissingen kunnen baseren op complete, real-time informatie. Dat vereist bepaalde technische randvoorwaarden zoals voldoende opslagcapaciteit, geschikte zoektools en software. Juist daar wringt de schoen: organisaties slaan nagenoeg alle data op, verschillende databases functioneren naast elkaar en software integreert niet. Ze raken het overzicht kwijt en kunnen niet meer achterhalen welke gegevens waar opgeslagen zijn. Met als gevolg dat compliancy in het geding komt en het dagen duurt om de juiste informatie te vinden, delen en gebruiken. Want waar staan die gegevens ook alweer? Heb ik toegangsrechten? Is dit het juiste format en heb ik wel de laatste versie?
FAIR data wordt op één locatie opgeslagen, bij de bron. Vanaf daar zijn deze gegevens toegankelijk voor geautoriseerde personen en machines. Bijvoorbeeld om te gebruiken bij een wetenschappelijk onderzoek of voor Artificial Intelligence (AI). “Dat heeft drie voordelen”, zegt Arie Hakemulder, Principal Consultant bij AXVECO, een adviesbureau dat bedrijven helpt om duurzaam te innoveren met technologieën als blockchain en AI. “Ten eerste privacy by design: data is makkelijk te traceren naar de bron. Daardoor beschikken gebruikers altijd over de laatste versie, dat is voordeel twee. Ten derde heeft de eigenaar de controle. Deze persoon of organisatie bepaalt wie, wanneer toegang heeft tot welke gegevens.”
FAIR data voldoet aan vier principes. Het is Findable (vindbaar), Accessible (toegankelijk), Interoperable (uitwisselbaar) en Reusable (herbruikbaar). Deze wereldwijd uniforme afspraken gaan ook over de toepassing van Linked Data-technologie. Linked Data-technologie legt semantische verbanden tussen data uit verschillende bronnen. Het verband is opgebouwd in de vorm ‘onderwerp-gezegde-lijdend voorwerp’. Daardoor is data veel sneller te doorzoeken en wordt alleen relevante data getoond. “Visualiseer alle data als een wolk van gegevens die allemaal onderling verbonden zijn”, licht Hakemulder toe. “Elk stukje data in de wolk heeft een naam, metadata en context.”
Dankzij Linked Data-technologie zijn gegevens sneller te doorzoeken. Niet alleen door mensen, maar vooral door machines. De kracht van machines wordt ingezet om patronen in de verbanden te ontdekken. Hakemulder: “Machines zijn in staat om de enorme massa beschikbare data te doorzoeken en patronen daarin te visualiseren. Die patronen kan je zichtbaar maken in zogenaamde knowledge graphs. Mensen interpreteren deze en kunnen op basis daarvan conclusies trekken en beslissingen nemen over zaken die zonder inzet van machines nooit, of pas veel later, bekend zouden zijn.”
We zitten op een enorme berg data: een gigantische hoeveelheid die per half jaar verdubbelt. Die exponentiele groei vraagt niet alleen om FAIR data, maar ook om hulp van machines om deze gegevens te verwerken. Als mens zijn we daar eenvoudigweg niet toe in staat. Daar komt bij dat data scientists weinig tijd hebben om datasets geschikt te maken voor machines. Zij zijn nu al 80 procent van hun tijd kwijt om data op te schonen. FAIR data biedt de oplossing. “FAIR data wordt opgeslagen met de context en specifieke metadata . Voor een document is metadata bijvoorbeeld de auteur, datum van opmaak en de uitgever. Voor een foto kan dat de locatie, sluitertijd, diafragma en filter zijn”, zegt Hakemulder. “Daardoor heeft elk gegeven voor een machine maar één unieke identiteit en kunnen machines data veel sneller en zonder fouten doorzoeken en verwerken. Dat doen ze door patronen te herkennen en afwijkingen te identificeren.”
De oorsprong van FAIR data ligt in de wetenschap. Onderzoekers zochten naar manieren om gegevens makkelijker te kunnen vinden en delen, zodat hun collega’s niet het wiel telkens opnieuw uit hoeven te vinden. Zij kunnen dan in hun onderzoek voortborduren op de resultaten uit eerdere onderzoeken. Deze zijn immers vindbaar, toegankelijk, uitwisselbaar en herbruikbaar. En dat komt de wetenschap – en maatschappelijke doelen die het dient – ten goede. Door de enorme datagroei en technologische beperkingen zien ook steeds meer bedrijven en overheden de voordelen van FAIR data. Banken op het vlak van governance, compliance en fraudedetectie, zorginstellingen bij het delen en analyseren van medische gegevens en bouwbedrijven bij het nauwkeuriger inschatten van aanbestedingskosten.
De overheid loopt voorop in het gebruik van FAIR data. Hiermee kunnen instellingen zoals De Belastingdienst, Rijkswaterstaat en gemeenten sneller persoonsgegevens doorzoeken, patronen herkennen en afwijkingen ontdekken. Dat maakt het eenvoudiger om wet- en regelgeving te handhaven en uit te voeren. Bijvoorbeeld bij het ontdekken van belastingfraude of veilig delen van informatie uit de gemeentelijke administratie. Want dankzij FAIR data kunnen overheden processen automatiseren. Medewerkers hoeven gegevens voor rapportages niet meer zelf te zoeken of handmatig in te voeren. Dat zorgt ook voor minder fouten, een betere datakwaliteit en veiligere uitwisseling.
Wil je binnen jouw organisatie met FAIR data gaan werken? Bij Computrain hebben we daar twee trainingen voor ontwikkeld:
FAIR Data Awareness – de eerste kennismaking met FAIR data. Hoe maak je data FAIR en welke directe voordelen levert dat jouw organisatie op?
FAIR Data Stewardship – Hoe zorg je dat FAIR data in jouw organisatie goed gebruikt wordt en hoe beleg je dat per afdeling? Ook ontdek je hoe je FAIR data keten breed kunt inzetten. Want hoe meer organisaties overstappen, hoe groter de voordelen.
Met FAIR data maak je voorgoed een einde aan overstromende data lakes waarin allerlei gegevens opgeslagen zijn in hun oorspronkelijke format, zoektochten naar de laatste versie, tijdrovende opschoning van datasets en compliancy issues door gebrek aan data governance. Je kunt als organisatie doorgroeien voorbij de technologische beperkingen, boekt gigantische tijdswinst en vermindert menselijke fouten. Tegelijkertijd bespaar je op storage, back-up- en stroomkosten. En last but not least, je kunt voortborduren op eerdere datagedreven inzichten voor nieuwe onderzoeken, efficiëntere werkprocessen en businessmodellen. Daarmee zet je als organisatie de volgende stap richting een datagedreven business.