Op 15 september organiseerde ik voor de gemeente Den Haag een (Open) Data Hunt.* Die dag zijn we met zo’n tien medewerkers van de gemeente op zoek gegaan naar datasets die we als Open Data beschikbaar kunnen stellen aan het publiek.
Het was een enerverende dag waar veel energie los kwam! Open Data leeft écht bij de deelnemers, maar op dit moment zijn er vooral veel vragen. Dat is ook logisch, gezien het punt waarop de ontwikkeling van Open Data zich op dit moment bevindt.
Vandaag ga ik in op een van de vragen die gedurende de dag naar boven kwam. Het is een wat langere post, let’s dig in!
De vraag
“De hergebruiker (journalist, programmeur, app-bouwer, etc.) mag niet rommelen met data. Het is tenslotte overheidsdata. Als de hergebruiker deze data eerst aanpast en dan verwerkt in zijn toepassing, dan kijken de burgers de overheid aan op foute data. Hoe los ik dat op?”
De eerste reflex die ik heb is om heel hard te roepen: “Als de hergebruiker het aan wil passen is dat zijn zaak. Als de overheid de informatie vrijgeeft als Open Data mag de hergebruiker er alles mee doen. Ook aanpassen!” Maar als ik eerlijk ben, dan weet ik dat ik hiermee de zorgen van de gemeente-ambtenaar niet wegneem. De zorg is reëel en past binnen de cultuur waarin hij verantwoordelijkheid wil nemen voor zijn data. Dat is bewonderenswaardig. Roepen dat dit “…nu eenmaal bij Open Data hoort…” zal er niet voor zorgen dat er meer data beschikbaar komt. Het zal eerder een averechts effect hebben.
Maar hoe kun je dit dan wél regelen? Ik verken in deze post drie opties, voel je vrij om me aan te vullen in de comments! De eerste heeft betrekking op het verstrekken van licenties aan hergebruikers, de tweede is een technische optie en de derde is een juridische oplossing.
Certificering als oplossing
De eerste manier om een garantie te krijgen op het gebruik van de data is het verstrekken van certificaten. Een gemeente kan certificaten verstrekken aan hergebruikers die plechtig beloven de data niet aan te passen.
Dit lijkt een goede oplossing, maar het schendt het principe dat open data aan iedereen verstrekt wordt. Nu sluit de gemeente iedereen uit die geen certificaat heeft. Dat is deels op te lossen door – net als een API-key – de certificaten aan iedereen te verstrekken die er om vraagt. Het probleem is dat je met het intrekken van een certificaat niet de toegang tot de data blokkeert. Dat is bij het intrekken van een API-key wel het geval. Het is een wat minder solide oplossing.
Een andere moeilijkheid is dat veel hergebruikers geen professionals zijn. Het zijn studenten, start-ups of hobbyisten die laagdrempelig aan de slag willen met de data. Zij zitten niet te wachten op het halen van een certificaat of het doorlopen van een certificeringsprocedure. Hiermee verhoogt de gemeente de drempel voor het werken met open data, waardoor er minder potentiële hergebruikers zijn. Juist zij zijn essentieel voor het bedenken van zinnige toepassingen op basis van de data die de gemeente zojuist open heeft gesteld!
De technische oplossing
Een tweede oplossing heeft een technisch karakter. Door de data uitsluitend beschikbaar te stellen via een directe technische koppeling (API) vergroot je de kans dat applicaties direct gekoppeld zijn aan het betreffende bestand. Hierdoor levert de gemeente direct en real-time de data aan de applicatie. Het is voor een hergebruiker lastiger om real-time de data te verminken dan het verminken van een bestand dat eenmalig is verstrekt.
Als de applicatie van de hergebruiker alleen bij de data kan doordat de toegang is verkregen via een sleutel (API-key) kan de gemeente de sleutel intrekken. Hierdoor kan de applicatie niet meer bij de data. Dit geeft de gemeente een middel mom de hergebruikers die de data verminken de toegang tot de data weigeren. Dit geeft de gemeente een controlemiddel om een juist gebruik van de data af te dwingen. Dit hoeft geen onrecht te doen aan het principe dat open data aan iedereen en zonder opgave van reden verstrekt wordt (non-discriminatoir), zolang iedereen een sleutel aan kan vragen en de gemeente deze altijd verstrekt. Via een simpel systeem is het mogelijk zo’n sleutel in seconden te verstrekken via e-mail.
Dit lijkt een solide oplossing, maar helaas is er niets dat de hergebruiker er van weerhoudt om de dataset in één keer binnen te halen, de data aan te passen en die aangepaste data te verwerken in zijn applicatie. Dat zijn erg veel stapjes en het is niet waarschijnlijk dat iemand die moeite doet om de data te verminken. Maar het kan wel.
Bovendien zijn de meeste overheden nog niet zo ver dat ze de data op deze geavanceerde manier aan kunnen bieden. De meeste bestanden zijn niet via een API beschikbaar. Bovendien zijn bestanden die de overheid via een API aanbiedt vaak eerder al als ‘plat’ bestand beschikbaar gesteld.
Overigens is het de meeste eindgebruikers niet duidelijk dat bepaalde data alleen hergebruikt mag worden in applicaties die zijn gemaakt door een gecertificeerde hergebruikers. Als de app voor hun waardevol is gebruiken ze hem toch wel!
De juridische oplossing
De laatste optie heeft betrekking op de licentie. De data die als Open Data beschikbaar komt heeft bij voorkeur de CC0-licentie. Met deze data mag iedere hergebruiker alles doen. De ‘0’ staat dan ook voor ‘geen enkele beperking’. Het is de licentie waarmee het mogelijk is maximaal afstand te nemen van de rechten die de gemeente op de data heeft. Deze licentie bevat ook een maximale vrijwaring van verantwoordelijkheid. Dat betekent dat je niet verantwoordelijk bent voor de gevolgen van (verkeerde) beslissingen die anderen op basis van die data nemen. Ook niet als de data onjuist blijkt te zijn.
Deze licentie is niet strikt genoeg, omdat het de gemeente geen zekerheid geeft over de wijzigingen die de hergebruiker doorvoert in de data.
Een variant op deze licentie is de CC-BY-ND. Toepassingen die data bevatten die onder deze licentie beschikbaar is moeten verwijzen naar de auteur van de data. In dit geval de gemeente Den Haag. Dit is het ‘BY’-deel van de afkorting. Het ‘ND”-deel staat voor ‘No Derivative Works’. Dit betekent dat hergebruikers op basis van de data geen afgeleide werken mogen maken. Het gevolg is dat je onder deze licentie geen combinaties mag maken met andere databronnen om een nieuwe app te maken. Ook mag je de data – voor zo ver ik begrijp – niet op een andere manier visueel presenteren. Plotten van data op een kaart is bijvoorbeeld niet toegestaan. Deze licentie is te strikt, omdat de crux van Open Data voor een groot deel zit in de creatieve combinatie van Open Data.
Op basis van deze twee licenties kom ik tot de conclusie dat er binnen Creative Commons geen passende licentievorm is om dit probleem op te lossen.
Er lijkt echter wel behoefte aan een tussenvariant. Deze variant moet ruimte laten om van de data een afgeleid werk te maken. Hierdoor is een andere weergave van de data mogelijk, net als het combineren met andere bronnen. Deze licentie moet echter wel de beperking opleggen dat de inhoud van de dataset ongewijzigd blijft. Dit geeft overheden iets meer controle over de manier waarop hergebruikers hun data verwerken, maar laat voldoende ruimte voor innovatie op basis van die data. Een licentie die garandeert dat er niet gerommeld is met de data. Een soort ‘Non Derivative Works Inside’-licentie: NDI.
Conclusie
Van de drie opties (certificaat, techniek, licentie) lijkt een aangepaste licentie het meest bruikbaar voor de gemeente. Het geeft een beetje controle over het hergebruik van de data, maar laat wel ruimte voor innovatie en nieuwe toepassingen. Als een burger de overheid er op aanspreekt kan de overheid duidelijk maken onder welke voorwaarden zij de data heeft verstrekt. De gemeente kan aantonen dat zij zorgvuldig is geweest in het bewaken van de kwaliteit van de data en dat zij een juridische maatregel heeft getroffen om de kwaliteit te garanderen. Zelfs tot na het moment dat zij de data openbaar maakte! Meer kan ze niet doen.
Zowel de optie waarbij de gemeente certificaten verstrekt of alleen een koppeling aanbiedt laten te veel ruimte om de data aan te passen. Natuurlijk is die ruimte er bij een op maat gemaakte licentie ook, maar dan met het verschil dat de hergebruiker de formele afspraken schendt en daarmee de wet overtreedt. Dit instrument geeft de gemeente meer houvast dan een technische oplossing of het verstrekken van certificaten.
* Natuurlijk doe je zoiets niet alleen. Het was mede mogelijk doordat ik op de schouders kon staan van de volgende reuzen: Menno van der Horst (Den Haag) en Ewoud de Voogd (HowAboutYou), Paul Suijkerbuijk (data.overheid.nl) en natuurlijk mijn collega Tom Kronenburg (Zenc).
De overheid moet niet langer instaan voor de kwaliteit van de toepassingen die met de data worden gemaakt. Ze kan garant staan voor de kwaliteit van de aangeboden datasets, maar het vertrouwen in de toepassingen zal afhankelijk zijn van het vertrouwen in de organisatie die ze maakt. Zo zal men sneller een toepassing van een universiteit vertrouwen dan één van een reclamebureau. Ik vind dus dat het beter is om net niet te proberen garant te staan voor de toepassingen in licentieformules of met api’s. Het is dan duidelijk dat de verantwoordelijkheid van de overheid eindigt bij het aanbieden van de dataset.
Professor Hans Rosling (@hansrosling) reist de wereld af met zijn Gapminder toepassing, die voornamelijk gevoed wordt met data van de Verenigde Naties. Niemand trekt die man zijn conclusies in twijfel.
Kortom (ik gebruik dat woord graag), de overheid moet leren loslaten. Ze heeft datasets gemaakt met publieke middelen, met als doelstelling de burger te dienen. Het is logisch dat ze ook die data aan de burger aanbiedt.
Ik mis nog de optie “verificatie”. Overheden zouden ook eenvoudige tools kunnen leveren waarmee je als gebruiker van een app kunt controleren of de data nog wel correct of actueel is. Dat zou al kunnen door de data doorzoekbaar te maken (we moeten die apps tenslotte niet opnieuw gaan schrijven).
Wellicht dat dit ambtenaren ook een beter gevoel geeft, je geeft tenslotte controlemogelijkheden en voor de incidentele gebruiker van overheidsdata zou het ook zomaar handig kunnen zijn. In de genoemde licentie kun je opnemen dat aangegeven moet worden in de app waar de data vandaan komt en dus ook gecontroleerd kan worden.
Dit zal niet zo goed werken bij grote aggregaties of andere massale bewerkingen maar zoals het artikel al aangeeft kun en moet je niet alles willen controleren.
Hallo Marc en Peter, bedankt voor jullie reacties!
@ Marc, je hebt helemaal gelijk dat de overheid niet in moet wíllen staan voor de kwaliteit van de toepassingen. Die behoefte was er die dag (gelukkig) niet. Dat is tenslotte een onbegonnen zaak! Een aangepaste licentie zou wat mij betreft dan ook alleen betrekking hebben op de data, niet op de toepassing.
Het is logisch dat de overheid de data aanbiedt aan de burger. Het zit in het karakter van veel overheidsorganisaties dat zij zekerheid willen. In dit geval uitte zich dat in een behoefte aan controle op het behoud van de kwaliteit van de dataset, nadat ze deze beschikbaar stellen. Hoewel dat lastig te garanderen is nadat je een set eenmaal hebt vrijgegeven, bewonder ik het streven. Het laat zien dat ze graag kwaliteit willen leveren.
@ Peter, de verificatie-optie zal inderdaad wat lastiger werken bij data die door een hergebruiker is geaggregeerd. Wanneer data doorzoekbaar is, kan een gebruiker van een toepassing zelf bij de bron controleren of de data in de toepassing overeenkomt met de data uit de bron. Dat kan een gebruiker niet alleen helpen om vast te stellen of er met de data is gerommeld, de gebruiker kan zo ook vaststellen of de data in de app verouderd is ten opzichte van de data in de bron!
Pingback: Weerstand tegen Open Data overwinnen: “Afnemers willen de data alleen in een bepaald format” | Peter Keur