Kunstmatige intelligentie (AI)-systemen zijn complexe wiskundige modellen die zijn getraind op data. Deze systemen zijn ontworpen om grote hoeveelheden data te verwerken en analyseren met als doel patronen te herkennen en voorspellingen te doen. AI-systemen worden steeds nauwkeuriger en geavanceerder, deels vanwege de vooruitgang in de technieken en algoritmen die worden gebruikt voor AI, toegang tot grotere computerverwerkingskracht en de bredere beschikbaarheid van data.
Data is een cruciaal onderdeel van AI-systemen. Dit verhaal benadrukt het verband tussen open data en de prestaties van AI-systemen.
Open data en AI hebben het potentieel om elkaars mogelijkheden te ondersteunen en te verbeteren. Enerzijds kan open data AI-systemen verbeteren. Over het algemeen vergroot het blootstellen van AI-systemen aan een groter volume en een grotere verscheidenheid aan data de kans dat het systeem nauwkeurige en nuttige voorspellingen doet. Als zodanig kan open data een bron zijn van grote hoeveelheden uiteenlopende informatie voor AI-systemen.
Op deze manier draagt de beschikbaarheid van open data bij aan beter presterende AI. Een AI-systeem dat is getraind om consumptiepatronen van consumenten in Europa te voorspellen, zal bijvoorbeeld waarschijnlijk beter presteren als het een representatieve selectie van goederen- en dienstentransacties door consumenten in verschillende landen, gemeenten en inkomensgroepen omvat.
Anderzijds kan AI extra waarde uit open data halen. AI kan grote hoeveelheden data analyseren en trends en patronen identificeren die mogelijk niet door andere analysetechnieken aan het licht waren gekomen. Open data bevat rijke informatie en complexe patronen waaruit inzichten kunnen worden afgeleid.
Als krachtige analysetool kan AI de waarde van open data benutten. Een AI-systeem dat is getraind om bosbranden te voorspellen, kan bijvoorbeeld zoeken naar patronen in weergegevens, satellietbeelden en historische trends die standaard statistische vergelijkingen niet kunnen identificeren.
Open data omvat een breed scala aan vakgebieden. Deze verscheidenheid aan gegevens vergroot de mogelijke use cases waarvoor AI-systemen kunnen worden ontwikkeld, waardoor nieuwe AI-gestuurde producten en diensten mogelijk worden. Deze use cases kunnen alleen worden ontwikkeld als de relevante gegevens beschikbaar en gemakkelijk toegankelijk zijn.
De vrije beschikbaarheid van diverse datasets, zoals via open data, is essentieel om innovatie te stimuleren en nieuwe economische kansen te creëren. De hoop is dat innovatieve AI-systemen vervolgens kunnen worden gebruikt om maatschappelijke uitdagingen op te lossen, waardoor sociaaleconomische waarde wordt gecreëerd.
De diverse pool van informatie die open data met name voor AI-systemen kan bieden, kan multidisciplinaire toepassingen mogelijk maken die gegevens over verschillende onderwerpen combineren om nieuwe inzichten te verkrijgen. Een weerdataset kan bijvoorbeeld worden gebruikt om weersvoorspellingen te doen.
Hoewel de breedte van de onderwerpen die door open data worden bestreken brede use cases voor AI-systemen mogelijk maakt, kunnen AI-systemen beter presteren als er uitgebreide open data beschikbaar is over een specifieke use case.
Neem bijvoorbeeld een AI-systeem dat is ontwikkeld om woongebouwen te herkennen. Als de AI alleen wordt getraind op afbeeldingen die in de zomer zijn gemaakt van herenhuizen op het platteland, zal het model slecht presteren als het wordt gevraagd om een stadsappartement te herkennen als een woongebouw.
Het model moet daarom worden getraind op een uitgebreide set voorbeelden om de variaties te begrijpen van wat als een woongebouw wordt beschouwd (in dit geval kunnen factoren zoals architecturale stijl, grootte van het gebouw en de omgeving relevant zijn).
Gegevens die het onderwerp uitgebreid weergeven, stellen AI-systemen bloot aan een breder scala aan scenario’s en variaties. Uiteindelijk kunnen AI-modellen hierdoor beter presteren in situaties in de echte wereld en hun kennis generaliseren wanneer ze worden geconfronteerd met nieuwe gegevens (zoals een foto van een individueel huis dat het model nog niet eerder heeft gezien).
AI-systemen die zijn getraind op niet-representatieve of onvolledige gegevens, lopen het risico bevooroordeelde voorspellingen te doen en onbetrouwbaar te zijn.
De volledigheid van open data draagt bij aan het vermogen van AI-systemen om te generaliseren naar ongeziene voorbeelden zodra deze worden ingezet in de ‘echte wereld’, maar het draagt ook bij aan het concept van datakwaliteit. Enkele kenmerken van datakwaliteit zijn de volledigheid, relevantie, consistentie, uniformiteit en betrouwbaarheid van de gegevens voor de use case die wordt ontwikkeld.
Aan de andere kant worden clusteralgoritmen minder beïnvloed door de nauwkeurigheid van het doel (geen verkeerde labeling van gegevens), uniciteit (geen redundante of gedupliceerde gegevens) en klassebalans. Verschillende open data-initiatieven op wetenschappelijk gebied tonen de impact van open repositories met gestructureerde catalogi van data en gestandaardiseerde dataformaten.
Een grotere vraag naar open data voor nieuwe producten en diensten zou de release van meer datasets en verbeteringen in datakwaliteit kunnen aanmoedigen.