met mate

In de begindagen van AI-ontwikkeling was de heersende overtuiging dat meer data tot betere resultaten leidt. Maar naarmate AI-systemen geavanceerder zijn geworden, is het belang van datakwaliteit belangrijker geworden dan kwantiteit. Er zijn verschillende redenen voor deze verschuiving. De grote datasets zitten vaak vol met fouten, inconsistenties en vooroordelen die onbewust de uitkomsten van het model kunnen verdraaien. Met een overmaat aan data wordt het moeilijk om te controleren wat het model leert, wat ertoe kan leiden dat het zich fixeert op de trainingsset en de effectiviteit ervan vermindert met nieuwe data. Het “meerderheidsconcept” binnen de dataset heeft de neiging om het trainingsproces te domineren, waardoor inzichten uit minderheidsconcepten worden verdund en de generalisatie van het model wordt verminderd. Het verwerken van enorme datasets kan de iteratiecycli vertragen, wat betekent dat kritieke beslissingen langer duren naarmate de hoeveelheid data toeneemt. Tot slot kan het verwerken van grote datasets kostbaar zijn.

Organisaties moeten een delicate balans vinden tussen het hebben van voldoende data om robuuste modellen te trainen en ervoor zorgen dat het de juiste data is. Dit betekent dat ze verder moeten kijken dan data-accumulatie en zich moeten richten op datakwaliteit. Door te investeren in praktijken zoals opschonen, valideren en verrijken, kunnen bedrijven ervoor zorgen dat hun AI-modellen niet alleen zijn gebouwd op een solide basis van hoogwaardige gegevens, maar ook goed zijn voorbereid om te schalen en effectief te presteren in echte productieomgevingen.

Uit een onderzoek is gebleken dat slechte datakwaliteit de economie jaarlijks ettelijke biljoenen kost. In alle sectoren is dit probleem de hoofdoorzaak van AI-initiatieven die vastlopen na een proof of concept, waardoor middelen worden uitgeput en bedrijven worden geblokkeerd om volledige productieschaal-AI te bereiken.

Naast directe financiële verliezen brengen mislukte AI-projecten aanzienlijke indirecte kosten met zich mee, waaronder verspilde tijd en computerbronnen. Het allerbelangrijkste is dat deze mislukkingen gemiste kansen voor een concurrentievoordeel vertegenwoordigen en zowel interne als externe reputaties kunnen schaden. Herhaalde mislukkingen kunnen een cultuur van risicomijdendheid creëren, waardoor de innovatie die AI belooft te leveren, wordt onderdrukt.

Daarbij blijkt dat datawetenschappers ongeveer 80% van hun tijd besteden aan het voorbereiden en organiseren van data voordat ze zinvolle analyses kunnen uitvoeren.

Om de kernuitdaging van slechte datakwaliteit te overwinnen, moeten AI-datasets met hoge prestaties vijf belangrijke kenmerken vertonen:

Nauwkeurigheid bij het weergeven van scenario’s uit de echte wereld,

Consistentie in formaat en structuur,

Diversiteit om de aanpasbaarheid te verbeteren,

Relevantie voor specifieke doelstellingen en

Ethische overwegingen bij het verzamelen en labelen van data.

Om de uitdagingen van AI-ontwikkeling het hoofd te bieden, moeten organisaties de volgende concrete stappen ondernemen om hun datapraktijken te verbeteren:

Stel duidelijke data governance-beleidsregels op:

Organisaties moeten uitgebreide data governance-beleidsregels opstellen die rollen, verantwoordelijkheden en normen voor databeheer schetsen. Deze richtlijnen zorgen voor een uniforme datakwaliteit in de hele organisatie, waardoor het risico wordt verkleind dat slechte data de besluitvorming beïnvloeden.

Implementeer rigoureuze data cleaning-technieken: Gebruik technieken zoals outlier detection, imputation for missing values ​​en normalization om de integriteit van datasets. Deze praktijken helpen ervoor te zorgen dat de data die voor AI-modellen worden gebruikt, nauwkeurig en betrouwbaar zijn.

Investeer in nauwkeurige labelprocessen: Hoogwaardige labels zijn essentieel voor de precisie van het model. Geautomatiseerde datalabeling kan aanzienlijke voordelen bieden ten opzichte van handmatige labeling door kosten te verlagen en het proces te stroomlijnen. Een hybride aanpak die geautomatiseerde tools combineert met menselijk toezicht kan echter de nauwkeurigheid verbeteren door de sterke punten van beide methoden te benutten.

Brongegevens uit diverse en betrouwbare bronnen: Bedrijven moeten diverse databronnen zoeken om vooringenomenheid te verminderen en de modelprestaties te verbeteren. Voorbeelden hiervan zijn openbare datasets, branchespecifieke databases en externe dataproviders. Het is cruciaal om ervoor te zorgen dat deze bronnen betrouwbaar zijn om de datakwaliteit te behouden.

Maak gebruik van geavanceerde databeheertools: Om voortdurende AI-prestaties te garanderen, maakt u gebruik van geavanceerde databeheertools om trainingsdatasets continu te cureren en bij te werken. Datadistributies kunnen in de loop van de tijd veranderen in productieomgevingen en deze tools kunnen bedrijven helpen datasets dienovereenkomstig aan te passen.

wrijving

Ondanks al het enthousiasme over generatieve kunstmatige intelligentie, is er terechte bezorgdheid over de mogelijkheid van vooringenomenheid of onnauwkeurigheden, zelfs met enige mate van menselijke tussenkomst.

Deze zorgen worden groter naarmate de technologie toegankelijker wordt en de manieren waarop het gebruikt wordt toenemen.

Om ons op de hoogte houden is er de roep om toezicht te houden op AI in de hoop vertrouwen te behouden en risico’s te beperken. Maar de meeste mensen zijn niet zo goed in het herkennen van fouten als ze denken en hebben de neiging om zich te baseren op door AI gegenereerde content, zelfs als ze weten dat er een kans op fouten is.

Wrijving over het gebruik van ai modellen moet niet universeel als slecht worden beschouwd in de context van AI, maar eerder kan dienen als een doelbewust hulpmiddel om verantwoordelijker en succesvoller generatief AI-gebruik te bevorderen.

Echter evolueer de gereedheid en volwassenheid van de organisatie voordat generatieve AI wordt uitgerold in de organisatie. Organisaties moeten eerst hun volwassenheidsniveau begrijpen als het gaat om verantwoordelijke AI, inclusief hun vermogen om te voldoen aan normen en voorschriften.

Beoordeel het risico van het AI-systeem. Niet alle AI-systemen vereisen hetzelfde niveau van controle. Bij het gebruik van hulpmiddelen zoals gerichte wrijving is het belangrijk om drempels aan te passen aan wanneer en waar het nodig is in de context van het algehele risico.

Omarm systematische, gestructureerde ondersteuning. Individuele oplossingen zullen de nauwkeurigheid en vooringenomenheid niet grondig aanpakken, omdat gebruikers hun vermogen om door AI gegenereerde fouten te identificeren, kunnen overschatten. Hoewel we baat hebben bij drempels, realiseren we ons niet dat de drempels ons hielpen om nauwkeuriger te zijn. Dit suggereert een overmoedige bias, waarbij we misschien denken dat we beter in staat zijn om door AI gegenereerde fouten te detecteren dan we in werkelijkheid zijn.

Stimuleer een cultuur van experimenteren. Voordat AI-tools en -modellen worden ingezet, moet worden getest hoe we ermee omgaan, inclusief mogelijke gevolgen voor nauwkeurigheid, snelheid en vertrouwen. Experimenteren biedt belangrijke inzichten in hoe de rol van werknemers kan worden verbeterd, inclusief wanneer de toepassing het meest zinvol is.

AI-modellen zijn dynamische systemen en zodra ze in productie zijn, kunnen in gegevens en outputs afwijken van de oorspronkelijke doelstellingen, wat na verloop van tijd onnauwkeurigheden veroorzaakt. Toezicht- en monitoringsystemen moeten aanwezig zijn om systemen voortdurend te evalueren, potentiële incidenten en problemen te identificeren en de juiste interventies te creëren.

Onderwijs en training zijn essentieel. Naarmate het gebruik van AI toeneemt, moeten werknemers worden meegenomen, vooral omdat de technologie zo snel verandert. Als het gaat om generatieve AI, is educatie over de rol en implementatie bijzonder belangrijk, omdat het een belangrijk gebied is voor potentiële vooroordelen.

hervormen

Nu kunstmatige intelligentie industrieën blijven hervormen, is de vraag naar robuuste, datagestuurde AI-modellen enorm toegenomen. Om hun volledige potentieel te bereiken, hebben deze modellen enorme hoeveelheden hoogwaardige, diverse en actuele gegevens nodig voor training en ontwikkeling.

AI-webscraping: een innovatieve oplossing die de grootschalige gegevens biedt die AI-modellen nodig hebben. Door efficiënte gegevensverzameling via verschillende online bronnen mogelijk te maken, wordt AI-webscraping snel de hoeksteen van AI-ontwikkeling en drijft het de training aan van modellen die nauwkeurig, aanpasbaar en in staat zijn om innovatie te stimuleren.

Gegevens zijn de brandstof die AI aandrijft. Om AI-modellen effectief te laten leren en generaliseren, moeten ze worden blootgesteld aan diverse datasets die de complexiteit en variabiliteit van real-world scenario’s weerspiegelen. Hoe uitgebreider en gevarieerder de data, hoe beter deze modellen patronen kunnen begrijpen, voorspellingen kunnen doen en complexe taken kunnen uitvoeren.

Het handmatig verzamelen van deze data op de schaal die nodig is voor moderne AI-toepassingen is echter onpraktisch, tijdrovend en kostbaar. AI-webscraping pakt deze uitdaging aan door het verzamelen van data te automatiseren, waardoor bedrijven en onderzoekers toegang krijgen tot de enorme hoeveelheden informatie die nodig zijn om robuuste AI-modellen te maken. Met grootschalige, hoogwaardige data die direct beschikbaar is, kan de ontwikkeling van AI-modellen vooruitgaan met de nauwkeurigheid, schaal en diepte die nodig zijn om geavanceerde applicaties te ondersteunen.

AI-webscraping verwijst naar de geautomatiseerde extractie van grote hoeveelheden data uit verschillende online bronnen, specifiek afgestemd op de ondersteuning van AI- en machine learning-applicaties. De AI-scrapingoplossingen zijn ontworpen om gegevens te verzamelen van een breed scala aan platforms, waaronder sociale media, e-commercewebsites, nieuwsbronnen en meer, zodat AI-ontwikkelaars toegang hebben tot uitgebreide datasets om hun modellen te trainen.

AI-webscraping stelt organisaties in staat om gegevens te verzamelen op een ongekende schaal, waarbij miljoenen datapunten worden gegenereerd om te voldoen aan de groeiende behoeften van AI-modellen. Deze schaalbaarheid is essentieel omdat modellen steeds complexere en uitgebreidere gegevens eisen voor training, testen en finetuning.

Om AI-modellen te trainen die in verschillende contexten kunnen werken, is het essentieel om gegevens te hebben die een verscheidenheid aan invoer en omstandigheden weerspiegelen. AI-scraping verzamelt gegevens uit meerdere bronnen, vergroot de gegevensdiversiteit en biedt AI-modellen de blootstelling die ze nodig hebben om effectief te generaliseren over verschillende use cases.

Realtime en actueel

In een wereld waarin informatie snel verandert, zijn actuele gegevens cruciaal voor AI-modellen om nauwkeurig en relevant te blijven. AI-webscraping biedt toegang tot realtime-informatie, waardoor de gegevens die voor training worden gebruikt, de huidige trends en patronen weerspiegelen, wat leidt tot modellen die nauwkeuriger en effectiever zijn.

Kostenefficiëntie en snelheid

AI-scraping automatiseert het gegevensverzamelingsproces, waardoor de tijd en kosten die gepaard gaan met traditionele gegevensverzameling worden verminderd. Hierdoor kunnen AI-ontwikkelingsteams zich richten op modelontwerp en -prestaties zonder te worden gehinderd door langdurige gegevensverwervingsprocessen.

Topgebruiksgevallen van AI-scraping bij het versnellen van modelontwikkeling

1. Natural Language Processing (NLP) en sentimentanalyse

NLP-modellen hebben uitgebreide linguïstische gegevens nodig om nuances, context en sentiment in menselijke taal te begrijpen. Met AI-scraping kunnen gegevens uit bronnen zoals opmerkingen op sociale media, productrecensies en nieuwsartikelen in bulk worden verzameld. Deze gegevens bieden de contextuele rijkdom die NLP-modellen nodig hebben om menselijke taal nauwkeurig te begrijpen en te verwerken.

Een NLP-model dat is getraind op een enorme dataset van productrecensies kan bijvoorbeeld een sentimentanalyse uitvoeren en onderscheid maken tussen positieve, negatieve en neutrale sentimenten. Door data op schaal te scrapen, kunnen AI-ontwikkelaars ervoor zorgen dat hun NLP-modellen goed zijn uitgerust om de diversiteit van menselijke taal aan te kunnen.

2. Computer Vision en beeldherkenning

AI-toepassingen in computer vision, zoals gezichtsherkenning en objectdetectie, vereisen grote hoeveelheden visuele data. AI-scraping stelt ontwikkelaars in staat om beelddata te verzamelen uit verschillende bronnen, waaronder e-commerceplatforms, sociale media en beeldrepositories, om modellen te trainen in het identificeren van patronen, objecten en zelfs emoties.

Om bijvoorbeeld een AI-model te trainen voor gezichtsherkenning, is een enorme en diverse dataset van afbeeldingen nodig die verschillende demografieën, lichtomstandigheden en uitdrukkingen vertegenwoordigen. AI-web scraping biedt een efficiënte methode om deze gegevens te verzamelen, waardoor modellen een hogere nauwkeurigheid kunnen bereiken bij visuele herkenningstaken.

3. Voorspellende analyses en prognoses

Voorspellende modellen hebben historische en realtime gegevens nodig om toekomstige gebeurtenissen nauwkeurig te voorspellen. AI-webscraping kan enorme hoeveelheden gegevens verzamelen uit financiële gegevens, weersvoorspellingen, economische indicatoren en trends in consumentengedrag om voorspellende modellen te trainen. Dit is vooral waardevol in sectoren als financiën, detailhandel en logistiek, waar nauwkeurige voorspellingen kunnen leiden tot betere zakelijke beslissingen en geoptimaliseerde activiteiten.

Met grootschalige gegevens die in realtime worden geschraapt, kunnen voorspellende modellen continu worden bijgewerkt om de huidige omstandigheden weer te geven, wat leidt tot nauwkeurigere en betrouwbaardere prognoses.

4. Analyse van klantgedrag voor personalisatie

AI-gestuurde personalisatie is afhankelijk van het begrijpen van klantgedragspatronen. Gegevens over klantinteracties, voorkeuren, aankoopgeschiedenissen en browsepatronen zijn essentieel voor het trainen van modellen die producten kunnen aanbevelen, marketingberichten kunnen personaliseren en toekomstig aankoopgedrag kunnen voorspellen. AI-webscraping verzamelt deze informatie uit bronnen zoals e-commerceplatforms, beoordelingssites en sociale media, waardoor bedrijven zeer gepersonaliseerde ervaringen kunnen creëren.

Een AI-model dat is getraind op klantbeoordelingsgegevens die zijn geschraapt van meerdere e-commercesites, kan bijvoorbeeld helpen bij het identificeren van opkomende producttrends, waardoor retailers hun aanbod kunnen afstemmen op de vraag van de klant.

De toekomst van AI-modelontwikkeling met grootschalige gegevens van AI-scraping

Naarmate AI-technologie vordert, zal de behoefte aan hoogwaardige gegevens alleen maar toenemen. Met toepassingen die zich uitbreiden naar gebieden zoals autonoom rijden, zorgdiagnostiek en fraudedetectie, zal de rol van grootschalige gegevens van AI-scraping nog essentiëler worden. 

Modellen die complexe afbeeldingen kunnen interpreteren, nauwkeurige voorspellingen kunnen doen en genuanceerde taalpatronen kunnen begrijpen, vereisen allemaal continue, grootschalige gegevensinvoer om effectief te kunnen functioneren.

Door gebruik te maken van de schaalbare AI-scraping oplossingen, kunnen bedrijven deze gegevensbehoeften voorblijven. Toegang tot grootschalige, diverse en realtime data vormt de basis van robuuste, aanpasbare AI-modellen die zinvolle resultaten kunnen leveren in alle sectoren.

Aanpasbare scrapingoplossingen: pas uw data-extractie aan op specifieke behoeften, van het verzamelen van afbeeldingen voor computer vision-modellen tot het verzamelen van sentimenten op sociale media voor NLP-toepassingen.

Schaalbare infrastructuur: schaal dataverzameling eenvoudig om te voldoen aan de eisen van complexe AI-modellen, zodat uw modellen altijd toegang hebben tot de data die ze nodig hebben.

Hoogwaardige, gestructureerde data: ontvang data in gestructureerde formaten, waardoor naadloze integratie in uw AI-pijplijnen mogelijk is, de pre-processingtijd wordt geminimaliseerd en de bruikbaarheid wordt gemaximaliseerd.

Ethische en conforme dataverzameling: houd u aan de richtlijnen voor dataprivacy en wettelijke richtlijnen om verantwoorde datascraping te garanderen en zowel uw bedrijfs- als klantgegevens te beschermen.

Realtime-updates: krijg continu toegang tot actuele gegevens, zodat uw AI-modellen relevant blijven en aansluiten op de nieuwste trends en informatie.

In het voortdurend veranderende veld van AI is het van het grootste belang om de juiste gegevens te hebben. Grootschalige gegevens van AI-scraping zijn niet alleen een waardevolle bron; het is een concurrentievoordeel. Door gebruik te maken van de schaalbare, betrouwbare en aanpasbare AI-scraping oplossingen, kunt u uw team in staat stellen om AI-modellen te bouwen die slimmer, sneller en effectiever zijn dan ooit tevoren.

Of u nu werkt aan NLP, computer vision, predictive analytics of personalisatie, er is een databackbone nodig om de ontwikkeling van AI-modellen te versnellen.

bias

Bias is het grootste trainingsprobleem met ML-modellen. De uitdaging voor ontwikkelaars en datawetenschappers is om te proberen de trainingsbias tot bijna nul te reduceren. Het volledig elimineren van bias is misschien onmogelijk, maar het zoveel mogelijk reduceren van bias is cruciaal.

Trainingsbias kan voorkomen in alle ML-modellen, zelfs in niet-supervised settings. Aangezien een ML-model is ontworpen om specifieke taken uit te voeren, is het laatste wat onderzoekers en datawetenschappers willen bias. Een bekend voorbeeld van modelbias kwam van Amazon.

Amazon ontwikkelde een ML-model om sollicitanten voor ontwikkelingsfuncties te screenen en de meest indrukwekkende cv’s te markeren voor menselijke beoordeling. Amazon gaf het model de cv’s van de beste ontwikkelaars die momenteel in het veld werken voor trainingsdata.

Het probleem? Omdat de meerderheid van de ontwikkelingsindustrie destijds mannelijk was, devalueerde het model vrouwelijke sollicitanten en discrimineerde het zelfs.

Trainingsdata is de levensader van AI-modelontwikkeling. Het dient als basis waarop machine learning-modellen worden gebouwd, waardoor ze nauwkeurige voorspellingen en weloverwogen beslissingen kunnen maken. De kwaliteit en kwantiteit van trainingsdata zijn van het grootste belang, omdat ze rechtstreeks van invloed zijn op de effectiviteit en precisie van een AI-model.

Gelabelde data: dit type data is geannoteerd met relevante informatie, zoals labels of tags, om het AI-model te begeleiden bij het leren van specifieke patronen.

Niet-gelabelde data: in tegenstelling tot gelabelde data, ontbreken bij niet-gelabelde data annotaties. Het wordt gebruikt bij ongeleid leren, waarbij het AI-model onafhankelijk patronen en relaties binnen de data moet identificeren.

Ruwe data: Deze onverwerkte en ongefilterde data wordt vaak gebruikt in deep learning-modellen, die uitstekend zijn in het verwerken van grote hoeveelheden data.

Het proces van het verzamelen en voorbereiden van trainingsdata, bekend als data preprocessing, omvat het opschonen, transformeren en formatteren van de data om ervoor te zorgen dat deze geschikt is voor AI-modeltraining.

Enkele van de populairste modellen die u in een AI-modelbibliotheek kunt vinden, zijn:

Diepe neurale netwerken

Lineaire regressie

Logistische regressie

Beslissingsbomen

Willekeurig bos

Diepe neurale netwerken

Het diepe neurale netwerk is een van de populairste AI/ML-modellen. Het ontwerp voor dit deep learning-model is geïnspireerd op het menselijk brein en zijn neurale netwerk. Dit AI-model gebruikt lagen van kunstmatige neuronen om meerdere invoer te combineren en één uitvoerwaarde te bieden.

Deep learning wordt veel gebruikt in de ontwikkeling van mobiele apps om beeld- en spraakherkenningsservices en natuurlijke taalverwerking te bieden. Neurale netwerken helpen ook bij het aansturen van computer vision-toepassingen.

Dit AI-model vertegenwoordigt de voorhoede van kunstmatige intelligentie (AI). Het is zeer bedreven in het oplossen van complexe problemen met grote datasets.

Deep learning zal instrumenteel zijn bij het bereiken van de echte computer vision- en AI-normen die we associëren met menselijke intelligentie en sciencefictionverhalen.

Lineaire regressie is gebaseerd op een supervised learning-model. Deze modellen hebben als taak de relatie tussen invoer- en uitvoervariabelen te identificeren.

Een lineair regressiemodel kan de waarde van een afhankelijke variabele voorspellen op basis van de waarde van een onafhankelijke variabele. Deze modellen worden gebruikt in lineaire discriminantanalyse voor verschillende sectoren, waaronder gezondheidszorg, verzekeringen, e-commerce en bankieren.

Het logistieke regressiemodel verschilt echter van het lineaire regressiemodel omdat het alleen wordt gebruikt om classificatiegebaseerde problemen op te lossen.

Logistische regressie is het beste AI-model voor het oplossen van een binair classificatieprobleem. Dit model is bedreven in het voorspellen van de waarde of klasse van een afhankelijk gegevenspunt op basis van een set onafhankelijke variabelen.

De beslissingsboom gebruikt beschikbare gegevens van eerdere beslissingen om conclusies te trekken. Deze bomen volgen vaak een basis if/then-patroon. Als u bijvoorbeeld thuis een broodje eet, hoeft u geen lunch te kopen.

Beslissingsbomen kunnen worden gebruikt om zowel regressie- als classificatieproblemen op te lossen. Bovendien hebben rudimentaire beslissingsbomen de vroegste vormen van voorspellende analyses aangestuurd.

Een random forest is een verzameling van meerdere beslissingsbomen.

Elke beslissingsboom retourneert zijn resultaat of beslissing, die vervolgens wordt samengevoegd met de resultaten van elke andere boom in het bos. Uiteindelijk vormen de gecombineerde resultaten een nauwkeurigere uiteindelijke voorspelling of beslissing.

Het random forest is een geweldig AI-model als u een grote dataset hebt. Dit model wordt gebruikt om zowel regressie- als classificatieproblemen op te lossen.

Zodra een AI-model nauwkeurig is getraind, is het klaar om te worden ingezet om voorspellingen of beslissingen te maken op basis van nieuwe, ongeziene gegevens. Dit proces, bekend als inferentie, omvat het gebruik van het getrainde model om output te genereren uit invoergegevens, wat realtime besluitvorming en inzichten mogelijk maakt.

Er zijn verschillende manieren om AI-modellen te implementeren, die elk inspelen op verschillende behoeften en omgevingen:

Cloud-implementatie

On-Premises-implementatie

Edge-implementatie

Het implementatieproces omvat verschillende cruciale stappen:

Modelserveren

Modelbewaking

Modelupdaten

Door effectieve implementatietactieken kunnen organisaties het volledige potentieel van kunstmatige intelligentie en machinaal leren ontsluiten, wat aanzienlijke voordelen oplevert op het gebied van efficiëntie, innovatie en concurrentievermogen.

ai-modellen

AI-modellen kunnen worden gebruikt om veel taken uit te voeren en complexe problemen op te lossen. Kunstmatige intelligentiemodellen zijn ontworpen om menselijk gedrag na te bootsen.

AI-modellen, waaronder grote taalmodellen die menselijke taal kunnen begrijpen en genereren, vertrouwen op algoritmen voor machinaal leren en kunstmatige neurale netwerken om een ​​logisch besluitvormingsproces na te bootsen met behulp van beschikbare informatie en invoergegevenssets.

Deze modellen vormen de ruggengraat van moderne intelligentietools en zijn bedreven in het analyseren van informatie, het nemen van beslissingen en voorspellingen en het bieden van waardevolle inzichten.

Kunstmatige intelligentie is een van de meest fascinerende vakgebieden van de computerwetenschap. AI-studies zijn gericht op het creëren van een machine die menselijke intelligentie in realtime kan repliceren. Echte AI-tools die kunnen denken als mensen zijn nog niet bereikt. Dit betekent echter niet dat we geen profijt kunnen hebben van het gebruik van AI-algoritmen.

Een AI-model is een programma of algoritme dat afhankelijk is van trainingsgegevens om patronen te herkennen en voorspellingen of beslissingen te nemen. Hoe meer datapunten een AI-model ontvangt, hoe nauwkeuriger het kan zijn in zijn data-analyse en voorspellingen.

AI-modellen vertrouwen op computer vision, natuurlijke taalverwerking en machine learning om verschillende patronen te herkennen. AI-modellen gebruiken ook besluitvormingsalgoritmen om te leren van hun training, datapunten te verzamelen en te beoordelen en uiteindelijk hun kennis toe te passen om hun vooraf gedefinieerde doelen te bereiken.

AI-modellen zijn erg goed in het oplossen van complexe problemen met een grote hoeveelheid data. Als gevolg hiervan kunnen ze complexe problemen nauwkeurig oplossen met een zeer hoge mate van nauwkeurigheid.

Veel mensen verwarren machine learning en kunstmatige intelligentie ten onrechte. Dit komt waarschijnlijk omdat ML een subset is van kunstmatige intelligentie. U moet zich echter bewust zijn van een belangrijk verschil tussen de twee.

Zoals we eerder hebben gedefinieerd, houdt kunstmatige intelligentie zich bezig met het creëren van machines die menselijke gedachten, intelligentie en gedrag simuleren.

Aan de andere kant houdt ML zich bezig met het bieden van machines de mogelijkheid om zelf te leren van ervaringen en lessen zonder dat ze expliciet geprogrammeerd hoeven te worden.

Alle Machine Learning-modellen zijn AI-modellen, maar niet alle AI-modellen zullen noodzakelijkerwijs ML-modellen zijn. Dit is een belangrijk onderscheid om te maken.

Een Machine Learning-model is een essentieel onderdeel hiervan. Een groot deel van menselijke intelligentie is immers het leren van dingen en het voorspellen van toekomstige uitkomsten op basis van eerdere ervaringen en lessen.

In een begeleid leermodel traint of leert een mens het algoritme waar het op moet letten. Vaak is deze persoon die de training geeft een datawetenschapper die een deskundige is in de taak die het algoritme moet uitvoeren.

Een algoritme dat werkt aan beeldherkenning kan bijvoorbeeld worden onderwezen door een datawetenschapper waarin afbeeldingen aanstootgevende of expliciete inhoud bevatten. Het algoritme gebruikt deze informatie vervolgens om andere afbeeldingen met vergelijkbare inhoud te vinden.

AI-modellen die zijn gebouwd met begeleid leren, zoals ondersteunende vectormachines, worden vaak gebruikt om voorspellende analyses uit te voeren. Deze modellen gebruiken eerdere beslissingen van deskundigen om toekomstige keuzes te voorspellen die een deskundige zou kunnen maken.

Een AI die is getraind op een enorme dataset met foto’s van hoge kwaliteit, kan bijvoorbeeld leren om specifieke objecten of scènes binnen een afbeelding te identificeren, wat automatische tagging van afbeeldingen of organisatie van inhoud mogelijk maakt.

AI-modellen hoeven niet te worden ontwikkeld door menselijke training. In plaats daarvan traint software in een ongeleid leermodel het algoritme. In sommige gevallen zal de trainingsmethode die door de trainingssoftware wordt gebruikt die van een mens nabootsen.

AI-modellen die zijn gebouwd met ongeleid leren, worden vaak gebruikt om beschrijvende analyses uit te voeren. Deze taken omvatten inhoudssamenvatting, classificatie, extractie en videoanalyse. Deze typen AI-modellen kunnen patronen identificeren en gegevens categoriseren zonder menselijke training.

Semi-supervised learning-modellen combineren een beetje van beide eerdere modellen die we hebben besproken. In deze setting doet een mens een deel van de training en software moet de rest afhandelen op basis van de initiële training die door de mens is uitgevoerd.

Aangezien AI-modellen die zijn gebouwd met semi-supervised learning een beetje van beide leerstijlen krijgen, kunnen ze ook zowel voorspellende als beschrijvende analysetaken uitvoeren, afhankelijk van het doel waarvoor ze zijn ontworpen.

open data en AI

Kunstmatige intelligentie (AI)-systemen zijn complexe wiskundige modellen die zijn getraind op data. Deze systemen zijn ontworpen om grote hoeveelheden data te verwerken en analyseren met als doel patronen te herkennen en voorspellingen te doen. AI-systemen worden steeds nauwkeuriger en geavanceerder, deels vanwege de vooruitgang in de technieken en algoritmen die worden gebruikt voor AI, toegang tot grotere computerverwerkingskracht en de bredere beschikbaarheid van data.

Data is een cruciaal onderdeel van AI-systemen. Dit verhaal benadrukt het verband tussen open data en de prestaties van AI-systemen.

Open data en AI hebben het potentieel om elkaars mogelijkheden te ondersteunen en te verbeteren. Enerzijds kan open data AI-systemen verbeteren. Over het algemeen vergroot het blootstellen van AI-systemen aan een groter volume en een grotere verscheidenheid aan data de kans dat het systeem nauwkeurige en nuttige voorspellingen doet. Als zodanig kan open data een bron zijn van grote hoeveelheden uiteenlopende informatie voor AI-systemen.

Op deze manier draagt ​​de beschikbaarheid van open data bij aan beter presterende AI. Een AI-systeem dat is getraind om consumptiepatronen van consumenten in Europa te voorspellen, zal bijvoorbeeld waarschijnlijk beter presteren als het een representatieve selectie van goederen- en dienstentransacties door consumenten in verschillende landen, gemeenten en inkomensgroepen omvat.

Anderzijds kan AI extra waarde uit open data halen. AI kan grote hoeveelheden data analyseren en trends en patronen identificeren die mogelijk niet door andere analysetechnieken aan het licht waren gekomen. Open data bevat rijke informatie en complexe patronen waaruit inzichten kunnen worden afgeleid.

Als krachtige analysetool kan AI de waarde van open data benutten. Een AI-systeem dat is getraind om bosbranden te voorspellen, kan bijvoorbeeld zoeken naar patronen in weergegevens, satellietbeelden en historische trends die standaard statistische vergelijkingen niet kunnen identificeren.

Open data omvat een breed scala aan vakgebieden. Deze verscheidenheid aan gegevens vergroot de mogelijke use cases waarvoor AI-systemen kunnen worden ontwikkeld, waardoor nieuwe AI-gestuurde producten en diensten mogelijk worden. Deze use cases kunnen alleen worden ontwikkeld als de relevante gegevens beschikbaar en gemakkelijk toegankelijk zijn.

De vrije beschikbaarheid van diverse datasets, zoals via open data, is essentieel om innovatie te stimuleren en nieuwe economische kansen te creëren. De hoop is dat innovatieve AI-systemen vervolgens kunnen worden gebruikt om maatschappelijke uitdagingen op te lossen, waardoor sociaaleconomische waarde wordt gecreëerd.

De diverse pool van informatie die open data met name voor AI-systemen kan bieden, kan multidisciplinaire toepassingen mogelijk maken die gegevens over verschillende onderwerpen combineren om nieuwe inzichten te verkrijgen. Een weerdataset kan bijvoorbeeld worden gebruikt om weersvoorspellingen te doen.

Hoewel de breedte van de onderwerpen die door open data worden bestreken brede use cases voor AI-systemen mogelijk maakt, kunnen AI-systemen beter presteren als er uitgebreide open data beschikbaar is over een specifieke use case.

Neem bijvoorbeeld een AI-systeem dat is ontwikkeld om woongebouwen te herkennen. Als de AI alleen wordt getraind op afbeeldingen die in de zomer zijn gemaakt van herenhuizen op het platteland, zal het model slecht presteren als het wordt gevraagd om een ​​stadsappartement te herkennen als een woongebouw. ​

Het model moet daarom worden getraind op een uitgebreide set voorbeelden om de variaties te begrijpen van wat als een woongebouw wordt beschouwd (in dit geval kunnen factoren zoals architecturale stijl, grootte van het gebouw en de omgeving relevant zijn).

Gegevens die het onderwerp uitgebreid weergeven, stellen AI-systemen bloot aan een breder scala aan scenario’s en variaties. Uiteindelijk kunnen AI-modellen hierdoor beter presteren in situaties in de echte wereld en hun kennis generaliseren wanneer ze worden geconfronteerd met nieuwe gegevens (zoals een foto van een individueel huis dat het model nog niet eerder heeft gezien).

AI-systemen die zijn getraind op niet-representatieve of onvolledige gegevens, lopen het risico bevooroordeelde voorspellingen te doen en onbetrouwbaar te zijn.

De volledigheid van open data draagt ​​bij aan het vermogen van AI-systemen om te generaliseren naar ongeziene voorbeelden zodra deze worden ingezet in de ‘echte wereld’, maar het draagt ​​ook bij aan het concept van datakwaliteit. Enkele kenmerken van datakwaliteit zijn de volledigheid, relevantie, consistentie, uniformiteit en betrouwbaarheid van de gegevens voor de use case die wordt ontwikkeld.

Aan de andere kant worden clusteralgoritmen minder beïnvloed door de nauwkeurigheid van het doel (geen verkeerde labeling van gegevens), uniciteit (geen redundante of gedupliceerde gegevens) en klassebalans. Verschillende open data-initiatieven op wetenschappelijk gebied tonen de impact van open repositories met gestructureerde catalogi van data en gestandaardiseerde dataformaten.

Een grotere vraag naar open data voor nieuwe producten en diensten zou de release van meer datasets en verbeteringen in datakwaliteit kunnen aanmoedigen.

gerechtvaardigd belang

De European Data Protection Board (EDPB) heeft richtlijnen aangenomen over de grondslag ‘gerechtvaardigd belang’. Dit is één van de zes grondslagen in de AVG om persoonsgegevens te mogen verwerken.

Persoonsgegevens mogen slechts onder drie voorwaarden verwerkt worden op deze grondslag:
1. er is daadwerkelijk een gerechtvaardigd belang;
2. de verwerking van persoonsgegevens is noodzakelijk om dit belang te behartigen;
3. het gerechtvaardigd belang weegt zwaarder dan de belangen van betrokkenen.


De EDPB geeft uitleg bij het toepassen van deze stappen en voorbeelden van situaties waarin het (al dan niet) mogelijk is om een beroep te doen op gerechtvaardigd belang.

Deze richtlijnen analyseren de criteria die zijn vastgelegd in artikel 6(1)(f) AVG waaraan verwerkingsverantwoordelijken moeten voldoen om op rechtmatige wijze de verwerking van persoonsgegevens uit te voeren die “noodzakelijk is voor de doeleinden van de gerechtvaardigde belangen van de verwerkingsverantwoordelijke of van een derde”.

Artikel 6(1)(f) AVG is een van de zes rechtsgrondslagen voor de rechtmatige verwerking van persoonsgegevens zoals bedoeld in de AVG. Artikel 6(1)(f) AVG mag niet worden beschouwd als een “laatste redmiddel” voor zeldzame of onverwachte situaties waarin andere rechtsgrondslagen niet van toepassing worden geacht, noch mag het automatisch worden gekozen of mag het gebruik ervan ten onrechte worden uitgebreid op basis van de perceptie dat artikel 6(1)(f) AVG minder beperkend is dan andere rechtsgrondslagen.

Om verwerking te baseren op artikel 6(1)(f) AVG, moeten drie cumulatieve voorwaarden worden vervuld:

• Ten eerste, het nastreven van een gerechtvaardigd belang door de verwerkingsverantwoordelijke of door een derde;

• Ten tweede, de noodzaak om persoonsgegevens te verwerken voor de doeleinden van het gerechtvaardigde belang/de gerechtvaardigde belangen die worden nagestreefd; en

• Ten derde hebben de belangen of fundamentele vrijheden en rechten van de betrokkenen geen voorrang op het/de gerechtvaardigde belang(en) van de verwerkingsverantwoordelijke of van een derde.

Met betrekking tot de derde voorwaarde moet de verwerkingsverantwoordelijke zijn gerechtvaardigde belang(en) of die van een derde afwegen tegen de “belangen of fundamentele rechten en vrijheden van de betrokkenen”. Deze “evenwichtsoefening” tussen de fundamentele rechten, vrijheden en belangen die op het spel staan, moet worden uitgevoerd voor elke verwerking die is gebaseerd op gerechtvaardigd belang als wettelijke basis en moet worden uitgevoerd vóór de uitvoering van de relevante verwerkingshandeling(en).

Om te bepalen of een bepaalde verwerking van persoonsgegevens kan worden gebaseerd op artikel 6(1)(f) AVG, moeten verwerkingsverantwoordelijken zorgvuldig beoordelen en documenteren of aan deze drie cumulatieve voorwaarden is voldaan. Deze beoordeling moet worden uitgevoerd voordat de relevante verwerkingshandelingen worden uitgevoerd.

Met betrekking tot de voorwaarde met betrekking tot het nastreven van een gerechtvaardigd belang, kunnen niet alle belangen van de verwerkingsverantwoordelijke of een derde als gerechtvaardigd worden beschouwd; alleen die belangen die rechtmatig, nauwkeurig geformuleerd en aanwezig zijn, kunnen geldig worden ingeroepen om te vertrouwen op artikel 6(1)(f) AVG als rechtsgrond. Het is ook de verantwoordelijkheid van de verwerkingsverantwoordelijke om de betrokkene te informeren over de gerechtvaardigde belangen die worden nagestreefd wanneer die verwerking is gebaseerd op artikel 6(1)(f) AVG.

Een belang kan als “gerechtvaardigd” worden beschouwd als aan de volgende cumulatieve criteria is voldaan:

– Het belang is rechtmatig, d.w.z. niet in strijd met het EU- of lidstaatrecht.27 Hoewel het concept van “gerechtvaardigd belang” in de zin van artikel 6(1)(f) AVG niet beperkt is tot belangen die in de wet zijn vastgelegd en door de wet zijn bepaald, vereist het dat het beweerde gerechtvaardigde belang rechtmatig is.

– Het belang is duidelijk en nauwkeurig geformuleerd. De reikwijdte van het nagestreefde gerechtvaardigde belang moet duidelijk worden geïdentificeerd om ervoor te zorgen dat het op de juiste manier wordt afgewogen tegen de belangen of fundamentele rechten en vrijheden van de betrokkene.

– Het belang is reëel en actueel, en niet speculatief. Zoals verduidelijkt door het HvJ-EU, moet het gerechtvaardigde belang aanwezig en effectief zijn op de datum van de gegevensverwerking en mag het op die datum niet hypothetisch zijn.

Met betrekking tot de voorwaarde dat de verwerking van persoonsgegevens noodzakelijk is voor de doeleinden van de nagestreefde gerechtvaardigde belangen, moet worden vastgesteld of de nagestreefde gerechtvaardigde belangen niet redelijkerwijs even effectief kunnen worden bereikt met andere middelen die minder beperkend zijn voor de fundamentele rechten en vrijheden van de betrokkenen, ook rekening houdend met de beginselen die zijn vastgelegd in artikel 5(1) AVG. Indien dergelijke andere middelen bestaan, mag de verwerking niet worden gebaseerd op artikel 6(1)(f) AVG.

Met betrekking tot de voorwaarde dat de belangen of fundamentele rechten en vrijheden van de betrokkene bij de gegevensverwerking niet prevaleren boven de gerechtvaardigde belangen van de verwerkingsverantwoordelijke of van een derde, houdt die voorwaarde een afweging in van de tegengestelde rechten en belangen in kwestie die in beginsel afhankelijk is van de specifieke omstandigheden van de relevante verwerking. De verwerking mag alleen plaatsvinden als de uitkomst van deze afweging is dat de nagestreefde gerechtvaardigde belangen niet worden overschreven door de belangen, rechten en vrijheden van de betrokkenen.

Een juiste beoordeling van artikel 6(1)(f) AVG is geen eenvoudige oefening. In plaats daarvan vereist de beoordeling — en met name de afweging van tegengestelde belangen en rechten — volledige overweging van een aantal factoren, zoals de aard en bron van de relevante legitieme belangen, de impact van de verwerking op de betrokkene en diens redelijke verwachtingen over de verwerking, en het bestaan ​​van aanvullende waarborgen die onterechte impact op de betrokkene kunnen beperken. De huidige richtlijnen bieden richtlijnen over hoe een dergelijke beoordeling in de praktijk moet worden uitgevoerd, inclusief in een aantal specifieke contexten (bijv. fraudepreventie, direct marketing, informatiebeveiliging, enz.) waarin deze rechtsgrondslag kan worden overwogen.

De richtlijnen leggen ook de relatie uit die bestaat tussen artikel 6(1)(f) AVG en een aantal rechten van betrokkenen onder de AVG.

data ongelijkheid

Als we medewerkers zouden ondervragen over hun AI-angsten, zal een derde van de werknemers hun bezorgdheid uiten dat AI hun baan zou kunnen verdampen. Maar als we ze vragen naar de rol van AI bij het aannemen en promoten, uitte een veel groter percentage van twee derde van de medewerkers hun zorgen. Het dubbele van het aantal dat zich zorgen maakte over hun eigen baan.

Dit benadrukt een belangrijk maar vaak over het hoofd gezien punt: AI staat op het punt om niet alleen te veranderen wat we doen, maar ook hoe het wordt gedaan. Naarmate AI-tools zich ontwikkelen, kunnen we verwachten dat we steeds meer door algoritmen worden beoordeeld. Zelfs nu hebben werkgevers toegang tot door AI aangestuurde tools om werknemers werven, compenseren, monitoren, aansturen en evalueren. Hoewel de uiteindelijke effecten van deze tools onbekend zijn, vormen ze een reëel risico op het uithollen van de kwaliteit van banen en het verergeren van inkomensongelijkheid.

Helaas missen we momenteel de gegevens die nodig zijn om te begrijpen hoe AI op de werkplek werknemers en bedrijven beïnvloedt. Bestaande AI-gegevensverzamelingsinspanningen richten zich vaak op de automatisering van taken en de productiviteit van nieuwe technologieën, waarbij een cruciaal aspect ontbreekt: de rol van AI als manager.

Door de geschiedenis heen hebben nieuwe technologieën hun weg gevonden naar management van bedrijven. In de film Modern Times van Charlie Chaplin uit 1936, geprezen om zijn dystopische karikatuur van het fabriekstijdperk, is het eerste technologische wonder dat wordt getoond geen industriële machine, maar een tweerichtingstelevisie die door de baas wordt gebruikt om werknemers te monitoren.

CCTV-systemen namen al snel de rol van supervisors van de productielijn over. Ponskaarten maakten plaats voor RFID- en biometrische scanners. Fabrieksmanagers hingen hun stopwatches aan de wilgen en lieten assemblagelijnen het tempo bepalen.

Tegenwoordig gebruiken werkgevers AI-tools om een ​​breed scala aan managementfuncties uit te voeren. Algoritmen richten vacatures op werkzoekenden, screenen cv’s, kalibreren loonoffertes en stellen loonsverhogingen voor. Monitoringsoftware houdt de oogbewegingen van chauffeurs bij, registreert het app-gebruik van kantoorpersoneel en leidt de stemming van callcentermedewerkers af. In hightechmagazijnen sturen door AI aangestuurde systemen de bewegingen van werknemers en scoren ze deze in realtime.

De koplopers in de verschuiving naar AI-gestuurd management zijn platformwerkbedrijven als Uber en TaskRabbit, waar algoritmen bijna elk aspect van de baan beïnvloeden. Machine learning-tools koppelen klanten aan werknemers en stellen salarisniveaus vast. Werving en ontslag vinden grotendeels plaats via een app.

Toch is gig-werk niet de enige sector waar AI-tools een rol spelen in personeelsbezetting en management. Eerder gaven HR-professionals toe  dat ze een vorm van AI te gebruiken, voornamelijk voor werving en selectie. En dat hun bedrijf AI-gestuurde monitoringsystemen gebruikten. En AI-gestuurde hiring tools gebruiken, zoals cv-screeners of systemen voor het beoordelen van sollicitanten.

Als managementtechnologie al zo lang bestaat, verandert AI dan echt iets? Het korte antwoord is ja. De standaardvisie in de economie is dat automatisering historisch gezien ontstond toen routinematige taken konden worden opgedeeld in codificeerbare stappen: draad weven, metaal stempelen, getallen toevoegen. Waar werk niet routinematig was of alleen stilzwijgend begrepen werd, zoals bij creatief werk en sommige handmatige arbeid, vormde automatisering weinig bedreiging.

AI verandert deze oude patronen. AI-systemen kunnen handschriften ontcijferen, röntgenfoto’s interpreteren en originele sonnetten schrijven. Ze doen dit zonder een reeks gedetailleerde instructies, maar vertrouwen in plaats daarvan op trainingsgegevens en machine learning-algoritmen. Met de juiste gegevens kunnen AI-systemen ook worden getraind om te detecteren wanneer een werknemer aan het lanterfanten is of om het loon te voorspellen dat een werkzoekende zou accepteren. Dit is iets nieuws onder de zon.

Hoewel economen robuuste theorieën hebben ontwikkeld over de impact van AI op werkgelegenheid, hebben ze zich minder beziggehouden met AI in management en HR. Deze kloof ontstaat deels omdat een zogenaamd takenmodel wordt gebruikt, waarbij banen worden gezien als bundels taken met verschillende gradaties van vatbaarheid voor automatisering. Deze focus op de inhoud van werk abstraheert van de context van werk, met name hoe werknemers worden aangestuurd.

De economische implicaties van AI in management en human resources kunnen aanzienlijk zijn. Hoe AI de macht van werknemers kan beïnvloeden, met de nadruk op AI die wordt gebruikt om werknemers te bemannen, te monitoren, te sturen en te evalueren. Een reeks theoretische modellen laat zien hoe AI-tools het loon van werknemers kunnen verlagen of ongelijkheid kunnen vergroten. Om het academische jargon te gebruiken: AI kan werkgevers in staat stellen een groter deel van de “economische huur” te vangen die aan een baan is gekoppeld. Vertaald: werknemers krijgen uiteindelijk een kleiner stuk van de taart.

Het hoeft natuurlijk niet allemaal slecht nieuws te zijn. AI-gestuurde aanbevelingen voor banen kunnen werknemers naar betere kansen sturen. Wervingsalgoritmen zijn mogelijk minder bevooroordeeld dan de mensen die ze aanvullen. Zelfs een AI-monitoringsysteem kan te verkiezen boven een grillige kantoortiran.

De brede effecten van AI-tools op de werkplek zijn onbekend. De hierboven uiteengezette theoretische zorgen hebben enige basis in casestudies en populaire rapportages, maar ze zijn nog niet kwantitatief getest. Daarvoor hebben ze gegevens nodig.

Aan de kant van de werknemer geven overtuigende nieuwe bevindingen aan dat miljoenen werknemers het gewicht van digitale managementtools op de werkplek voelen. Meer dan twee derde van de werknemers ondervind een vorm van digitale monitoring op het werk, terwijl bijna de helft meldt dat algoritmische toewijzing van taken of schema’s aan de orde van de dag is. Intensievere managementtechnologieën werden geassocieerd met lagere tevredenheid over het werk en welzijn.

Om deze bevindingen aan de kant van de werknemer aan te vullen en uit te breiden, hebben we ook gegevens aan de kant van de werkgever nodig, en idealiter gegevens die gekoppeld kunnen worden aan door de overheid verzamelde belasting- en administratieve gegevens. Buiten een paar inspanningen van de particuliere sector hebben we een beperkt inzicht in de prevalentie van AI in management en HR. Idealiter zou de SER vragen over dit onderwerp op moeten nemen in zijn onderzoeken onder particuliere bedrijven.

In sommige jaren zijn er reeds vragen opgenomen over AI die door bedrijven wordt gebruikt bij de productie van goederen en diensten, met uitzondering van andere AI-toepassingen zoals werving en ontslag. En hoewel het beantwoorden van nieuwe censusvragen lastig zal zijn, is het noodzakelijk. Meer inzicht in de rol van AI op de werkplek zal betere besluitvorming en beleidsontwikkeling ondersteunen, van de werkvloer tot de gangen van de eerste en tweede kamer.

Andere statistische bureaus over de hele wereld hebben al enige ervaring met het ondervragen van bedrijven over AI die in de hele organisatie wordt gebruikt. De enquête van de EU over nieuwe technologieën heeft gevraagd naar het gebruik van AI in verschillende bedrijfsprocessen, waaronder personeelsbeheer en werving.

Nu AI de economie blijft transformeren, is het cruciaal dat we toegang hebben tot uitgebreide gegevens over de reikwijdte, schaal en impact van AI. Alleen dan kunnen we de prestaties van leidinggevenden interpeteren en beslissingen nemen over hoe we willen dat onze toekomstige werkplekken eruit gaan zien.

data beschikbaarheid

Een data beschikbaarheidsstatement is een korte verklaring die beschrijft hoe, waar en onder welke voorwaarden de data beschikbaar, toegankelijk is. Alle datasets zouden een data beschikbaarheidsstatement moeten bevatten, zelfs als er nog geen data is gekoppeld, omdat dit een belangrijke stap is in het geven van erkenning aan datamakers en in het ondersteunen van de reproduceerbaarheid.

In publicaties voor bladen en kranten staat de data beschikbaarheidsstatement meestal aan het einde van een artikel, vóór het gedeelte ‘referenties’. De auteur(s) van het artikel schrijven de data beschikbaarheidsstatement en deze verklaring moet altijd opgenomen voordat er publicatie plaats vind.

De data beschikbaarheidsstatement geeft duidelijke informatie over waar de data toegankelijk is en of de toegang tot de data open is of op een of andere manier beperkt is. Het moet ook een digitale referentie of link bevatten naar waar de data online te vinden is.

Bij het verzamelen of produceren van nieuwe gegevens, moet je deze gegevens uploaden naar een geschikte online gegevensopslagplaats. Alle gegevens moeten samen worden opgeslagen als één dataset, idealiter in een domeinspecifieke opslagplaats. In je verklaring over de beschikbaarheid van gegevens noem je vervolgens de opslagplaats waar de gegevens zich bevinden. Als er sprake van hergebruik van gegevens is die door een derde partij zijn verzameld of geproduceerd, moet je informatie verstrekken over waar deze gegevens te vinden zijn.

Idealiter moet je een persistente identificatie (PID) opgeven die een langdurige digitale verwijzing is naar een document, bestand, webpagina of ander object online, en stabieler is dan een URL. Wanneer je een persistente identificatie opgeeft, zoals een DOI-nummer, is het voor iedereen veel gemakkelijker om de gegevens online te vinden. Meestal wordt er een unieke en persistente identificatie aan de dataset toegewezen zodra je de gegevens uploadt naar een datarepository en op de knop ‘publiceren’ klikt. Het is belangrijk om een ​​persistente identificatie op te nemen in de verklaring over de beschikbaarheid van gegevens, omdat dit helpt de exacte dataset te vinden waarnaar wordt verwezen.

Het is belangrijk om een ​​licentie toe te passen op de gegevens, omdat dit duidelijk maakt wat iemand anders met deze gegevens mag doen. Datarepositories vragen vaak om te kiezen uit een reeks Creative Commons-licentieopties. Als je bijvoorbeeld anderen in staat wilt stellen om de data te gebruiken, aan te passen of erop voort te bouwen, terwijl de juiste credits voor de gegevens worden weergegeven, bij Creative Commons Naamsvermelding (CC-BY)-licentie toepassen. Als je anderen in staat wilt stellen om de gegevens te gebruiken, maar niet wilt dat deze commercieel worden gebruikt, kunt je een Creative Commons Niet-commercieel (CC BY-NC)-licentie toepassen. Voor de volledige lijst met opties voor het licenseren van data, zie de Creative Commons licentie-opties.

Data is openbaar beschikbaar in een repository die geen DOI’s uitgeeft. Gegevens zijn meestal afkomstig van bronnen in het publieke domein.

mobiele data

Het potentieel van mobiliteitsdata te ontsluiten, is essentieel voor de digitale en groene transformatie.

In de huidige onderling verbonden wereld heeft de enorme hoeveelheid data die wordt gegenereerd door de dagelijkse bewegingen van mensen en goederen een groot potentieel. Mobiliteitsdata is een krachtige drijfveer voor verbeterde innovatie en efficiëntie, voor een verminderde impact op het milieu en een verbeterde levenskwaliteit voor iedereen. Het benutten van deze data kan leiden tot slimmere, veerkrachtigere infrastructuur en -diensten, vloeiender verkeer, eenvoudigere grensoverschrijdende reizen, concurrerendere ketens en eenvoudigere rapportage. Naast het eenvoudig verzamelen van data is de uitdaging om het gemakkelijker te maken om data te delen, op een veilige en gecontroleerde manier, en om het om te zetten in bruikbare informatie. Het benutten van het onbenutte potentieel van mobiele data is cruciaal om de ontwikkeling van AI en andere grensverleggende technologieën te ondersteunen.

Er zijn verschillende belangrijke initiatieven en wetgevende kaders opgezet om het gebruik van data te vergemakkelijken en te bevorderen.

De Europese strategie voor data die in februari 2020 werd geïmplementeerd, is gericht op het opzetten van een interne markt voor data, waarmee het concurrentievermogen van Europa op mondiaal niveau wordt gewaarborgd. Het is een uitgebreid plan om de toegang tot, het delen en het gebruik van data in alle sectoren, inclusief mobiliteit, te vergemakkelijken, en het potentieel ervan te benutten ten behoeve van de economie en de samenleving, terwijl de privacy van datasoevereiniteit wordt gewaarborgd.

Onder deze strategie zal de Europese Data Act zorgen voor een eerlijke toewijzing van waarde uit data en de toegang tot en het gebruik van data bevorderen. Het zal bijvoorbeeld de markt openen voor diensten op basis van voertuigdata, van reparaties tot verzekeringen. De uitvoeringswet voor datasets met een hoge waarde maakt belangrijke datasets van de publieke sector vrij beschikbaar in een machinaal leesbaar formaat, inclusief datasets over transportnetwerken (binnenwateren). Tot slot is de Data Governance Act gericht op het vergroten van het vertrouwen in data-intermediairs en het versterken van mechanismen voor het delen van data.

Een Europese strategie voor de data-unie om het kader voor bedrijven en overheden om data te delen te vereenvoudigen en te stroomlijnen, waarbij gebruik wordt gemaakt van bestaande regels.

De EU bevordert ook actief de samenwerking met overheden en de industrie om gemeenschappelijke normen en beste praktijken te ontwikkelen voor het verzamelen, beheren en gebruiken van data. Verschillende initiatieven ondersteunen de digitalisering, waardoor het gemakkelijker wordt om mobiliteitsgerelateerde data te benaderen en uit te wisselen. Daarnaast ondersteunt Connecting Europe Facility (CEF) Digital de oprichting van Operationele Digitale Platformen (ODP’s), die de aanpassing van energie- en transportinfrastructuur ondersteunen en ICT-bronnen leveren om de stroom, opslag en verwerking van gegevens te vergemakkelijken, wat helpt bij de ontwikkeling van nieuwe slimme diensten.

Op weg naar een gemeenschappelijke Europese mobiliteitsdataruimte

De EU-datastrategie kondigde de oprichting aan van gemeenschappelijke Europese dataruimten in belangrijke sectoren, waaronder mobiliteit. Deze dataruimtes bieden de governance en infrastructuur die nodig zijn om de toegang tot, het bundelen en delen van data op een gecontroleerde en veilige manier te vergemakkelijken.

Hoewel er veel data wordt gegenereerd in de mobiliteits- en transportsector, is deze zeer gefragmenteerd. Te veel bedrijven worstelen om toegang te krijgen tot de data die ze nodig hebben, terwijl grote buitenlandse technologiebedrijven Europese data gebruiken om hun bedrijf te voeden.

De European Mobility Data Space (EMDS) heeft als doel om een ​​gemeenschappelijke technische en bestuurlijke Het raamwerk om interoperabiliteit mogelijk te maken en belemmeringen voor toegang tot en delen van gegevens in de mobiliteits- en transportsector weg te nemen. Het bouwt voort op bestaande en opkomende transportdata-ecosystemen en helpt deze te federeren en met elkaar te verbinden. Het ondersteunt bedrijven en overheden door hen te helpen gegevens effectief te gebruiken en zo vooruitgang te boeken in technologieën en -diensten.

In het kader van het programma Digitaal Europa (DIGITAL) werd in september 2023 een voorbereidende actie afgerond die bestaande initiatieven in kaart bracht en mogelijke gemeenschappelijke bouwstenen identificeerde. In november 2023 startte een implementatieactie om data-infrastructuur en governancemechanismen beschikbaar te stellen ter ondersteuning van use cases in negen steden en regio’s, gericht op stedelijke mobiliteit, zoals multimodale routeplanning, monitoring van de milieueffecten van verkeer of het toegankelijker maken van vervoerswijzen voor mensen met beperkte mobiliteit. Een nieuwe actie heeft 15 miljoen euro toegewezen om een ​​duurzame samenwerkingsstructuur op te zetten en verdere grensoverschrijdende mobiliteit en logistieke use cases te implementeren.

Onder de Connecting Europe Facility (CEF) zal een lopend onderzoek helpen bij het definiëren van de governancestructuur voor het EMDS en de rol van de interlinkinglaag die de vindbaarheid en toegankelijkheid van data in verschillende ecosystemen zal vergemakkelijken.

Tot slot zijn de European Digital Infrastructure Consortia (EDIC) een nieuw mechanisme om Multi-Country Projects te implementeren, opgericht door het Digital Decade Policy Programme 2030, ontworpen om de implementatie van duurzame infrastructuur te vergemakkelijken. De voortdurende voorbereiding van de Mobility and Logistic Data EDIC zou een belangrijke rol kunnen spelen bij de creatie, opschaling en levensvatbaarheid op de lange termijn van het EMDS.

Naast deze EU-initiatieven proberen verschillende data-ecosystemen, initiatieven, platforms en marktplaatsen – aangestuurd door lidstaten of particuliere actoren – het delen van data in de mobiliteitssector te vergemakkelijken. Belangrijke voorbeelden zijn:

Mobility Data Space: dit open, gedecentraliseerde ecosysteem, ondersteund door de Duitse overheid, maakt het mogelijk dat aanbieders van mobiliteitsdata data delen terwijl ze de controle behouden en bestaande mobiliteitsdataplatforms koppelen.

Eona-X: deze dataruimte voor mobiliteit, transport en toerisme is opgericht door toonaangevende particuliere partijen, waaronder luchtvaartmaatschappijen, spoorwegen, luchthavens, auto- en reistechnologiebedrijven. Het maakt deel uit van het GAIA-X-initiatief en is gericht op een naadloze integratie van reisdata over verschillende transportmodi om de reiservaring te verbeteren.

Basic Data Infrastructure (BDI): deze reeks overeenkomsten gericht op de logistieke sector stelt deelnemende partijen in staat om gezamenlijk een IT-netwerk te ontwikkelen dat het delen van vertrouwelijke data ondersteunt en tegelijkertijd de datasoevereiniteit waarborgt. De ontwikkeling en toepassing ervan worden ondersteund door de Nederlandse overheid.

Traffic Data Ecosystem: dit publiek-private partnerschap met ongeveer 200 organisaties uit Finland en daarbuiten, ontwikkelt regels voor het effectief delen van data in het verkeersdomein om innovatieve oplossingen voor datagebruik en een eerlijke data-economie te creëren. Het wordt ondersteund door Fintraffic.

De gemeenschappelijke Europese mobiliteitsdataruimte zal voortbouwen op de verschillende bestaande initiatieven. Het zal de interoperabiliteit tussen hen bevorderen door hulpmiddelen te leveren ter ondersteuning van hun convergentie en het vergemakkelijken van dataontdekking en -toegang in ecosystemen.

Het benutten van synergieën met andere gemeenschappelijke Europese dataruimtes (zoals toerisme, slimme gemeenschappen, Green Deal en productie) is essentieel, aangezien enkele van de meest veelbelovende kansen liggen op het kruispunt tussen sectoren. Door bijvoorbeeld gebruik te maken van de dataruimtes voor energie en mobiliteit, wordt het mogelijk om elektromobiliteitsdata te exploiteren en de energieproductie en -vraag te optimaliseren.

Om de interoperabiliteit tussen sectorale dataruimtes mogelijk te maken, ondersteunt de EU de ontwikkeling van een gemeenschappelijke blauwdruk, gedeelde standaarden en gemeenschappelijke bouwstenen. Het Digital Europe-programma financiert met name het Data Spaces Support Centre en de ontwikkeling van Simpl, de open-source slimme middleware voor Europese dataruimtes.