Hoogwaardige, diverse en uitgebreide datasets zijn essentieel voor het verbeteren van de prestaties van machine learning-modellen. Webscraping helpt bij het verzamelen van de benodigde data om robuustere en generaliseerbare modellen te ontwikkelen.
Webscraping brengt verschillende juridische uitdagingen met zich mee, zoals kwesties met betrekking tot gegevensbescherming, auteursrecht en contractrecht. Problemen met intellectueel eigendom ontstaan omdat websitecontent, zoals tekst, afbeeldingen en data, vaak auteursrechtelijk beschermd is en scraping zonder toestemming van de auteursrechthebbende kan leiden tot claims wegens inbreuk.
Bovendien verbieden veel websites scraping in hun servicevoorwaarden. Het schenden van deze voorwaarden kan ook leiden tot juridische stappen tegen de beheerders van webscrapers.
De Algemene Verordening Gegevensbescherming van de EU definieert persoonsgegevens als “alle informatie over een geïdentificeerde of identificeerbare natuurlijke persoon”. Webscraping brengt aanzienlijke uitdagingen met zich mee op het gebied van gegevensbescherming, omdat het vaak persoonsgegevens verzamelt, waaronder gevoelige gegevens, zonder medeweten of toestemming van de betrokkenen.
In de EU beperkt de wetgeving inzake gegevensbescherming het legale gebruik van webscraping. De AVG definieert verwerking als elke bewerking met betrekking tot persoonsgegevens, waaronder het verzamelen, ordenen, opslaan, wijzigen, ophalen, gebruiken en verspreiden ervan. Omdat webscraping deze activiteiten omvat, worden exploitanten beschouwd als verwerkingsverantwoordelijken. Dit betekent dat zij moeten voldoen aan de verplichtingen van verwerkingsverantwoordelijken, waaronder het hebben van een wettelijke basis voor gegevensverwerking, het hebben van een legitiem doel, bijvoorbeeld het trainen van een model, en het naleven van de beginselen van transparantie, dataminimalisatie, opslagbeperking, nauwkeurigheid, beveiliging, vertrouwelijkheid, integriteit en verantwoordingsplicht.
Onder de AVG moet elke verwerking van persoonsgegevens worden gerechtvaardigd door een legitieme wettelijke basis. Hoewel de Europese wet inzake kunstmatige intelligentie (AI) een alomvattend wettelijk kader beoogt te creëren voor de implementatie en werking van AI-systemen, biedt deze momenteel geen specifieke wettelijke basis voor de initiële verzameling van persoonsgegevens voor het trainen van AI-tools.
In plaats daarvan richt de AI-wet zich op gegevensverwerking binnen AI-sandboxes en ontwikkelomgevingen, waardoor de rechtvaardiging voor de initiële gegevensverzameling onder de AVG valt. Organisaties die webscraping gebruiken, moeten er daarom voor zorgen dat ze een wettelijke basis hebben onder de AVG voor de verwerking van zowel gewone als bijzondere categorieën persoonsgegevens, rekening houdend met verschillende rechtsgronden.
Toestemming is waarschijnlijk geen geldige wettelijke basis voor webscraping, aangezien hiervoor de geïnformeerde en vrijwillige toestemming vereist is van de personen van wie de gegevens worden verzameld. Het verkrijgen van dergelijke toestemming is praktisch onmogelijk in de context van geautomatiseerde en grootschalige gegevensverzameling, met name gezien het “zwarte doos” karakter van AI. Deze complexiteit compliceert de kwestie van toestemming voor verdere gegevensverwerking verder.
Verwerking op basis van contractuele noodzaak vereist een directe contractuele relatie tussen de verwerkingsverantwoordelijke en de betrokkene. Bij webscraping bestaat er doorgaans geen dergelijke relatie met de personen van wie de gegevens worden verzameld. Daarom is deze wettelijke basis over het algemeen niet van toepassing om webscrapingactiviteiten te rechtvaardigen.
Bovendien gelden er aanvullende beperkingen onder artikel 9 van de AVG wanneer webscraping bijzondere categorieën persoonsgegevens verzamelt, zoals medische informatie. Deze beperkingen omvatten de noodzaak van uitdrukkelijke toestemming of het voldoen aan specifieke voorwaarden, zoals verwerking voor zwaarwegende algemene belangen of wetenschappelijk onderzoek.
De Task Force van het Europees Comité voor Gegevensbescherming herinnert ons eraan dat bij de juridische beoordeling van de grondslag voor gerechtvaardigd belang rekening moet worden gehouden met drie belangrijke criteria: het bestaan van een gerechtvaardigd belang; de noodzaak van verwerking, waarbij ervoor wordt gezorgd dat de gegevens toereikend, relevant en beperkt zijn tot wat noodzakelijk is; en de afweging van belangen. Dit vereist een zorgvuldige afweging van de fundamentele rechten en vrijheden van betrokkenen ten opzichte van de legitieme belangen van de verwerkingsverantwoordelijke, rekening houdend met de redelijke verwachtingen van betrokkenen. De taskforce stelt voor dat waarborgen technische maatregelen kunnen omvatten, zoals het definiëren van precieze verzamelingscriteria en het waarborgen van bepaalde gegevenscategorieën.
Oriëntaties of bronnen, zoals openbare socialemediaprofielen, zijn uitgesloten van gegevensverzameling.
De Autoriteit Persoonsgegevens (AP), stelt in haar richtlijnen dat alleen wettelijk beschermde belangen als legitieme belangen kwalificeren en dat puur commerciële belangen onvoldoende zijn. De CNIL stelt dat “het commerciële doel van de ontwikkeling van een AI-systeem niet inherent in tegenspraak is met het gebruik van de wettelijke basis van legitiem belang.” De AP is nauwkeurig en stelt dat een legitiem belang kan worden vastgesteld als een organisatie of een derde partij een aanvullend wettelijk erkend belang heeft, zoals het verbeteren van systemen voor fraudepreventie of informatietechnologiebeveiliging.
Het standpunt van de AP geeft aan dat het vaststellen van een legitiem belang bij webscraping lastig en vaak onpraktisch is. De EDPB benadrukt daarentegen de noodzaak van een beoordeling per geval, rekening houdend met de verzameling en verwerking van “gewone” persoonsgegevens en bijzondere categorieën persoonsgegevens waarvoor aanvullende waarborgen gelden.
De AP, het EDPB en de CNIL bevelen ook specifieke waarborgen aan om de relevante gegevensbeheerder die gebruikmaakt van webscrapingtechnieken te bevoordelen. Deze waarborgen, zoals vermeld door de CNIL, omvatten verplichte maatregelen om dataminimalisatie te garanderen, zoals het vaststellen van precieze criteria voor dataverzameling en het toepassen van filters om onnodige gegevens zoals banktransacties, geolocatie en gevoelige gegevens uit te sluiten, en het onmiddellijk verwijderen van irrelevante gegevens zodra deze zijn geïdentificeerd, bijvoorbeeld het verzamelen van pseudoniemen op forums wanneer alleen de inhoud van reacties nodig is; en het toepassen van aanvullende waarborgen.
Het uitsluiten van dataverzameling van vooraf gedefinieerde sites met gevoelige informatie, zoals pornografische sites, gezondheidsforums en sociale netwerken die voornamelijk worden gebruikt door minderjarigen, genealogische sites of sites met uitgebreide persoonsgegevens.
Het vermijden van data van sites die het scrapen via robot.txt- of ai.txt-bestanden expliciet verbieden.
Het implementeren van een zwarte lijst voor personen die bezwaar maken tegen dataverzameling op specifieke websites, zelfs voordat de verzameling begint.
Het waarborgen van het recht van personen om bezwaar te maken tegen dataverzameling.
Beperk de gegevensverzameling tot vrij toegankelijke gegevens en expliciet openbare gebruikersgegevens, om verlies van controle over privé-informatie te voorkomen, bijvoorbeeld door privéberichten op sociale netwerken uit te sluiten.
Pas direct na het verzamelen anonimiserings- of pseudonimiseringsmaatregelen toe om de gegevensbeveiliging te verbeteren.
Informeer gebruikers over de betrokken websites en gegevensverzamelingspraktijken via webscrapingmeldingen.
Voorkom kruisverwijzingen van persoonsgegevens met andere identificatoren, tenzij dit noodzakelijk is voor de ontwikkeling van AI-systemen.
Registreer contactgegevens bij de CNIL om personen te informeren en hen in staat te stellen hun AVG-rechten uit te oefenen bij de verwerkingsverantwoordelijke.
Webscraping is een integraal onderdeel van de ontwikkeling van AI, maar brengt aanzienlijke juridische uitdagingen met zich mee, met name met betrekking tot gegevensbescherming. Hoewel het gerechtvaardigde belang van de verwerkingsverantwoordelijke of een derde als rechtsgrondslag onder de AVG gegevensverzameling kan rechtvaardigen indien een gerechtvaardigd belang is vastgesteld en afgewogen tegen de rechten van de betrokkene, moeten er uitgebreide waarborgen worden geïmplementeerd om juridische risico’s per geval te beperken. De veranderende regelgeving, zal waarschijnlijk meer duidelijkheid verschaffen over toegestane praktijken voor het verzamelen van gegevens. De huidige onzekerheden vereisen echter voorzichtige en verantwoordelijke praktijken voor gegevensverwerking.