Synthetische data

Synthetische gegevens zijn niet waterdicht op het gebied privacy.

Nu Synthetische datasets steeds vaker worden gebruikt om data modellen neutraal te trainen.  Blijkt de belofte van meer privacy en minder vooringenomenheid niet zonder nadelen te zijn.

Voorstanders van van gegenereerde Data (gegevens) zeggen dat het persoonlijke informatie beschermt en de kans op vooringenomenheid verkleint. Maar voor de meerderheid van de tegenstanders blijven zorgen over privacy en nauwkeurigheid bestaan.

Nu ook synthetische gegevens met reverse-engineering persoonlijk identificeerbare informatie kunnen onthullen.

Dagelijks komen er nieuwe use-cases voor synthetische data bij. En M oeten we begrijpen dat een synthetische dataset wordt ontwikkeld uit onderzoek naar ervaringen van echte mensen. Het duurt meestal jaren om de dataset samen te stellen en is gebaseerd op gegevens honderdduizend ervaringen van mensen uit een honderdtal landen en gebieden.

Het vrijgeven van deze dataset maakt het mogelijk om informatie te delen voor onderzoeksdoeleinden, zonder inbreuk te maken op de privacy en burgerlijke vrijheden.

“Het is van cruciaal belang om op een veilige manier gegevens op grote schaal beschikbaar te maken voor belanghebbenden om op feiten gebaseerde antwoorden te ontwikkelen”. Administratieve gegevens over geïdentificeerde data vormt een van de belangrijkste beschikbare gegevensbronnen, maar dergelijke informatie is zeer privacy gevoelig.

Hierdoor zijn er vragen ontstaan over de anonimiteit en hoe veilig synthetische gegevens werkelijk zijn. In veel gevallen is het proces van het maken van synthetische gegevens niet voldoende anoniem en worden persoonlijk identificeerbare informatie (PII) niet voldoende gemaskerd. Deze privacykwesties kunnen een rem zetten op realiseren van het potentieel van synthetische gegevens.

Nu data sets moeten worden gevoed met grote hoeveelheden trainingsgegevens, zodat ze nauwkeurige en niet vooringenomen resultaten te kunnen leveren. Is de vraag naar synthetisch genereerde informatie booming. Maar voor bedrijven kan het beschikbaar stellen van onbewerkte klantgegevens een mogelijke blootstellen zijn aan privacyschendingen.

Een onwil om op deze manier gegevens te delen is een groot knelpunt om data op grote schaal inzetten.

“Toegang tot gegevens is het belangrijkste probleem en het eerste probleem waar we tegenaan lopen.”

Synthetische data beloofde dit op te lossen door een doorsnee van een bestaande data set te nemen en daarmee een grotere dataset te genereren die representatief is voor het origineel, maar zonder persoonlijk identificeerbare informatie (PII). “Je neemt een echte data set en bouwt er een statistisch data model van”. “Hierna kun je met dat data model een geheel kunstmatige data set genereren. Daarbij heeft de kunstmatige data set niets te maken met de originele data, maar heeft deze wel dezelfde eigenschappen.”

Naast het naleven van de privacy, is vooringenomenheid ook iets dat kunstmatig kan worden opgepakt. Ook kun je met synthetische data een breder fundament creëren dan dat je mogelijk met echte data had kunnen maken. Maar betekent dat in alle gevallen dat de gegevens die in het systeem worden ingevoerd eerlijk zijn.

Synthetische data is populair bij financiële dienstverleners en verzekeringsmaatschappijen, om modellen te ontwikkelen om fraude op te sporen en antiwitwasregels te handhaven.

We zien ook meer acceptatie van synthetische data als het gaat om smartphones, waar ook ethische, zoals privacy en vooringenomenheid, een rol spelen wanneer smartphone-ontwikkelaars dingen als gezichtsherkenningssystemen bouwen.

Hoewel synthetische gegevens meer privacy beloven, kan de realiteit iets anders zijn.  Omdat synthetische datasets kunnen worden gebruikt om de oorspronkelijke informatie te herleiden waarop de synthetische data set is gebaseerd.

Algoritmen kunnen individuele records deanonimiseren en ze opnieuw associëren, vooral in het geval bij gegevens die niet aan de standaard voldoen. “Een synthetische dataset behoud immers de kenmerken van de originele gegevens met een hoge nauwkeurigheid, en behoudt dus de bruikbaarheid van gegevens, maar stelt kwaadwillenden tegelijkertijd in staat om gevoelige informatie te extraheren”.

Kan dit fundamentele conflict in het hart van synthetische data nog naar tevredenheid worden opgelost. En kan differentiële privacy de standaard wordt die ervoor moet zorgen dat individuen binnen een dataset niet kunnen worden geïdentificeerd.

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *