Synthetische data

Synthetische gegevens zijn niet waterdicht op het gebied privacy.

Nu Synthetische datasets steeds vaker worden gebruikt om data modellen neutraal te trainen.  Blijkt de belofte van meer privacy en minder vooringenomenheid niet zonder nadelen te zijn.

Voorstanders van van gegenereerde Data (gegevens) zeggen dat het persoonlijke informatie beschermt en de kans op vooringenomenheid verkleint. Maar voor de meerderheid van de tegenstanders blijven zorgen over privacy en nauwkeurigheid bestaan.

Nu ook synthetische gegevens met reverse-engineering persoonlijk identificeerbare informatie kunnen onthullen.

Dagelijks komen er nieuwe use-cases voor synthetische data bij. En M oeten we begrijpen dat een synthetische dataset wordt ontwikkeld uit onderzoek naar ervaringen van echte mensen. Het duurt meestal jaren om de dataset samen te stellen en is gebaseerd op gegevens honderdduizend ervaringen van mensen uit een honderdtal landen en gebieden.

Het vrijgeven van deze dataset maakt het mogelijk om informatie te delen voor onderzoeksdoeleinden, zonder inbreuk te maken op de privacy en burgerlijke vrijheden.

“Het is van cruciaal belang om op een veilige manier gegevens op grote schaal beschikbaar te maken voor belanghebbenden om op feiten gebaseerde antwoorden te ontwikkelen”. Administratieve gegevens over geïdentificeerde data vormt een van de belangrijkste beschikbare gegevensbronnen, maar dergelijke informatie is zeer privacy gevoelig.

Hierdoor zijn er vragen ontstaan over de anonimiteit en hoe veilig synthetische gegevens werkelijk zijn. In veel gevallen is het proces van het maken van synthetische gegevens niet voldoende anoniem en worden persoonlijk identificeerbare informatie (PII) niet voldoende gemaskerd. Deze privacykwesties kunnen een rem zetten op realiseren van het potentieel van synthetische gegevens.

Nu data sets moeten worden gevoed met grote hoeveelheden trainingsgegevens, zodat ze nauwkeurige en niet vooringenomen resultaten te kunnen leveren. Is de vraag naar synthetisch genereerde informatie booming. Maar voor bedrijven kan het beschikbaar stellen van onbewerkte klantgegevens een mogelijke blootstellen zijn aan privacyschendingen.

Een onwil om op deze manier gegevens te delen is een groot knelpunt om data op grote schaal inzetten.

“Toegang tot gegevens is het belangrijkste probleem en het eerste probleem waar we tegenaan lopen.”

Synthetische data beloofde dit op te lossen door een doorsnee van een bestaande data set te nemen en daarmee een grotere dataset te genereren die representatief is voor het origineel, maar zonder persoonlijk identificeerbare informatie (PII). “Je neemt een echte data set en bouwt er een statistisch data model van”. “Hierna kun je met dat data model een geheel kunstmatige data set genereren. Daarbij heeft de kunstmatige data set niets te maken met de originele data, maar heeft deze wel dezelfde eigenschappen.”

Naast het naleven van de privacy, is vooringenomenheid ook iets dat kunstmatig kan worden opgepakt. Ook kun je met synthetische data een breder fundament creëren dan dat je mogelijk met echte data had kunnen maken. Maar betekent dat in alle gevallen dat de gegevens die in het systeem worden ingevoerd eerlijk zijn.

Synthetische data is populair bij financiële dienstverleners en verzekeringsmaatschappijen, om modellen te ontwikkelen om fraude op te sporen en antiwitwasregels te handhaven.

We zien ook meer acceptatie van synthetische data als het gaat om smartphones, waar ook ethische, zoals privacy en vooringenomenheid, een rol spelen wanneer smartphone-ontwikkelaars dingen als gezichtsherkenningssystemen bouwen.

Hoewel synthetische gegevens meer privacy beloven, kan de realiteit iets anders zijn.  Omdat synthetische datasets kunnen worden gebruikt om de oorspronkelijke informatie te herleiden waarop de synthetische data set is gebaseerd.

Algoritmen kunnen individuele records deanonimiseren en ze opnieuw associëren, vooral in het geval bij gegevens die niet aan de standaard voldoen. “Een synthetische dataset behoud immers de kenmerken van de originele gegevens met een hoge nauwkeurigheid, en behoudt dus de bruikbaarheid van gegevens, maar stelt kwaadwillenden tegelijkertijd in staat om gevoelige informatie te extraheren”.

Kan dit fundamentele conflict in het hart van synthetische data nog naar tevredenheid worden opgelost. En kan differentiële privacy de standaard wordt die ervoor moet zorgen dat individuen binnen een dataset niet kunnen worden geïdentificeerd.

Progressieve data

Progressieve profilering: een andere manier om gegevens te verzamelen

Een manier om te profileren en gepersonaliseerde ervaringen te bieden zonder database gegevens te gebruiken.

Een tegenstrijdigheid doorbreken die wij als consumenten eisen omdat we een gepersonaliseerde ervaring willen, maar daar vanaf zien ​​als onze gegevens worden verzameld.

Dus hoe begrijpen ze je, plaatsen ze je in de juiste doelgroep en hoe segmenteren ze je als je niet op ja klikt als ze je om toestemming vragen om je gegevens te verzamelen?

Het antwoord ligt in progressieve profilering, en het klinkt veel onheilspellender dan het is.

Decennia lang was het World Wide Web als het Wilde Wilde Westen. Met een eigen goudkoorts bestaande uit gegevens uit cookies van anderen (d.w.z. klantgegevens). Een bron aan gegevens die miljarden winst genereerde.

Door het stroomlijnen van processen, minimaliseren van handelingen en verhogen van het rendement op de investeringen.

Maar het blijft het wilde westen met Hackers, datalekken en onethische bedrijven. Dat maakt gegevensprivacy een punt van zorg, zozeer zelfs dat de overheid de noodzaak van regulering zag. Waardoor er nu moet worden voldoen aan de algemene verordening gegevensbescherming (AVG) van de EU, die regelt hoe gegevens worden verzameld, opgeslagen en beheerd.

Bijna 70% van de consumenten maakt zich zorgen over de hoeveelheid gegevens die bedrijven verzamelen. Nog eens 40% vertrouwt bedrijven hun data niet toe. En 30% is helemaal niet bereid om hun informatie met bedrijven te delen.

De zoektocht naar manieren om relevante content aan consumenten te leveren met respect voor hun recht op controle over hun eigen gegevens. Is waar progressieve profilering om de hoek komt kijken.

Progressive profiling is een benadering voor het verzamelen van persoonlijke data op een privacy conforme manier, men vraagt ​​u om kleine stukjes informatie tijdens u reis door de website.

Hierdoor kunnen er gedetailleerdere gebruikersprofielen gemaakt worden zonder de AVG te schenden. Bovendien legt het nog gedetailleerdere gegevens vast dan standaard gegevensbestanden zouden kunnen, wat een beter inzicht geeft in je voorkeuren. Dat betekent dat u zeer gerichte inhoud, berichten en ervaringen krijgt te zien.

Maar er is een dunne lijn tussen goede progressieve profilering en het overschrijden van grenzen.

* Aantrekken: trekt je aandacht met behulp van contentmarketing, sociale media en betaalde advertenties.

* Verzamelen: gebruik een formulier, quiz, enquête of ander hulpmiddel om kleine hoeveelheden informatie te verzamelen. Het doel is om minimale informatie te vragen, dus het is niet overweldigend (of griezelig).

* Aanpassen: gebruikt de gegevens die over je zijn verzameld en generaliseert deze om profielen te maken en te segmenteren.

* Herhaal: Dit proces gaat door en door als je een nieuwe klant bent.

Het proactief verleiden om je zover te krijgen je gegevens te delen, maar slechts in kleine beetjes tegelijk. Het begint met een paar persoonlijke vragen, zoals je naam en e-mailadres, en gaat daar vandaan verder.

Tot er uiteindelijk een robuuste klant profiel ontstaat dat je segmenteer en indeelt in een bepaalde groep.

Populaire strategieën.

“Welke beroemdheid ben jij?”

‘Hoe zie je er het beste uit?”

“Uit welk jaar is jouw favoriete mode?”

Zo verzamelen ze niet alleen de nodige gegevens, zoals leeftijd, geslacht en e-mail, maar is ook een mogelijkheid om je te segmenteren. Met een gesegmenteerde database die het gemakkelijker maakt om aangepaste inhoud te maken.

En ze zijn niet bang om de informatie te vragen als ze die nodig hebben om de gebruikerservaring te verbeteren: “Rechtstreeks vragen van gegevens die men volgens de AVG niet meer kan verzamelen”. “Die vragen ze wanneer je online gaat browsen, hoeveel je gewoonlijk uitgeeft aan online winkelen en op welke dagen en tijden je eerder e-mails opent en op de inhoud klikt.”

De meeste mensen zijn niet bereid hun informatie te geven, tenzij ze worden gestimuleerd.

Dus werken ze samen met een merk en bieden een korting na voltooiing van een enquête. De informatie uit de enquête wordt ook gedeeld met andere websites en bedrijven in de vorm van brandsharing.

* Restaurantbranche: vraagt om voorkeuren of vraag gasten waar ze de volgende keer willen eten.

* Fitnessbranche: wie ze je zouden aanbevelen voor trainingssessies en bied aan trainingssessies te personaliseren.

* Schoonheidsspecialiste: vraagt om huidtypes om te matchen met het juiste product.

* Reisindustrie: vraagt om de favoriete bestemmingen om te helpen de juiste bestemming te selecteren.

* Detailhandel: vraagt je over je favoriete stijlen (misschien zelfs een decennium als het relevant is).

Een belangrijk ding om te onthouden: online quizzen zijn kort en krachtig. Je hoeft niet te veel vragen te beantwoorden om een ​​waardevolle dataset te bouwen maar net genoeg om je aan te moedigen de rest van de vragen te beantwoorden.

Het doel is om erachter te komen waarom je dingen koopt. Om zo meer te weten over je pijnpunten en je besluitvormingspatronen, zodat ze een persoonlijke ervaring kunnen gegeven bij je bezoek aan de website met premium content.

Die je worden getoond voor slechts een paar kleine stukjes informatie (meestal naam en e-mailadres) om toegang te krijgen tot deze content.

Elke keer geef je iets meer informatie over jezelf vrij via een dynamische website.

Zo kennen ze je interesses, kunnen ze behoeften identificeren en leveren ze je een gepersonaliseerde ervaringen naar je wensen, terwijl jij je gegevens onder controle houdt.

Het zorgt ervoor dat je aanbiedingen relevant en waardevol zijn, zodat het delen van je gegevens een goed idee is.

Alternatieve data

Alternatieve data. Wat is het, wie gebruikt het en waarom is het interessant?

We zoeken steeds meer naar nieuwe informatiebronnen die een onbenutte bron kunnen zijn voor het creëren voorsprong op de concurrentie. Gegevens uit deze gegevensbronnen worden alternatieve data genoemd omdat ze verder gaan dan de typische datasets.

Het gebruik van alternatieve data staat nog maar in de kinderschoenen en het ontdekken van de mogelijke toepassingen is nog maar net is begonnen.

De eerste alternatieve gegevensbronnen bestonden uit creditcardtransacties, weggeschrapte gegevens, geolocatiegegevens van mobiele telefoons, satellietbeelden en weersvoorspellingen.

Recente regelgeving zoals GDPR, CCPA en andere privacykwesties zorgen voor minder beschikbaarheid van sommige van deze bronnen.

Een nieuwe gegevensbron die snel aan populariteit wint, zijn gegevens die rechtstreeks van consumenten worden verzameld op een privacy-conforme manier.

Die gegevens gaan verder dan enquête naar onze beweegredenen en bedoelingen ze brengen ons dagelijkse leven in kaart. Dit type gegevens wordt gebruikt om te voorspellen welke toekomstige aankopen we gaan doen, hoe we denken en het identificeren van specifieke triggers die ons gedrag kunnen voorspellen of beïnvloeden.

Alternatieve gegevens zijn alle gegevens die niet traditioneel wordt gebruikt door de bedrijven waar we klant van zijn. applicaties die we gebruiken of webpagina’s die we bezoeken. De meest bekende gebruikers van alternatieve gegevens zijn algoritme, of risico beheerders, die de gegevens gebruiken om computermodellen te bouwen om voorspellingen van ons gedrag doen.

In de afgelopen tien jaar zijn de bronnen van alternatieve gegevens enorm gegroeid. De meest gebruikte alternatieve datasets zijn gegevens van het internet, creditcardgegevens en gegevens over consumentenvertrouwen.

En ook de komst van de smartphone een decennium geleden bracht allerlei datamogelijkheden met zich mee. Alle apps op uw telefoon zijn bijvoorbeeld een rijke gegevensbron die kunnen worden gebruikt. Smartphones zijn ook een bron van geolocatiegegevens, hoewel dit een beetje controversieel is als het gaat om privacy kwesties.

IoT-gegevens hebben de komende jaren ook het potentieel als nieuwe bron van alternatieve gegevens te worden. Apparaten om ons heen die constant gegevens genereren over ons en onze leefomgeving.

Hoe beter de informatie die we genereren hoe betrouwbaarder de informatie die er wordt geleverd door alternatieve data. Belangrijk is dat deze informatie beschikbaar is.

Met veel interne en externe gegevensbronnen, beschikken we over een groter scala aan inputs en analyses voor besluitvorming en informatie.

Data

Data Wetenschap, Big Data en Data Analyse termen die we allemaal wel eens hebben gehoord. Afgezien van het woord data, hebben ze alle drie betrekking op verschillende verwerkingswijze.

Misschien is het begrip ‘data als goud is’ er eentje die u vaak voorbij hoort komen. Maakt duidelijk dat gegevens tegenwoordig erg belangrijk geworden zijn voor bedrijven en worden beschouwd als het middel waarop elk bedrijf een concurrentievoordeel kan behalen of een disruptieve strategie kan creëren.

Met zettabytes aan gegevens die een gezonde groei laten zien, lijkt de groei hoeveelheid data de komende jaren in de dubbele cijfers te liggen. Tevens is er een toename van een aantal rollen en kansen die te maken hebben met het benutten van deze gegevens.

Wat betekend dat we ervaring op moeten doen en moeten zorgen dat de datacowboys uit dit vakgebied verdwijnen, want hun aanwezigheid is nogal verwarrend. En maakt het werken met data ongewenst moeilijk, voor iedereen die wil uitblinken in datagerelateerd werk.

Waarvan data wetenschap de eerste is waarbij de term ‘wetenschap’ wordt geassocieerd met data, een breed gebied waar wetenschappelijke methoden, wiskundige vergelijkingen, statistiek en tal van andere hulpmiddelen die worden toegepast op datasets om de vereiste kennis en inzichten te extraheren.

In hun ruwe vorm zijn gegevens onbegrijpelijk en abstract, ongefilterde en misleidend vol van patronen en informatie. Om zinvolle conclusies trekken uit deze verzamelde gegevens is data wetenschap noodzakelijk.

Er zijn al veel gebieden waar data wetenschap de samenleving heeft ontwricht en de manier waarop dingen werkten heeft veranderd. Hier zijn enkele van de prominente gebieden waar data wetenschap een grote rol speelt:

In de reclame en online marketing is u vast opgevallen hoe sommige van de producten waarnaar u zoekt, worden weergegeven in advertenties op willekeurige websites? Dit staat bekend als retargeting of remarketing. De producten die aan u worden getoond, worden bepaald met behulp van data wetenschap.

Met behulp van data wetenschap kunnen de patronen of het gedrag van de bezoeker worden bepaald waarna de advertenties op de websites daarop worden gericht.

Data wetenschap in zoekmachines zit in de algoritmen die door zoekmachines worden gebruikt. Om de relevante resultaten voor een zoekopdracht te leveren, gebruiken zoekmachines de hulp van data wetenschap om de enorme hoeveelheid zoekopdrachten te verwerken en om te zetten in relevante patronen. Dit levert de resultaten die bij een gebruiker passen en helpt de zoekmachine te blijven ontwikkelen.

Tegenwoordig is e-commerce een prominente constante geworden met veel online aankopen. Dit heeft ertoe geleid dat logistieke bedrijven hun bezorgervaring hebben verbeterd; wat ertoe leidt dat bedrijven data wetenschap gebruiken om de beste routes, transportmodi en levertijden te begrijpen.

Wat weer tot een toename van fraude en risico’s leid ertoe dat bedrijven constant scherp moeten zijn om niet in slechte leningen, schulden of verliezen te vervallen. Met behulp van data wetenschap kunnen de bedrijven een bredere beveiligingscontrole uitvoeren en de profilering van klanten verbeteren, en ook eerdere gegevens analyseren om patronen te vinden die hen zouden helpen bij het opsporen van fraude en risico’s.

Dan big data, big data is een grote hoeveelheid gegevens (zowel gestructureerd als ongestructureerd) die niet met traditionele methoden kan worden geanalyseerd. De term ‘big data’ is op zichzelf een relatief nieuwe term en het belang ervan is de afgelopen jaren gegroeid, waarbij organisaties de verschillende voordelen die big data biedt beginnen te zien.

Hoewel data er altijd al is geweest en het verzamelen van data ook niets nieuws is, is het concept van big data totaal anders. Big data kan worden gedefinieerd door drie V’s: volume, snelheid en variëteit.

De mogelijkheid om met deze gegevens om te gaan en de betekenisvolle patronen te analyseren, zal ons helpen om, gepersonaliseerde diensten aan te bieden, verspilling te verminderen en snel een beslissing te nemen over ons koopgedrag. Relatief nieuw in vergelijking met de traditionele methode om analyses te gebruiken.

Als laatste data analyse waarvan kan worden gezegd dat het bijna vergelijkbaar is met datawetenschap, maar het heeft in vergelijking een meer gerichte rol. Bij data analyse is de analyse van gegevens geconcentreerd op specifieke gebieden met specifieke doel voor ogen.

We gebruiken data analyse om bepaalde correlaties te vinden tussen diensten of producten en wat klanten willen om weloverwogen zakelijke beslissingen te nemen. Het wordt ook gebruikt door wetenschappers of onderzoekers om specifieke theorieën te verifiëren of tot bepaalde conclusies te komen.

Een van de veelgebruikte gebieden van data analyse is business intelligence; waardoor organisaties beslissingen en prestaties kunnen verbeteren en optimaliseren.

Data analyse heeft de huidige online reis, winkel en zoek omgeving gevormd en offline onze ervaringen in de horeca en winkels veranderd. Via data analyse kunnen bedrijven inzicht krijgen in onze  ervaringen en voorkeuren. Ze kunnen begrijpen wat er momenteel ontbreekt, wat we willen of op wie ze zich moeten richten. Tonen ze aanbiedingen of doen zelfs aanbevelingen op basis van onze interesses op verschillende sociale media of andere websites.

Maar ook in de  gezondheidszorg zijn er veel dingen die door data analyse kunnen veranderen en de afgelopen jaren zijn veranderd. Data analyse kan helpen bij het verbeteren van de medische zorg en de behandelingen optimaliseren.

Zo hebben Data Wetenschap, Big Data en Data Analyse alle hun eigen toepassingen en risico’s. Maar bieden ze ook kansen die soms disruptief worden gezien in onze huidige samenleving.

GAIA-X

De Europese cloud vordert en de lancering van de eerste applicaties staat gepland voor eind 2021. Maar is dit een belangrijke stap voor de digitale soevereiniteit van Europa. En kunnen bedrijven binnen de EU ook echt profiteren van GAIA-X.

Commissievoorzitter Ursula von der Leyen pleit voor een sterke Europese data-economie, als krachtige motor voor innovatie. De uitrol van een Europese cloud op basis van GAIA-X is daarbij een belangrijk element.

Het GAIA-X vindt zijn oorspronkelijk in Duitsland en Frankrijk om samen een ​​Europees data-ecosysteem te creëren. En het idee op zich werd gelanceerd in 2019 en is sindsdien continu doorontwikkeld.

Echter voor het welslagen van het GAIA-X is het cruciaal om zoveel mogelijk Europese partners aan boord te halen. Vrijwel alle bedrijven in Europa zijn afhankelijk van vertrouwde data-ecosystemen. Maar vooral middelgrote bedrijven hebben behoefte aan gemakkelijke toegang tot datanetwerken die voldoen aan de hoge Europese veiligheidsnormen. Om de digitale soevereiniteit van Europa te realiseren, in de zin van het versterken van de eigen competenties en technologieën, is het succes van dit project dus cruciaal.

Om zich in de internationale concurrentie te kunnen laten gelden, zouden ook bedrijven die werken met gebruikersdata in toenemende mate bij het project betrokken moeten worden. Hierdoor kan worden gegarandeerd dat de digitale datadiensten die via GAIA-X worden geleverd, zo goed mogelijk aan de eisen voldoen door het gebruik van GAIA-X in het bedrijfsleven. Door de uniforme manier van werken zou de wetenschap de verzamelde data beter kunnen benutten. Doordat alle geïnteresseerde partijen die de waarden in GAIA-X volgen de data kunnen delen.

Het gemeenschappelijke doel moet zijn GAIA-X samen te ontwikkelen en gebruiken binnen de huidige Europesche regelgeving.

Gaia-X vertegenwoordigt de volgende generatie data-infrastructuur en is een open, transparant en veilig digitaal ecosysteem. Waar data en diensten beschikbaar kunnen worden gesteld, verzameld en gedeeld in een omgeving van vertrouwen.

De architectuur van Gaia-X is gebaseerd op het principe van decentralisatie. Gaia-X is het resultaat van een groot aantal afzonderlijke platforms die allemaal een gemeenschappelijke standaard volgen – de Gaia-X-standaard.

Samen ontwikkelen we in Europa een data-infrastructuur op basis van de waarden openheid, transparantie en vertrouwen. Er ontstaat dus geen cloud, maar een netwerksysteem dat veel cloudserviceproviders met elkaar verbindt.

Zodat burgers hun data kunnen delen en dat zij er controle over houden. Burgers moeten op deze manier kunnen beslissen wat er met hun gegevens gebeurt, waar deze worden opgeslagen en altijd de soevereiniteit van gegevens behouden.