Opendata

Open data zou gestructureerde, leesbare data moeten zijn die vrijelijk gedeeld, gebruikt en samengesteld kan worden zonder beperkingen of kosten.

Maar bezoek een Open Data Portal van de stad, gemeente of overheidsdienst om de beschikbare open data gratis te downloaden. En ondervind dat er aan veel open data voorwaarden worden gesteld die de bruikbaarheid inperken.

Instanties zullen proactief datasets op hun Open Data Portal blijven publiceren en het publiek kan soms ook suggesties doen over datasets die als open data kunnen worden vrijgegeven. Deze programma’s zullen doorlopend en binnen de bestaande middelen worden uitgevoerd.

Echter heeft deze manier van werken een nadeel zodra meer mensen gebruik maken stijgen de kosten voor het beschikbaar maken van data. Dit zorgt ervoor dat er beperkingen worden ingesteld om de kosten binnen de bestaande middelen te laten vallen.

Open data met een licentie die weinig beperkingen kent, zodat de data eenvoudig hergebruikt kunnen worden. Lijkt dus nu nog een utopie door de beperkte beschikbaarheid ingegeven door de kosten die worden gemaakt om data beschikbaar te stellen.

Datasets die als open data worden vrijgegeven, worden geleverd zoals ze zijn verzameld, tenzij privacy-, contractuele, beveiligings-, privilege- of andere beperkingen de vrijgave van alle of delen van de data in de dataset beperken.

De afgelopen jaren hebben ontwikkelaars die open data van stad, gemeente of overheidsdienst gebruikt om gratis web- of mobiele applicaties te ontwikkelen, zoals verkeersveiligheid-apps, meldingen over bouwvergunningen in de buurt, parkeer-apps, inspectie-apps, monitoren van waterkwaliteit, plattegronden, enz.

Voorstanders en organisaties zoals het Global Open Data initiatief willen dat gegevens van overheden openbaar toegankelijk zijn, aangezien publiek geld werd gebruikt om deze gegevens te verzamelen. De open data-beweging wint wereldwijd aan terrein en open data  door steeds meer door steden, gemeenten of overheidsdiensten geadopteerd.

Burgers, organisaties en bedrijven willen dat steden, gemeenten of overheidsdiensten die over open data beschikken deze beschikbaar stellen omdat zij kunnen profiteren van de informatie en er waarde aan kunnen toevoegen.

Daarbij kan Open Data de transparantie en verantwoordingsplicht verbeteren;

Vertrouwen opbouwen tussen de steden, gemeenten of overheidsdiensten en de burgerij;

De betrokkenheid van burgers bevorderen en hen in staat te stellen beter geïnformeerde input te leveren aan de steden, gemeenten of overheidsdiensten;

De effectiviteit en efficiëntie van de steden, gemeenten of overheidsdiensten verbeteren;

Het verbeteren van de communicatie en het delen van gegevens met andere steden, gemeenten of overheidsdiensten gelijke toegang bieden;

De waarde van data vergroten door er waarde aan toe te laten voegen; en

bijdragen aan innovatie en economische groei.

Open data transformeert steden, gemeenten of overheidsdiensten van dienstverleners naar organisaties die groei stimuleren en inspireren. Open data wordt daarmee een waardevolle hulpbron van deze eeuw.

Ook al zullen Privacy, beveiliging en juridische implicaties altijd een overweging blijven. Het vrijgeven van datasets moet voldoen aan de vereisten van de Wetgeving op het gebied van de privacy en alle andere toepasselijke wetgeving. Datasets die persoonlijk identificeerbare informatie bevatten of onderworpen zijn aan enige privacy-, veiligheids-, wettelijke of andere beperkingen kunnen niet worden vrijgegeven als open data.

De steden, gemeenten of overheidsdiensten kunnen ook contractuele of andere verplichtingen hebben, die beschikbaar stellen van de gegevens kunnen beperken die op het Open Data Portal kunnen worden gepubliceerd. Wanneer een dataset niet kan worden vrijgegeven als zodanig vanwege beperkingen, zullen de steden, gemeenten of overheidsdiensten moeten evalueren of een aangepaste versie van de dataset kan worden vrijgegeven die aan alle vereisten zou kunnen voldoen.

“Open Data als standaard ” is het eerste principe van het G8 Open Data Handvest, die reeds in 2013 werd aangenomen.

Diversiteit

Gelijkheid bij het verzamelen van gegevens verbetert de nauwkeurigheid van onderzoek, beleidsevaluatie en daaropvolgende beleidsvorming

Onze economieën en samenlevingen staan ​​bol van raciale en etnische ongelijkheden, van welvaarts- en inkomensverschillen tot ongelijkheden op het gebied van gezondheid en welzijn, onderwijs en werkgelegenheid.

Deze verschillen zijn alleen maar groter geworden tijdens de recessie en te midden van de aanhoudende pandemie. Met obstakels om de diversiteit van de economieën zo goed mogelijk weer te geven. Deze uitdagingen beperken niet alleen de reikwijdte van datagestuurd onderzoek, maar verdoezelen ook de bevindingen ervan.

Om de kwaliteit en bruikbaarheid van het verzamelen en analyseren van gegevens te vergroten. Moeten we beter gaat inspelen op de diversiteit en zorgen dat we alle onderdelen van de samenleving gelijk behandelen.

Tevens moeten we oversampling voorkomen, een methode waarbij bepaalde groepen met hogere frequentie worden onderzocht. Oversampling kan de homogeniteit van gegevens verstoren. Hierdoor is de nauwkeurigheid en generaliseerbaarheid van de resultaten niet met zekerheid vast te stellen.

Geaggregeerde datapunten en statistieken, zoals het bruto binnenlands product of het werkloosheidscijfer, zijn een ontoereikende weergave van de huidige economische situatie. Omdat we daarbij alles op één hoop gooien en een gemiddelde berekenen. In werkelijkheid doen verschillende groepen en subgroepen het anders in de economie en in de samenleving, waardoor gemiddelden onnauwkeurige weergaven zijn van de ervaringen van de meeste mensen.

Om goed te kunnen meten hoe alle mensen het doen op de arbeidsmarkt, of hoe het beleid hun leven beïnvloedt, is het daarom essentieel om gegevens uit te splitsen.

Wanneer we brede categorieën gebruiken om de resultaten te analyseren, krijgen we in wezen alleen het gemiddelde en verliezen we veel nuance die ongelooflijk waardevol zijn bij onderzoek en bevindingen.

Het is geen geheim dat dingen als beroep en vakgebied in het algemeen een diversiteitsprobleem heeft. We worden immers vaak geconfronteerd met ongelooflijk hoge drempels voor toegang tot gegevens, die beschikbaar zijn in bepaalde onderdelen van onze samenleving, beroepsklassen en overheden.

Dit diversiteitsprobleem gaat verder dan wie studeert of onderwijst aan de volgende generatie. Het is één van de vele valkuilen die we hebben in veel van de huidige datasets, waardoor veel toekomstige onderzoek en beleidsbeslissingen zouden kunnen worden beïnvloedt.

Uitgebreide gegevens kunnen hun licht werpen op de effecten van een universeel basisinkomen en op onder meer de arbeidsparticipatie of armoedecijfers, maar niemand praat er echt over of besteedt er aandacht aan.

Ondanks dat we ervan kunnen profiteren en leren lijken we diversiteit niet als speerpunt te zien bij het verzamelen van data. Waardoor we grote groepen uitsluiten en niet leren van hun langdurige ervaringen en het effect wat ze hebben in onze samenleving..

Waarschijnlijk zijn er nog veel meer dingen waarvan zowel academici als beleidsmakers zich niet realiseren dat ze ontbreken vanwege een gebrek aan diversiteit in datasets. Diversiteit lijkt een onontgonnen gegevensgebied met data die vaak alleen bekend is bij de gemeenschappen waarin ze wordt gegenereerd, wat betekent dat ze zonder onderzoek waarschijnlijk ongebruikt zullen blijven.

Dit diepgaande gebrek aan diversiteit in datasets beperkt niet alleen de reikwijdte van onderzoek en beleidsevaluatie, maar belemmert ook de effectiviteit en creativiteit van de beleidsvorming zelf, evenals het vermogen om effectieve economische en sociale programma’s op te zetten.

Beleidsmakers hebben tegenwoordig een unieke kans om levensveranderende en essentiële besluiten te nemen die ons in staat stellen om betere economische en sociale resultaten te behalen.

Maar om de impact volledig te begrijpen, hebben we uitgesplitste gegevens nodig die een licht te werpen op hoe verschillende mensen worden beïnvloed, we hebben daarvoor alle achtergronden nodig om deze gegevens te analyseren en te evalueren. Niet alleen toekomstig generaties zullen ervan profiteren, maar ook de huidige.

Synthetische data

Synthetische gegevens zijn niet waterdicht op het gebied privacy.

Nu Synthetische datasets steeds vaker worden gebruikt om data modellen neutraal te trainen.  Blijkt de belofte van meer privacy en minder vooringenomenheid niet zonder nadelen te zijn.

Voorstanders van van gegenereerde Data (gegevens) zeggen dat het persoonlijke informatie beschermt en de kans op vooringenomenheid verkleint. Maar voor de meerderheid van de tegenstanders blijven zorgen over privacy en nauwkeurigheid bestaan.

Nu ook synthetische gegevens met reverse-engineering persoonlijk identificeerbare informatie kunnen onthullen.

Dagelijks komen er nieuwe use-cases voor synthetische data bij. En M oeten we begrijpen dat een synthetische dataset wordt ontwikkeld uit onderzoek naar ervaringen van echte mensen. Het duurt meestal jaren om de dataset samen te stellen en is gebaseerd op gegevens honderdduizend ervaringen van mensen uit een honderdtal landen en gebieden.

Het vrijgeven van deze dataset maakt het mogelijk om informatie te delen voor onderzoeksdoeleinden, zonder inbreuk te maken op de privacy en burgerlijke vrijheden.

“Het is van cruciaal belang om op een veilige manier gegevens op grote schaal beschikbaar te maken voor belanghebbenden om op feiten gebaseerde antwoorden te ontwikkelen”. Administratieve gegevens over geïdentificeerde data vormt een van de belangrijkste beschikbare gegevensbronnen, maar dergelijke informatie is zeer privacy gevoelig.

Hierdoor zijn er vragen ontstaan over de anonimiteit en hoe veilig synthetische gegevens werkelijk zijn. In veel gevallen is het proces van het maken van synthetische gegevens niet voldoende anoniem en worden persoonlijk identificeerbare informatie (PII) niet voldoende gemaskerd. Deze privacykwesties kunnen een rem zetten op realiseren van het potentieel van synthetische gegevens.

Nu data sets moeten worden gevoed met grote hoeveelheden trainingsgegevens, zodat ze nauwkeurige en niet vooringenomen resultaten te kunnen leveren. Is de vraag naar synthetisch genereerde informatie booming. Maar voor bedrijven kan het beschikbaar stellen van onbewerkte klantgegevens een mogelijke blootstellen zijn aan privacyschendingen.

Een onwil om op deze manier gegevens te delen is een groot knelpunt om data op grote schaal inzetten.

“Toegang tot gegevens is het belangrijkste probleem en het eerste probleem waar we tegenaan lopen.”

Synthetische data beloofde dit op te lossen door een doorsnee van een bestaande data set te nemen en daarmee een grotere dataset te genereren die representatief is voor het origineel, maar zonder persoonlijk identificeerbare informatie (PII). “Je neemt een echte data set en bouwt er een statistisch data model van”. “Hierna kun je met dat data model een geheel kunstmatige data set genereren. Daarbij heeft de kunstmatige data set niets te maken met de originele data, maar heeft deze wel dezelfde eigenschappen.”

Naast het naleven van de privacy, is vooringenomenheid ook iets dat kunstmatig kan worden opgepakt. Ook kun je met synthetische data een breder fundament creëren dan dat je mogelijk met echte data had kunnen maken. Maar betekent dat in alle gevallen dat de gegevens die in het systeem worden ingevoerd eerlijk zijn.

Synthetische data is populair bij financiële dienstverleners en verzekeringsmaatschappijen, om modellen te ontwikkelen om fraude op te sporen en antiwitwasregels te handhaven.

We zien ook meer acceptatie van synthetische data als het gaat om smartphones, waar ook ethische, zoals privacy en vooringenomenheid, een rol spelen wanneer smartphone-ontwikkelaars dingen als gezichtsherkenningssystemen bouwen.

Hoewel synthetische gegevens meer privacy beloven, kan de realiteit iets anders zijn.  Omdat synthetische datasets kunnen worden gebruikt om de oorspronkelijke informatie te herleiden waarop de synthetische data set is gebaseerd.

Algoritmen kunnen individuele records deanonimiseren en ze opnieuw associëren, vooral in het geval bij gegevens die niet aan de standaard voldoen. “Een synthetische dataset behoud immers de kenmerken van de originele gegevens met een hoge nauwkeurigheid, en behoudt dus de bruikbaarheid van gegevens, maar stelt kwaadwillenden tegelijkertijd in staat om gevoelige informatie te extraheren”.

Kan dit fundamentele conflict in het hart van synthetische data nog naar tevredenheid worden opgelost. En kan differentiële privacy de standaard wordt die ervoor moet zorgen dat individuen binnen een dataset niet kunnen worden geïdentificeerd.

Progressieve data

Progressieve profilering: een andere manier om gegevens te verzamelen

Een manier om te profileren en gepersonaliseerde ervaringen te bieden zonder database gegevens te gebruiken.

Een tegenstrijdigheid doorbreken die wij als consumenten eisen omdat we een gepersonaliseerde ervaring willen, maar daar vanaf zien ​​als onze gegevens worden verzameld.

Dus hoe begrijpen ze je, plaatsen ze je in de juiste doelgroep en hoe segmenteren ze je als je niet op ja klikt als ze je om toestemming vragen om je gegevens te verzamelen?

Het antwoord ligt in progressieve profilering, en het klinkt veel onheilspellender dan het is.

Decennia lang was het World Wide Web als het Wilde Wilde Westen. Met een eigen goudkoorts bestaande uit gegevens uit cookies van anderen (d.w.z. klantgegevens). Een bron aan gegevens die miljarden winst genereerde.

Door het stroomlijnen van processen, minimaliseren van handelingen en verhogen van het rendement op de investeringen.

Maar het blijft het wilde westen met Hackers, datalekken en onethische bedrijven. Dat maakt gegevensprivacy een punt van zorg, zozeer zelfs dat de overheid de noodzaak van regulering zag. Waardoor er nu moet worden voldoen aan de algemene verordening gegevensbescherming (AVG) van de EU, die regelt hoe gegevens worden verzameld, opgeslagen en beheerd.

Bijna 70% van de consumenten maakt zich zorgen over de hoeveelheid gegevens die bedrijven verzamelen. Nog eens 40% vertrouwt bedrijven hun data niet toe. En 30% is helemaal niet bereid om hun informatie met bedrijven te delen.

De zoektocht naar manieren om relevante content aan consumenten te leveren met respect voor hun recht op controle over hun eigen gegevens. Is waar progressieve profilering om de hoek komt kijken.

Progressive profiling is een benadering voor het verzamelen van persoonlijke data op een privacy conforme manier, men vraagt ​​u om kleine stukjes informatie tijdens u reis door de website.

Hierdoor kunnen er gedetailleerdere gebruikersprofielen gemaakt worden zonder de AVG te schenden. Bovendien legt het nog gedetailleerdere gegevens vast dan standaard gegevensbestanden zouden kunnen, wat een beter inzicht geeft in je voorkeuren. Dat betekent dat u zeer gerichte inhoud, berichten en ervaringen krijgt te zien.

Maar er is een dunne lijn tussen goede progressieve profilering en het overschrijden van grenzen.

* Aantrekken: trekt je aandacht met behulp van contentmarketing, sociale media en betaalde advertenties.

* Verzamelen: gebruik een formulier, quiz, enquête of ander hulpmiddel om kleine hoeveelheden informatie te verzamelen. Het doel is om minimale informatie te vragen, dus het is niet overweldigend (of griezelig).

* Aanpassen: gebruikt de gegevens die over je zijn verzameld en generaliseert deze om profielen te maken en te segmenteren.

* Herhaal: Dit proces gaat door en door als je een nieuwe klant bent.

Het proactief verleiden om je zover te krijgen je gegevens te delen, maar slechts in kleine beetjes tegelijk. Het begint met een paar persoonlijke vragen, zoals je naam en e-mailadres, en gaat daar vandaan verder.

Tot er uiteindelijk een robuuste klant profiel ontstaat dat je segmenteer en indeelt in een bepaalde groep.

Populaire strategieën.

“Welke beroemdheid ben jij?”

‘Hoe zie je er het beste uit?”

“Uit welk jaar is jouw favoriete mode?”

Zo verzamelen ze niet alleen de nodige gegevens, zoals leeftijd, geslacht en e-mail, maar is ook een mogelijkheid om je te segmenteren. Met een gesegmenteerde database die het gemakkelijker maakt om aangepaste inhoud te maken.

En ze zijn niet bang om de informatie te vragen als ze die nodig hebben om de gebruikerservaring te verbeteren: “Rechtstreeks vragen van gegevens die men volgens de AVG niet meer kan verzamelen”. “Die vragen ze wanneer je online gaat browsen, hoeveel je gewoonlijk uitgeeft aan online winkelen en op welke dagen en tijden je eerder e-mails opent en op de inhoud klikt.”

De meeste mensen zijn niet bereid hun informatie te geven, tenzij ze worden gestimuleerd.

Dus werken ze samen met een merk en bieden een korting na voltooiing van een enquête. De informatie uit de enquête wordt ook gedeeld met andere websites en bedrijven in de vorm van brandsharing.

* Restaurantbranche: vraagt om voorkeuren of vraag gasten waar ze de volgende keer willen eten.

* Fitnessbranche: wie ze je zouden aanbevelen voor trainingssessies en bied aan trainingssessies te personaliseren.

* Schoonheidsspecialiste: vraagt om huidtypes om te matchen met het juiste product.

* Reisindustrie: vraagt om de favoriete bestemmingen om te helpen de juiste bestemming te selecteren.

* Detailhandel: vraagt je over je favoriete stijlen (misschien zelfs een decennium als het relevant is).

Een belangrijk ding om te onthouden: online quizzen zijn kort en krachtig. Je hoeft niet te veel vragen te beantwoorden om een ​​waardevolle dataset te bouwen maar net genoeg om je aan te moedigen de rest van de vragen te beantwoorden.

Het doel is om erachter te komen waarom je dingen koopt. Om zo meer te weten over je pijnpunten en je besluitvormingspatronen, zodat ze een persoonlijke ervaring kunnen gegeven bij je bezoek aan de website met premium content.

Die je worden getoond voor slechts een paar kleine stukjes informatie (meestal naam en e-mailadres) om toegang te krijgen tot deze content.

Elke keer geef je iets meer informatie over jezelf vrij via een dynamische website.

Zo kennen ze je interesses, kunnen ze behoeften identificeren en leveren ze je een gepersonaliseerde ervaringen naar je wensen, terwijl jij je gegevens onder controle houdt.

Het zorgt ervoor dat je aanbiedingen relevant en waardevol zijn, zodat het delen van je gegevens een goed idee is.

Alternatieve data

Alternatieve data. Wat is het, wie gebruikt het en waarom is het interessant?

We zoeken steeds meer naar nieuwe informatiebronnen die een onbenutte bron kunnen zijn voor het creëren voorsprong op de concurrentie. Gegevens uit deze gegevensbronnen worden alternatieve data genoemd omdat ze verder gaan dan de typische datasets.

Het gebruik van alternatieve data staat nog maar in de kinderschoenen en het ontdekken van de mogelijke toepassingen is nog maar net is begonnen.

De eerste alternatieve gegevensbronnen bestonden uit creditcardtransacties, weggeschrapte gegevens, geolocatiegegevens van mobiele telefoons, satellietbeelden en weersvoorspellingen.

Recente regelgeving zoals GDPR, CCPA en andere privacykwesties zorgen voor minder beschikbaarheid van sommige van deze bronnen.

Een nieuwe gegevensbron die snel aan populariteit wint, zijn gegevens die rechtstreeks van consumenten worden verzameld op een privacy-conforme manier.

Die gegevens gaan verder dan enquête naar onze beweegredenen en bedoelingen ze brengen ons dagelijkse leven in kaart. Dit type gegevens wordt gebruikt om te voorspellen welke toekomstige aankopen we gaan doen, hoe we denken en het identificeren van specifieke triggers die ons gedrag kunnen voorspellen of beïnvloeden.

Alternatieve gegevens zijn alle gegevens die niet traditioneel wordt gebruikt door de bedrijven waar we klant van zijn. applicaties die we gebruiken of webpagina’s die we bezoeken. De meest bekende gebruikers van alternatieve gegevens zijn algoritme, of risico beheerders, die de gegevens gebruiken om computermodellen te bouwen om voorspellingen van ons gedrag doen.

In de afgelopen tien jaar zijn de bronnen van alternatieve gegevens enorm gegroeid. De meest gebruikte alternatieve datasets zijn gegevens van het internet, creditcardgegevens en gegevens over consumentenvertrouwen.

En ook de komst van de smartphone een decennium geleden bracht allerlei datamogelijkheden met zich mee. Alle apps op uw telefoon zijn bijvoorbeeld een rijke gegevensbron die kunnen worden gebruikt. Smartphones zijn ook een bron van geolocatiegegevens, hoewel dit een beetje controversieel is als het gaat om privacy kwesties.

IoT-gegevens hebben de komende jaren ook het potentieel als nieuwe bron van alternatieve gegevens te worden. Apparaten om ons heen die constant gegevens genereren over ons en onze leefomgeving.

Hoe beter de informatie die we genereren hoe betrouwbaarder de informatie die er wordt geleverd door alternatieve data. Belangrijk is dat deze informatie beschikbaar is.

Met veel interne en externe gegevensbronnen, beschikken we over een groter scala aan inputs en analyses voor besluitvorming en informatie.

Data

Data Wetenschap, Big Data en Data Analyse termen die we allemaal wel eens hebben gehoord. Afgezien van het woord data, hebben ze alle drie betrekking op verschillende verwerkingswijze.

Misschien is het begrip ‘data als goud is’ er eentje die u vaak voorbij hoort komen. Maakt duidelijk dat gegevens tegenwoordig erg belangrijk geworden zijn voor bedrijven en worden beschouwd als het middel waarop elk bedrijf een concurrentievoordeel kan behalen of een disruptieve strategie kan creëren.

Met zettabytes aan gegevens die een gezonde groei laten zien, lijkt de groei hoeveelheid data de komende jaren in de dubbele cijfers te liggen. Tevens is er een toename van een aantal rollen en kansen die te maken hebben met het benutten van deze gegevens.

Wat betekend dat we ervaring op moeten doen en moeten zorgen dat de datacowboys uit dit vakgebied verdwijnen, want hun aanwezigheid is nogal verwarrend. En maakt het werken met data ongewenst moeilijk, voor iedereen die wil uitblinken in datagerelateerd werk.

Waarvan data wetenschap de eerste is waarbij de term ‘wetenschap’ wordt geassocieerd met data, een breed gebied waar wetenschappelijke methoden, wiskundige vergelijkingen, statistiek en tal van andere hulpmiddelen die worden toegepast op datasets om de vereiste kennis en inzichten te extraheren.

In hun ruwe vorm zijn gegevens onbegrijpelijk en abstract, ongefilterde en misleidend vol van patronen en informatie. Om zinvolle conclusies trekken uit deze verzamelde gegevens is data wetenschap noodzakelijk.

Er zijn al veel gebieden waar data wetenschap de samenleving heeft ontwricht en de manier waarop dingen werkten heeft veranderd. Hier zijn enkele van de prominente gebieden waar data wetenschap een grote rol speelt:

In de reclame en online marketing is u vast opgevallen hoe sommige van de producten waarnaar u zoekt, worden weergegeven in advertenties op willekeurige websites? Dit staat bekend als retargeting of remarketing. De producten die aan u worden getoond, worden bepaald met behulp van data wetenschap.

Met behulp van data wetenschap kunnen de patronen of het gedrag van de bezoeker worden bepaald waarna de advertenties op de websites daarop worden gericht.

Data wetenschap in zoekmachines zit in de algoritmen die door zoekmachines worden gebruikt. Om de relevante resultaten voor een zoekopdracht te leveren, gebruiken zoekmachines de hulp van data wetenschap om de enorme hoeveelheid zoekopdrachten te verwerken en om te zetten in relevante patronen. Dit levert de resultaten die bij een gebruiker passen en helpt de zoekmachine te blijven ontwikkelen.

Tegenwoordig is e-commerce een prominente constante geworden met veel online aankopen. Dit heeft ertoe geleid dat logistieke bedrijven hun bezorgervaring hebben verbeterd; wat ertoe leidt dat bedrijven data wetenschap gebruiken om de beste routes, transportmodi en levertijden te begrijpen.

Wat weer tot een toename van fraude en risico’s leid ertoe dat bedrijven constant scherp moeten zijn om niet in slechte leningen, schulden of verliezen te vervallen. Met behulp van data wetenschap kunnen de bedrijven een bredere beveiligingscontrole uitvoeren en de profilering van klanten verbeteren, en ook eerdere gegevens analyseren om patronen te vinden die hen zouden helpen bij het opsporen van fraude en risico’s.

Dan big data, big data is een grote hoeveelheid gegevens (zowel gestructureerd als ongestructureerd) die niet met traditionele methoden kan worden geanalyseerd. De term ‘big data’ is op zichzelf een relatief nieuwe term en het belang ervan is de afgelopen jaren gegroeid, waarbij organisaties de verschillende voordelen die big data biedt beginnen te zien.

Hoewel data er altijd al is geweest en het verzamelen van data ook niets nieuws is, is het concept van big data totaal anders. Big data kan worden gedefinieerd door drie V’s: volume, snelheid en variëteit.

De mogelijkheid om met deze gegevens om te gaan en de betekenisvolle patronen te analyseren, zal ons helpen om, gepersonaliseerde diensten aan te bieden, verspilling te verminderen en snel een beslissing te nemen over ons koopgedrag. Relatief nieuw in vergelijking met de traditionele methode om analyses te gebruiken.

Als laatste data analyse waarvan kan worden gezegd dat het bijna vergelijkbaar is met datawetenschap, maar het heeft in vergelijking een meer gerichte rol. Bij data analyse is de analyse van gegevens geconcentreerd op specifieke gebieden met specifieke doel voor ogen.

We gebruiken data analyse om bepaalde correlaties te vinden tussen diensten of producten en wat klanten willen om weloverwogen zakelijke beslissingen te nemen. Het wordt ook gebruikt door wetenschappers of onderzoekers om specifieke theorieën te verifiëren of tot bepaalde conclusies te komen.

Een van de veelgebruikte gebieden van data analyse is business intelligence; waardoor organisaties beslissingen en prestaties kunnen verbeteren en optimaliseren.

Data analyse heeft de huidige online reis, winkel en zoek omgeving gevormd en offline onze ervaringen in de horeca en winkels veranderd. Via data analyse kunnen bedrijven inzicht krijgen in onze  ervaringen en voorkeuren. Ze kunnen begrijpen wat er momenteel ontbreekt, wat we willen of op wie ze zich moeten richten. Tonen ze aanbiedingen of doen zelfs aanbevelingen op basis van onze interesses op verschillende sociale media of andere websites.

Maar ook in de  gezondheidszorg zijn er veel dingen die door data analyse kunnen veranderen en de afgelopen jaren zijn veranderd. Data analyse kan helpen bij het verbeteren van de medische zorg en de behandelingen optimaliseren.

Zo hebben Data Wetenschap, Big Data en Data Analyse alle hun eigen toepassingen en risico’s. Maar bieden ze ook kansen die soms disruptief worden gezien in onze huidige samenleving.

GAIA-X

De Europese cloud vordert en de lancering van de eerste applicaties staat gepland voor eind 2021. Maar is dit een belangrijke stap voor de digitale soevereiniteit van Europa. En kunnen bedrijven binnen de EU ook echt profiteren van GAIA-X.

Commissievoorzitter Ursula von der Leyen pleit voor een sterke Europese data-economie, als krachtige motor voor innovatie. De uitrol van een Europese cloud op basis van GAIA-X is daarbij een belangrijk element.

Het GAIA-X vindt zijn oorspronkelijk in Duitsland en Frankrijk om samen een ​​Europees data-ecosysteem te creëren. En het idee op zich werd gelanceerd in 2019 en is sindsdien continu doorontwikkeld.

Echter voor het welslagen van het GAIA-X is het cruciaal om zoveel mogelijk Europese partners aan boord te halen. Vrijwel alle bedrijven in Europa zijn afhankelijk van vertrouwde data-ecosystemen. Maar vooral middelgrote bedrijven hebben behoefte aan gemakkelijke toegang tot datanetwerken die voldoen aan de hoge Europese veiligheidsnormen. Om de digitale soevereiniteit van Europa te realiseren, in de zin van het versterken van de eigen competenties en technologieën, is het succes van dit project dus cruciaal.

Om zich in de internationale concurrentie te kunnen laten gelden, zouden ook bedrijven die werken met gebruikersdata in toenemende mate bij het project betrokken moeten worden. Hierdoor kan worden gegarandeerd dat de digitale datadiensten die via GAIA-X worden geleverd, zo goed mogelijk aan de eisen voldoen door het gebruik van GAIA-X in het bedrijfsleven. Door de uniforme manier van werken zou de wetenschap de verzamelde data beter kunnen benutten. Doordat alle geïnteresseerde partijen die de waarden in GAIA-X volgen de data kunnen delen.

Het gemeenschappelijke doel moet zijn GAIA-X samen te ontwikkelen en gebruiken binnen de huidige Europesche regelgeving.

Gaia-X vertegenwoordigt de volgende generatie data-infrastructuur en is een open, transparant en veilig digitaal ecosysteem. Waar data en diensten beschikbaar kunnen worden gesteld, verzameld en gedeeld in een omgeving van vertrouwen.

De architectuur van Gaia-X is gebaseerd op het principe van decentralisatie. Gaia-X is het resultaat van een groot aantal afzonderlijke platforms die allemaal een gemeenschappelijke standaard volgen – de Gaia-X-standaard.

Samen ontwikkelen we in Europa een data-infrastructuur op basis van de waarden openheid, transparantie en vertrouwen. Er ontstaat dus geen cloud, maar een netwerksysteem dat veel cloudserviceproviders met elkaar verbindt.

Zodat burgers hun data kunnen delen en dat zij er controle over houden. Burgers moeten op deze manier kunnen beslissen wat er met hun gegevens gebeurt, waar deze worden opgeslagen en altijd de soevereiniteit van gegevens behouden.

Pipl

China heeft een wet op de bescherming van persoonsgegevens aangenomen. De wet Personal Information Protection Law (PIPL) gaat op 1 november in. 

En is een signaal van de intentie van de communistische leiders om de gegevensverzameling commerciële Chinese internetbedrijven aan te pakken, door wettelijke beperkingen op te leggen aan het verzamelen van gebruikersgegevens.

De nieuwe Chinese toezichthouder die zich richt op het gedwongen afstaan van gegevens voor internetgebruikers is vanaf nu ook actief.

China is met de Personal Information Protection Law (PIPL) een stap dichter bij het aanpakken van het ongevraagd gegevensverzamelen..

De nieuwe wet vereist dat bedrijven hun gebruikers een opt in en opt out optie bieden. En zo zelf kunnen beslissen over hoe hun informatie verzameld en hoe deze wel of niet kan worden gebruikt, zoals de mogelijkheid om niet te worden gevolgd voor marketingdoeleinden of alleen informatie te krijgen op basis van persoonlijke kenmerken.

De wet stelt ook eisen aan de manier waarop gegevensverwerkers toestemming van individuen dienen te verkrijgen om gevoelige soorten gegevens te kunnen verwerken, zoals biometrische, medische en gezondheids-, financiële- en locatiegegevens.

Bedrijven die illegaal gebruikersgegevens zonder toestemming van de gebruiker verwerken, lopen het risico dat hun service wordt opgeschort of beëindigd.

Alle westerse bedrijven die zaken doen in China waarbij persoonlijke gegevens van burgers worden verwerkt, moeten rekening houden met de jurisdictie van de wet. Dat betekent wettelijke vereisten, zoals de noodzaak om lokale vertegenwoordigers te hebben die rapporteren aan toezichthoudende instanties in China.

De kernelementen van de nieuwe wet vertonen overeenkomsten met de wetgeving van de Europese Unie. Waar de Algemene Verordening Gegevensbescherming (AVG) burgers een uitgebreide reeks rechten biedt.

Maar de context waarin gewerkt word is natuurlijk heel anders, niet in het minst gezien de manier waarop de Chinese staat uitgebreide gegevens gebruikt om het gedrag van zijn eigen inwoners in de gaten te houden en te controleren.

Alle beperkingen die de PIPL zou kunnen stellen aan de mogelijkheid van Chinese overheidsdiensten om gegevens over haar inwoners te verzamelen. Zijn misschien niet veel meer dan een poging om een ​​dekmantel te creëren om de voortdurende gegevensverzameling door de Chinese Communistische Partij en het staatsveiligheidsapparaat aan het oog te onttrekken.

Of de nieuwe regels voor gegevensbescherming zouden kunnen worden gebruikt om de macht van de gehele technologiesector verder te reguleren is op dit moment nog onduidelijk.

Besef cq noodzaak

Het besef van de noodzaak van onderling verbonden systemen die gebruik maken van het internet om dingen gemakkelijker te vereenvoudigen, zorgt voor een revolutie in de manier waarop we leven.

Het internet van dingen is inmiddels de belangrijkste bron voor het verzamelen van gegevens. De analyse en verwerking van deze verzamelde gegevens hebben geleid tot tal van moderne analytische oplossingen. 

Het internet van dingen geeft zo een nieuwe betekenis aan het woord “intelligent”. Door een relatie aan te gaan met andere technologieën, processen en data-analyse op een economische en schaalbare manier.

Omdat het Internet van dingen een datagestuurde technologie is, draagt het aanzienlijk bij aan de toename van beschikbare informatie en beïnvloed het de manier waarop we al jaren hebben gewerkt. Steeds meer innovatieve digitale oplossingen die mogelijk bestaan uit betere, meer geavanceerde analyses en data gerichte besluitvorming kenmerken veranderingen. Één voortdurend evoluerend technologie, die het ons soms moeilijk maakt om de technologie en de voordelen ervan te begrijpen.

Constante onderzoek, van de implementatie en de opwaardering van de IoT-technologie heeft ons ertoe gebracht meer geavanceerde mechanismen te ontwikkelen waarmee gegevens kunnen worden verwerkt.

We ontwikkelen goedkope sensor en nieuwe communicatietechnieken waarmee we miljarden apparaten met elkaar kunnen verbinden en waarover we informatie delen.

Door Global Positioning Systems (GPS) weten we waar een voorwerp is, en kunnen we ongevallen te voorkomen. Ook kunnen we het productieproces en onderhoud van apparatuur stroomlijnen en beter beheren via het internet van dingen.

Slimme waterpompen, irrigatiesystemen, controleren niveaus en en bepalen mee hoeveelheid pesticiden we kunnen gebruiken tijdens groei van de gewassen. Waardoor de productie en kwaliteit van de oogst een boost kan worden geven.

Integratie of levensreddende technologieën in de gezondheidszorg zullen de kwaliteit van het leven verbeteren en onze gezondheid door middel van constante monitoring op peil houden.

Ook de omgeving waarin we wonen wordt beïnvloed door slimme verwarmingsketels, automatische deursloten,. En meer geavanceerde functie’s in ons huis waarvan intelligente/slimme verlichting  slechts een van de voorbeelden is.

Daarbij wisselen we voortdurend informatie uit, wat betekent dat de er voortdurend waardevolle gegevens en inzichten worden verzamelt door middel van interactie.

De informatie die wordt verzameld, is niet beperkt tot de apparaten die eigendom zijn van bedrijven of organisaties. Dit proces omvat ook elk persoonlijk apparaat in en buiten ons huis.

Hoeveel data

Hoeveel data wordt er elke dag gecreëerd? Hoeveel data gebruikt de gemiddelde persoon? Onze smartphones en tablets, alle innovaties in mobiele netwerken en wifi, zorgen voor de creatie en hoger verbruik van data.

Dus hoeveel data er elke dag geproduceerd in onze nieuwe werkelijkheid, heeft elke dag een ander antwoord. Voordat we ingaan op de vraag hoeveel data we produceren, moeten we eerst een opsomming maken.

* In 2020 creëerden mensen elke seconde bijna 2 MB aan data.

* Tegen 2025 zullen er wereldwijd meer dan 200 zettabytes aan gegevens in cloudopslag staan..

* Bijna 50 zettabyte aan gegevens vormen ons digitale universum.

* Elke dag worden meer 300 miljard e-mails verzonden en 500 miljoen tweets gemaakt.

Maar als we het hebben over hoeveel data die er elke dag wordt gecreëerd, is de huidige schatting meer dan 1 biljoen MB per dag.

Zelfs terwijl we deze post lezen, slaat we veel onbruikbare gegevens op. We kunnen overwegen om die ruimte weer vrij te maken en onnodige gegevens te verwijderen. Echter de praktijk leert ons dat maar weinig mensen dit doen, met als resultaat bergen onbruikbare gegevens.

Aan het begin van dit jaar waren er wereldwijd bijna 5 miljard actieve internetgebruikers.

Dat is duizelingwekkend, als je bedenkt dat dit er in 2013 slechts 2,6 miljard waren.

De mobiele telefoon of moeten we smartphone zeggen, is met 4,28 miljard unieke gebruikers, is de aanjager van deze duizelingwekkende groei. En daarmee de grootste generator van data in onze wereld op dit moment.

En de mobiele telefoon maakt het mogelijk om persoonsgericht advertenties, content en data te genereren.

Daarbij verovert IoT inmiddels onze woningen en deze groei vertoont geen tekenen van vertraging. Sterker nog, de industrie is booming. Naarmate het aantal IoT-apparaten toeneemt, neemt ook het aantal actieve gebruikers toe.

In 2019 was het aantal aangesloten IOT apparaten slechts een kleine 8 miljard, dit aantal zal voor 2030 meer dan verdrievoudigen zijn.

Geholpen door slimme netwerken, volgsystemen, monitoring, autonome voertuigen en infrastructuur. En dat zijn er al meer dan drie miljard, gadgets zoals lampen, huishoudelijke apparaten, slimme meters, alarmen en volgsystemen.

Hoe groot is de grootte van de gegevens?

En hoe maken we van kleine hoeveelheden gegevens big data.

Hoeveel is een byte?

1 byte is gelijk aan 0,001 kilobyte.

Hoeveel is een kilobyte?

1 kilobyte is gelijk aan 1024 bytes.

Hoeveel is een megabyte?

1 megabyte is gelijk aan 1024 kilobytes.

Hoeveel is een gigabyte?

1 gigabyte is gelijk aan ongeveer 1024 megabytes.

Hoeveel is een terabyte?

1 terabyte is gelijk aan 1024GB.

Hoeveel is een petabyte?

1 petabyte is gelijk aan 1024 terabyte.

Hoeveel is een exabyte?

1 exabyte is gelijk aan ongeveer 1024 petabyte.

Hoeveel is een zettabyte?

1 zettabyte is gelijk aan ongeveer een biljoen gigabyte.

Hoeveel is een yottabyte?

1 yottabyte is gelijk aan 1.204 zettabyte.

Goed om te onthouden het grootste deel van de gegevens wereldwijd is in de afgelopen twee jaar gegenereerd, het zal interessant zijn om te volgen ‘hoeveel gegevens er elke dag worden gegenereerd’ en hoeveel dat over een jaar is. De hoeveelheid gegevens zal zelfs nog meer toenemen in de komende vijf tot tien jaar, waardoor we in de komende jaren radicaal anders zullen moeten gaan denken over gegevens en de rol van data in onze samenleving.