Beheer

Gegevensbeheer is het proces van het opnemen, opslaan, organiseren en onderhouden van de gegevens die zijn aangemaakt en verzameld. Effectief gegevensbeheer is een cruciaal onderdeel van het inzetten van de IT-systemen die applicaties uitvoeren en analytische informatie leveren om de operationele besluitvorming en strategische planning door gebruikers te stimuleren.

Het gegevensbeheer omvat een combinatie van verschillende functies die er gezamenlijk op gericht zijn ervoor te zorgen dat de gegevens in systemen nauwkeurig, beschikbaar en toegankelijk zijn. Het meeste van het vereiste werk wordt gedaan door IT- en gegevensbeheerteams, maar gebruikers nemen doorgaans ook deel aan sommige delen van het proces om ervoor te zorgen dat de gegevens aan behoeften voldoen en om anderen aan boord te krijgen met het beleid dat het gebruik ervan regelt.

Gegevens worden steeds meer gezien als een middel dat kan worden gebruikt om beter geïnformeerde beslissingen te nemen, campagnes te verbeteren, de bedrijfsvoering te optimaliseren en kosten te verlagen, allemaal met als doel het verhogen van de omzet en winst. Maar een gebrek aan goed databeheer kan organisaties opzadelen met incompatibele datasilo’s, inconsistente datasets en datakwaliteitsproblemen die hun vermogen beperken om business intelligence (BI) en analysetoepassingen uit te voeren of, erger nog, leiden tot foutieve bevindingen.

Gegevensbeheer is ook belangrijker geworden nu we worden onderworpen aan een toenemend aantal nalevingsvereisten, waaronder wetten inzake gegevensprivacy en gegevensbescherming, zoals de AVG. Bovendien leggen we steeds grotere hoeveelheden gegevens en een grotere verscheidenheid aan gegevenstypen vast, beide kenmerken van de big data-systemen die velen hebben ingezet. Zonder goed gegevensbeheer kunnen dergelijke omgevingen log en moeilijk te navigeren worden.

De afzonderlijke disciplines die deel uitmaken van het algehele gegevensbeheerproces omvatten een reeks stappen, van gegevensverwerking en gegevensopslag tot het beheer van de manier waarop gegevens worden opgemaakt en gebruikt in operationele en analytische systemen. Het ontwikkelen van een data-architectuur is vaak de eerste stap, zeker in grote organisaties die veel data te beheren hebben. Een gegevensarchitectuur biedt een blauwdruk voor het beheren van gegevens en het implementeren van databases en andere gegevensplatforms, inclusief specifieke technologieën die geschikt zijn voor individuele toepassingen.

Databases zijn het meest gebruikte platform om gegevens op te slaan. Ze bevatten een verzameling gegevens die zo is georganiseerd dat ze toegankelijk, bijgewerkt en beheerd kunnen worden. Ze worden gebruikt in zowel transactieverwerkingssystemen die operationele gegevens creëren, zoals klantrecords en verkooporders, als datawarehouses, die geconsolideerde datasets van systemen opslaan voor BI en analyse.

Dat maakt databasebeheer tot een kernfunctie voor gegevensbeheer. Zodra databases zijn opgezet, moeten prestatiebewaking en afstemming worden uitgevoerd om aanvaardbare responstijden te handhaven op databasequery’s die gebruikers uitvoeren om informatie te krijgen uit de gegevens die erin zijn opgeslagen. Andere administratieve taken zijn databaseontwerp, configuratie, installatie en updates; dataveiligheid; back-up en herstel van databases; en toepassing van software-upgrades en beveiligingspatches.

Een enterprise datawarehouse bevat gegevens van systemen binnen een organisatie. Datamarts zijn een andere opslagoptie: het zijn kleinere versies van datawarehouses die subsets van de gegevens van een organisatie bevatten voor specifieke afdelingen of groepen gebruikers. Bij één implementatiebenadering wordt een bestaand datawarehouse gebruikt om verschillende datamarts te creëren; in een andere worden de datamarts eerst gebouwd en vervolgens gebruikt om een datawarehouse te vullen.

Datameren daarentegen slaan pools van big data op voor gebruik in voorspellende modellering, machine learning en andere geavanceerde analytische toepassingen. De gegevens kunnen worden verwerkt voor analyse wanneer ze worden opgenomen, maar een data lake bevat vaak onbewerkte gegevens die zijn opgeslagen zoals ze zijn. In dat geval doen datawetenschappers en andere analisten doorgaans hun eigen gegevensvoorbereidingswerk voor specifieke analytische toepassingen.

Er is ook een derde platformoptie ontstaan voor het opslaan en verwerken van analytische data: de data lakeho gebruiken. Zoals de naam al aangeeft, combineert het elementen van datalakes en datawarehouses, waarbij de flexibele dataopslag, schaalbaarheid en lagere kosten van een datalake worden gecombineerd met de querymogelijkheden en de meer rigoureuze databeheerstructuur van een datawarehouse.

Een goed uitgevoerde datamanagementstrategie kan organisaties op verschillende manieren ten goede komen:

Het kan helpen een potentiële concurrentievoordelen te behalen ten opzichte van hun rivalen, zowel door de operationele effectiviteit te verbeteren als door betere besluitvorming mogelijk te maken.

Organisaties met goed beheerde gegevens kunnen wendbaarder worden, waardoor het mogelijk wordt om markttrends te herkennen en sneller actie te ondernemen om te profiteren van nieuwe kansen.

Effectief gegevensbeheer kan bedrijven ook helpen datalekken, misstappen bij het verzamelen van gegevens en andere gegevensbeveiligings- en privacykwesties te voorkomen die de reputatie zouden kunnen schaden, onverwachte kosten met zich mee zouden kunnen brengen en een juridisch gevaar zouden kunnen brengen.

Uiteindelijk kan een solide benadering van gegevensbeheer zorgen voor betere prestaties door te helpen bij het verbeteren van strategieën en processen.

Buzz

Big Data is de laatste jaren een buzzwoord geweest. De toenemende hoeveelheid gegevens verhoogt zowel de kansen als de uitdagingen van het beheer ervan.

Big Data Architecture is een conceptueel of fysiek systeem voor het opnemen, verwerken, opslaan, beheren, openen en analyseren van grote hoeveelheden, snelheid en verschillende gegevens, wat moeilijk te verwerken is voor conventionele databases.

Een goed ontworpen Big Data-architectuur maakt eenvoudig om gegevens te verwerken en toekomstige trends te voorspellen om weloverwogen beslissingen te nemen. De architectuur van Big data is zo ontworpen dat het het volgende aankan:

Realtime verwerking van Big data

Batchverwerking van Big data

Voor machine learning-toepassingen en voorspellende analyses

Om inzichten te krijgen en beslissingen te nemen.

Big data komt met de enorme verandering, maar het is niet zonder uitdagingen. Kiezen voor een Big-data-enabled Data Analytics-oplossing is niet eenvoudig. Het vereist enorme technologische infrastructuur voor componenten om gegevens uit talloze bronnen op te nemen. Het is ook essentieel om een goede synchronisatie tussen deze componenten te hebben.

Het bouwen, testen en oplossen van problemen met Big data WorkFlow is vrij complex. Het bijhouden van verschillende use cases in Big data is een grote uitdaging.

Data opslag

Data kwaliteit

Grote gegevensschaling

Big Data-beveiliging

Complexiteit

Vaardigheden

Gebrek aan bewustzijn / begrip

Technologische volwassenheid

Hoewel er nieuwe technologie voor het verwerken en opslaan van gegevens op komst is, blijft het gegevensvolume een grote uitdaging, omdat het gegevensvolume ongeveer elke twee jaar in omvang verdubbelt.

Naast de gegevensomvang groeit ook het aantal bestandsformaten dat wordt gebruikt om gegevens op te slaan. Hierdoor is het effectief opslaan en beheren van informatie vaak een uitdaging voor de organisatie.

Compressie, tiering en deduplicatie om deze enorme gegevensverzamelingen te verwerken zijn nu reeds gebruikte methoden. Compressie vermindert het aantal bits in gegevens, wat resulteert in een kleinere totale grootte. Het proces van het verwijderen van dubbele en onnodige gegevens uit een dataset staat bekend als deduplicatie.

Via data tiering slaan we data op in verschillende storage tiers. Het garandeert dat de gegevens op de best mogelijke locatie worden opgeslagen. Gegevenslagen kunnen openbare cloud, privécloud en flashopslag omvatten, afhankelijk van de grootte en het belang van de gegevens.

Maar er zijn meer Aspecten van gegevenskwaliteit onder meer nauwkeurigheid, consistentie, relevantie, volledigheid en gebruiksgeschiktheid.

Voor Big Data Analytics-oplossingen zijn diverse gegevens vereist. Gegevenskwaliteit is altijd een uitdaging bij het werken met diverse gegevensbronnen, bijvoorbeeld het matchen van het gegevensformaat, het samenvoegen ervan, het controleren op ontbrekende gegevens, duplicaten, uitschieters, enz.

Het is vereist om gegevens op te schonen en voor te bereiden voordat ze voor analyse worden aangeboden.

Bijgevolg vereist het verkrijgen van bruikbare gegevens een aanzienlijke inspanning om de gegevens op te schonen om een zinvol resultaat te verkrijgen. Geschat wordt dat datawetenschappers 50% – 80% van hun tijd moeten besteden aan het voorbereiden van data.

We moeten voortdurend eventuele problemen met de gegevenskwaliteit controleren en oplossen. Dubbele vermeldingen en typefouten zijn ook typisch, vooral wanneer gegevens afkomstig zijn uit meerdere bronnen.

Het ontwierpen van een intelligente gegevensidentificatie die duplicaten met kleine gegevensafwijkingen herkent en mogelijke fouten rapporteert om de kwaliteit van de verzamelde gegevens te waarborgen is daarbij essentieel.

Hierdoor is de nauwkeurigheid van de inzichten uit data-analyse te verbeteren.

Big data-oplossingen kunnen worden gebruikt om grote hoeveelheden data te verwerken. Maar het kan problemen veroorzaken als de geplande architectuur niet kan worden geschaald. De uitvoer kan eronder lijden als het ontwerp ze niet kan schalen.

Met de exponentiële toename van het gegevensvolume dat wordt verwerkt, kan de architectuur de stortvloed aan gegevens die ze binnenkrijgen, overweldigen. Het kan dus de prestaties en efficiëntie van de toepassing verminderen.

Om een overvloed aan gegevens aan te kunnen, zorgt Auto-scaling ervoor dat het systeem altijd in staat is met de juiste hoeveelheid capaciteit om aan de huidige verkeersvraag te voldoen. Er zijn twee soorten schaalvergroting.

Opschalen is een haalbare schaaloplossing totdat het onmogelijk is om afzonderlijke componenten groter op te schalen. Daarom is dynamisch schalen vereist.

Dynamische schaling biedt een gecombineerde kracht van opschaling met capaciteitsgroei en economische voordelen van scale-out. Het zorgt ervoor dat de capaciteit van het systeem wordt uitgebreid met de exacte granulariteit die nodig is om aan de zakelijke eisen te voldoen.

Compressie, tiering en deduplicatie zijn enkele van de nieuwste benaderingen die bedrijven gebruiken om met enorme datavolumes om te gaan. Compressie is een techniek om het aantal bits in gegevens te verlagen en daarmee de totale grootte van de gegevens. Het verwijderen van dubbel en onnodig materiaal uit een kennisset staat bekend als deduplicatie.

Via datatiering data opslaan in vele opslaglagen. Het garandeert dat de informatie op de meest geschikte locatie wordt opgeslagen. Afhankelijk van de grootte en relevantie van de gegevens, kunnen gegevenslagen openbare cloud, privécloud en flashopslag omvatten. Bedrijven kiezen ook voor Big Data-technologieën zoals Hadoop, NoSQL en andere technologieën.

Hoewel big data veel inzicht kan bieden voor besluitvorming, is het beschermen van gegevens tegen diefstal een uitdaging.

De verzamelde gegevens kunnen persoonlijke en bijzondere persoonsgegevens gegevens van een persoon bevatten. GDPR (Algemene Verordening Gegevensbescherming) is de wet inzake gegevensbescherming om de veiligheid van bijzondere persoonsgegevens en persoonlijke informatie in en buiten de Europese Unie (EU) en de Europese Economische Ruimte (EER) te waarborgen.

Volgens de AVG moet de organisatie de bijzondere persoonsgegevens van haar klanten beschermen tegen interne en externe bedreigingen. Organisaties die de bijzondere persoonsgegevens van Europese burgers binnen EU-staten opslaan en verwerken, moeten voldoen aan de AVG.

Maar als architectuur een kleine kwetsbaarheid heeft, is de kans groter dat deze wordt gehackt.

Een hacker kan data fabriceren en invoeren in data-architectuur. Ze kunnen het systeem binnendringen door wat ruis toe te voegen, waardoor het een uitdaging wordt om gegevens te beschermen.

Big data-oplossingen slaan gegevens meestal op gecentraliseerde locaties op en verschillende applicaties en platforms verbruiken gegevens. Als gevolg hiervan wordt het beveiligen van gegevenstoegang een probleem. Om gegevens te beschermen tegen diefstal en aanvallen is een robuust raamwerk nodig.

Cyberbeveiligingsmedewerkers om gegevens te beschermen of Data-encryptie Data-segregatie Identiteits- en toegangsbeheer Implementatie van endpoint security Real-time security monitoring.

Big data-systemen kunnen een uitdaging zijn om te implementeren, omdat we te maken hebben met verschillende soorten gegevens uit verschillende bronnen.

Het integreren van dergelijke hoeveelheden data maakt het complex. Bovendien combineren organisaties on-premise en cloudgebaseerde verwerking en opslag van big data. Ook hier is data-integratie vereist. Anders wordt elk computercluster die zijn engine nodig heeft geïsoleerd van de rest van de architectuur, wat resulteert in gegevensreplicatie en -fragmentatie.

Als gevolg hiervan wordt het ontwikkelen, testen en oplossen van problemen met deze processen ingewikkelder. Bovendien vereist het een groot aantal configuratie-instellingen op verschillende systemen om de prestaties te verbeteren.

Een datameer als verzamelplaats voor enorme hoeveelheden big data die uit verschillende bronnen zijn verkregen, zonder na te denken over hoe de gegevens zouden worden samengevoegd.

Verschillende domeinen creëren gegevens die nuttig zijn voor gezamenlijke analyse, maar de onderliggende semantiek van deze gegevens is vaak verwarrend en moet met elkaar worden verzoend.

Big data-technologieën zijn zeer gespecialiseerd en maken gebruik van frameworks en talen die niet gebruikelijk zijn in meer algemene applicatie-architecturen. Aan de andere kant ontwikkelen big data-technologieën nieuwe API’s op basis van meer ontwikkelde talen.

De U-SQL-taal in Azure Data Lake Analytics is bijvoorbeeld een hybride van Transact-SQL en C#. Voor Hive, HBase en Spark zijn op SQL gebaseerde API’s beschikbaar.

Om deze moderne technologieën en datatools te bedienen, zijn bekwame dataprofessionals nodig. Dit zijn onder meer datawetenschappers, data-analisten en data-engineers om tools te bedienen en datapatronen te verkrijgen.

Een tekort aan data-experts is een van de Big Data Challenges waar bedrijven voor staan. Meestal komt dat omdat technieken voor gegevensverwerking snel evolueerden, maar de meeste beoefenaars niet. Het is een must om solide maatregelen te nemen om deze kloof te dichten.

Sommige gebruiken een datameer als verzamelplaats voor enorme hoeveelheden big data die uit verschillende bronnen zijn verkregen, zonder na te denken over hoe de gegevens zouden worden samengevoegd.

Onvoldoende bewustzijn zorgt ervoor dat we falen met Big Data-projecten. We kunnen dan niet begrijpen wat gegevens zijn, hoe ze worden opgeslagen, verwerkt en waar ze vandaan komen. Ongetwijfeld weten dataprofessionals er misschien van, maar anderen hebben er misschien geen duidelijk begrip van. Als we het belang van kennisopslag niet begrijpen, is het een uitdaging om gevoelige gegevens te bewaren.

Het is mogelijk dat we databases niet goed kunnen gebruiken voor opslag. Als gevolg hiervan wordt het moeilijk om gegevens op te halen wanneer vitale gegevens nodig zijn.

Data Science-trends

Hoe AI, Auto-ML en democratisering van data het verschil kunnen maken tussen verliezer en winnaar!

Een van de snelst groeiende segmenten van de IT-sector is datawetenschap  uitgegroeid tot een cruciaal onderdeel van de bedrijfsvoering.

Het verzamelen en analyseren van gegevens speelt vaak een cruciale rol bij het bepalen van de toekomst van elk nieuw segment, of het nu gaat om de gezondheidszorg, financiën of een online retail.

De snelgroeiende markt van vandaag bestaat uit aansturen, omvat ontwikkelingen op het gebied van big data-analyse, datawetenschap en kunstmatige intelligentie verandert de manier waarop we dingen doen over de gehele wereld.

Dus als je vandaag moet differentiëren wie de competitie verslaat en wat ze anders hebben gedaan, zal de onderscheidende factor data zijn, aangezien data het nieuwe zwarte goud van de moderne tijd is.

De technologische trend die waarschijnlijk de meeste impact zal hebben op hoe we in de toekomst leven, werken en zakendoen, is kunstmatige intelligentie (AI). Analyses zullen profiteren van het gebruik ervan door voorspellingen te doen die nauwkeuriger zijn, tijd te besparen bij saaie taken zoals het verzamelen en opschonen van gegevens, en ons in staat te stellen te handelen op basis van gegevensgestuurde inzichten, ongeacht onze positie of mate van technische bekwaamheid.

AI maakt gebruik van software-algoritmen die beter worden in hun werk naarmate ze meer gegevens krijgen, zodat organisaties gegevens kunnen analyseren en inzichten kunnen afleiden die veel sneller zijn dan ooit menselijk mogelijk zou zijn.

NLP de manier waarop computers ons kunnen begrijpen en met ons kunnen praten in menselijke talen, computervisie, waarmee computers visuele informatie kunnen begrijpen en verwerken met behulp van camera’s, net zoals we dat doen met onze ogen, en generatieve AI, die tekst, afbeeldingen , geluiden en video vanuit het niets zijn enkele voorbeelden van AI- en ML-technologieën.

Kijk ook eens naar DeepFake, Dalle-E 2 en GenerativeAI.

Datademocratisering is wanneer een organisatie data toegankelijk maakt voor alle werknemers en belanghebbenden en hen leert hoe ze met data moeten werken, ongeacht hun technische achtergrond. Simpel gezegd, de ‘gegevens’ in gegevensdemocratisering zijn alle informatie die u mogelijk zou kunnen verzamelen.

Het doel is om gegevenstoegang gemakkelijk, snel en betrouwbaar te maken om nieuwe inzichten te genereren om niet alleen de geselecteerde kansen aan te pakken, maar ook degenen die verloren zouden gaan door een gebrek aan gekwalificeerde datawetenschappers.

Om de democratisering van data en selfservice correct te adopteren, moeten onze medewerkers evolueren van domeinexperts naar burgerdatawetenschappers en de nodige niet-technische vaardigheden aanleren, en de juiste tools aanreiken om van data het nieuwe goud te maken en dienovereenkomstig te ontginnen.

Teams kunnen sneller beslissingen nemen met directe toegang tot en inzicht in gegevens. Een gedemocratiseerde gegevensomgeving is een essentieel aspect van het beheer van big data en het realiseren van het potentieel ervan.

De meest recente ontwikkeling op het gebied van data-analyse is geautomatiseerd machinaal leren, en het lijkt niet snel te verdwijnen. Tegenwoordig drijft geautomatiseerd machine learning de democratisering van datawetenschap aan.

Geautomatiseerd machinaal leren maakt vervelende en repetitieve handelingen waarvoor vroeger handmatige arbeid nodig was, beter beheersbaar. Datawetenschappers hoeven zich dankzij auto ML geen zorgen meer te maken over tijdrovende klusjes zoals datavoorbereiding en -zuivering.

Het bouwen van modellen, algoritmen en neurale netwerken die verschillende activiteiten automatiseren, is hoe geautomatiseerd machine learning werkt.

Auto ML verwijst eenvoudigweg naar het feit dat de machine zelfstandig een taak blijft uitvoeren, zonder menselijke leiding of tussenkomst. Auto ML gebruikt automatisering om machine learning-modellen toe te passen op praktische problemen.

Auto ML-frameworks worden veel gebruikt door datawetenschappers voor modelimplementatie, modelverstaanbaarheid en datavisualisatie. Hyperparameter zoeken is een van de belangrijkste innovaties van auto ML. Voor het kiezen van een modeltype, het voorbewerken van elementen en het optimaliseren van hun hyperparameters, is zoeken naar hyperparameters nuttig.

NLP is een van de vele deelgebieden van AI, taalkunde en informatica. Het is de laatste jaren populair geworden vanwege de beschikbare verwerkingsprestaties, aangezien het een enorme hoeveelheid gegevens vereist.

NLP richt zich in de eerste plaats op hoe menselijke talen en computers met elkaar omgaan, in het bijzonder hoe computers zo geprogrammeerd moeten worden dat de 10 Data Science-trends die u moet kennen voor 2023

Hoe AI, Auto-ML en democratisering van data het verschil kunnen maken tussen verliezer en winnaar!

Gegevensbeheer is essentieel bij gegevensverwerking, analyse en wetenschap, in feite bij alle manieren waarop wij mensen of niet-mensen omgaan met gegevens.

Het is het proces van het waarborgen van hoogwaardige en gecontroleerde gegevens door een platform te bieden voor het veilig delen van gegevens binnen een organisatie, terwijl wordt voldaan aan alle voorschriften voor gegevensbeveiliging en privacy, zoals de AVG.

We moeten een nauwkeurige en goed gestructureerde strategie voor gegevensbeheer toepassen om gegevensbescherming te waarborgen en de gegevenswaarde te maximaliseren door de nodige beveiligingsmaatregelen te implementeren.

Het ontbreken van een efficiënte strategie voor gegevensbeheer kan leiden tot nalevingsschendingen en boetes, slechte gegevenskwaliteit, impact op bedrijfsinzichten, problemen bij het verkrijgen van correcte resultaten, vertragingen in of zelfs het missen van zakelijke kansen, en tot slot slecht opgeleide AI-modellen.

Het doel van data governance is om vertrouwen op te bouwen onder gebruikers, de waarde van data-inzichten te vergroten en de kans op compliance-schendingen te verkleinen, aangezien er steeds meer overheidswetten worden geïntroduceerd en ontworpen om het gebruik van persoonlijke en andere soorten data te reguleren.

We kunnen deze informatie vervolgens gebruiken om goederen en diensten te creëren die beter aansluiten bij onze eisen en betaalbaarder zijn.

Data as a Service, of simpelweg DaaS, is een cloudgebaseerde softwaretoepassing die kan worden gebruikt voor het beheren en analyseren van gegevens, inclusief datawarehouses en business intelligence-tools, en die toegankelijk is vanaf elke locatie en op elk moment.

In wezen geeft het gebruikers toegang tot digitale gegevens die ze online kunnen gebruiken en delen. DaaS zal uiteindelijk resulteren in een hogere productiviteit voor het bedrijf. Het delen van gegevens tussen afdelingen en sectoren wordt voor analisten eenvoudiger gemaakt door het gebruik van DaaS in big data-analyse.

De term ‘datafabric’ verwijst naar een verzameling architecturen en services die end-to-end-functionaliteit leveren voor een reeks endpoints en verschillende clouds.

Het stelt een standaard databeheerstrategie en praktische bruikbaarheid vast die we kunnen uitbreiden naar een verscheidenheid aan on-premises cloud- en edge-apparaten, aangezien het een sterke architectuur is.

Ten slotte vermindert datafabric de ontwerp-, implementatie- en operationele gegevensbeheeractiviteiten, terwijl het gebruik van gegevens binnen verbeterd.

Meer en meer zullen we op raamwerken vertrouwen, omdat het eenvoudig te gebruiken en gemakkelijk opnieuw te gebruiken is en kan worden geïntegreerd met datahub-vaardigheden.

RPA een geavanceerde softwaretechnologie, omdat het saaie en repetitieve taken perfect, snel en consistent zal automatiseren. Mensen zullen tijd hebben voor belangrijke taken en meer uitdagende taken.

Federated learning past machine learning-methoden toe op gedistribueerde gegevens die worden bewaard op gedecentraliseerde edge-apparaten (zoals mobiele telefoons) of servers. De originele gegevens worden nooit verplaatst naar een gecentraliseerde server. Het blijft op het apparaat. De voordelen van deze strategie zijn gegevensbeveiliging en privacy, omdat niemand anders toegang heeft tot de gegevens. De gelokaliseerde versies van het algoritme worden getraind met behulp van lokale informatie. Ze kunnen de leerresultaten vervolgens delen met een gecentraliseerde server om een “globaal” model of algoritme te creëren. De edge-apparaten kunnen dit vervolgens opnieuw delen om verder te leren.

Federated learning biedt een manier om gegevens te ontsluiten om nieuwe AI-toepassingen aan te wakkeren door AI-modellen te trainen zonder dat iemand uw gegevens kan zien of openen.

De strategie wordt gekarakteriseerd als veilig, veerkrachtig en weinig impact. Vanwege de enorme hoeveelheden relevante gegevens die tijdens het trainingsproces zijn gebruikt, zal het uiteindelijke model nauwkeuriger zijn dan een gecentraliseerd model. Het is ook belangrijk op te merken dat omdat de modellen worden getraind op edge-apparaten, er minder stroom wordt verbruikt, vooral in het licht van het groeiende belang van milieukwesties.

Over het algemeen verwijst het naar het proces van het verplaatsen van digitale middelen zoals gegevens, werklasten, IT-middelen of toepassingen naar cloudinfrastructuur op basis van een on-demand, selfservice-omgeving.

Het is bedoeld om efficiëntie en real-time prestaties te bereiken met de minste hoeveelheid onzekerheid.

Naarmate we de voordelen ervan beseffen, zullen we ons haasten om naar de cloud te migreren om opnieuw te bekijken en de effectiviteit, flexibiliteit en innovatie om activiteiten te verbeteren.

Data strategie

Strategie is simpelweg het samenspel tussen besluitvorming en timing.

Data overschrijdt alle branchegrenzen en blijft in hoog tempo groeien. Met deze stroom aan informatie komen kansen, maar alleen voor degenen die deze willen en kunnen benutten.

Het is niet genoeg om data naar uw datawarehouse te sluizen. Om organisaties te laten gedijen in dit informatietijdperk, moet een sterke datastrategie een prioriteit zijn in de hele organisatie. Op elk moment van beslissing is het beste wat je kunt doen het juiste, het op een na beste is het verkeerde en het slechtste wat je kunt doen is niets doen.

Een datastrategie beperkt de reikwijdte niet alleen tot beslissingen over waardecreatie uit data. Indien correct geïmplementeerd, zou de datastrategie een positieve invloed moeten hebben op de omzet, klantenwerving, leren en ontwikkeling, resourcing, IT en operaties (en nog veel meer), terwijl de specifieke pijnpunten worden gelokaliseerd.

Een spel met verschillende teams, spelers en regels. Iedereen die betrokken is als werknemer of werkgever speelt het spel op een bepaald niveau.

Met een tal aan bewegingen die je kunt maken. Zo kunt je kapitaal toewijzen aan marketingcampagnes, strategische partnerschappen aangaan, personeel inhuren om aan interessante problemen te werken of zelfs de geografische locatie wijzigen. De mogelijkheden zijn eindeloos!

Uiteindelijk is het doel van datagedreven worden om de kans op slechte beslissingen te verkleinen en kansen te creëren voor nieuwe, innovatieve beslissingen. Gegevens bieden een groter bewustzijn en beschermen tegen onjuiste beslissingen die correct lijken met gedeeltelijke informatie. Bloemen versturen is een mooi gebaar, tenzij de ontvanger allergisch is.

Als u aan uw datastrategie begint, moet u zich ervan bewust zijn dat er geen “one size fits all”-benadering is. Een nuttige eerste stap is het definiëren van data use cases voor uw zakelijke context.

Zoals eerder vermeld, data overstijgt silo’s alles en iedereen. Zorg ervoor dat u niet dingen in een hokje stopt. Welke pijnpunten komen uw tegen? Hoe zit het met personeelszaken? Activiteiten?

Het niveau van zowel domein- als datakennis is het eeuwige knelpunt voor het bepalen van de juiste datastrategie. Door geloofwaardige informatie uit betrouwbare bronnen te zoeken, krijgen we het besef welke kansen er werkelijk zijn.

Als het om data gaat, zijn bekwame individuen essentieel. Het moeilijkste is om over het juiste personeel en de juiste structuur te beschikken om de technologie effectief te gebruiken.

Het beoordelen van de datamogelijkheden is een goede eerste stap. Hiermee wordt de basis gelegd om te bepalen wat werkelijk realistisch is.

De volgende stap is bepalen welke data-initiatieven in lijn zijn met uw strategie en daarom op de lange termijn impact kunnen hebben. Data-initiatieven mogen niet binair zijn, een “mislukt” project moet gaandeweg nog steeds echte waarde opleveren. Als een dataproject absoluut geen nut heeft totdat het is afgerond, vergroten we onnodig het inherente risico.

Datastrategieën moet verweven zijn met de algehele strategie. Overweeg met welke problemen je herhaaldelijk wordt geconfronteerd en beoordeel welke informatie nodig is om het probleem op te lossen. De beste manier om dit te doen is door een strategiedag te houden, geleid door een agile delivery lead. Ga echt dieper in op de sterke en zwakke punten en wees bereid om af te stemmen op de realiteit van de situatie.

Een andere manier om het te benaderen, is na te gaan welke soorten beslissingen uit het verleden verkeerd zijn gegaan vanwege onjuiste aannames, of zelfs welke beslissingen u niet hebt kunnen nemen vanwege onzekerheid. Bedenk op welke aannames u regelmatig vertrouwt en welk type gegevens nodig is om ze te testen.

Gegevens moeten een redelijk gereglementeerde reis volgen om daadwerkelijk bruikbaar te worden.

Waar minder over wordt gesproken, zijn de overeenkomsten die ten grondslag liggen aan elk facet van het datatransformatieproces. Ongeacht de individuele omstandigheden, de basiscomponenten die u moet aanpakken, zijn onder meer;

Governance (Hoe zorg ik ervoor dat mijn gegevens van voldoende hoge kwaliteit zijn om te gebruiken?)

Beveiliging (Hoe zorg je ervoor dat de gegevens niet in verkeerde handen vallen?)

Toegang (Hoe zorg ik ervoor dat de data in de juiste handen komt?)

Verantwoordelijkheid (Wie is uiteindelijk verantwoordelijk voor welke gebieden?)

Elk van de bovenstaande concepten is met elkaar verbonden, wat betekent dat het niet aanpakken van een van deze concepten een negatief effect kan hebben op de andere.

Gegevensbeheer is het geheel van beleidslijnen en procedures die van kracht zijn om de veiligheid, integriteit, beschikbaarheid en bruikbaarheid van gegevens te waarborgen. Het opnemen van data governance in uw datastrategie is absoluut noodzakelijk, omdat het ervoor zorgt dat de data die wordt gebruikt van een hoog genoeg kaliber is om vertrouwen te rechtvaardigen. In de kern vereist het implementeren van effectief databeheer drie belangrijke dingen: een uitgebreid begrip van de use cases, vereisten en risico’s; voldoende technische vaardigheden in de implementatietool; en de bereidheid om vooraf tijd en middelen te investeren om later schaalbaarheid en flexibiliteit mogelijk te maken.

Data governance helpt, mits goed geïmplementeerd, ervoor te zorgen dat uw een goede reputatie behoudt en waarde toevoegt. Het is ook vaak nodig om te voldoen aan wetten, audits en voorschriften die kunnen verschillen per locatie, branche, wetgeving, de grootte van uw organisatie en meer. Gelukkig is het bouwen van een samenhangend systeem voor het beschermen van datakwaliteit zeer goed haalbaar door principes van datakwaliteit te implementeren.

Eén beveiligingslek of datalek kan de reputatie blijvend schaden. Er is geen ruimte voor fouten als het gaat om privégegevens, dus het naleven van best practices is essentieel. De zwakste schakel in beveiliging en privacy is altijd de menselijke factor, dus het regelmatig geven van beveiligingstrainingen voor al het personeel is een geweldige routine om aan te beginnen.

Het concept van gegevensgevoeligheid is hier belangrijk. Bepaal eerst of de gevoelige gegevens daadwerkelijk verzameld moeten worden. Als dit niet het geval is, verwijdert u deze onmiddellijk en documenteert u uw redenering. Als dit het geval is, kijk dan of u identificeerbare informatie op de een of andere manier kunt verwijderen en de gegevens kunt anonimiseren. Voor alle pijplijnen en opslagsystemen die nog steeds gevoelige gegevens bevatten, is het mogelijk dat een gezond snuifje paranoia gunstig is voor gedetailleerde aanvals- en lekscenario’s van het rode team.

Wat heeft het voor zin om prachtige datakathedralen te bouwen als de juiste medewerkers niet gemakkelijk bij de data kunnen?

In combinatie met het laatste basiselement is het toepassen van het principe van de minste privileges hier nuttig. Geef niet alleen algemene beheerdersbevoegdheden,, geef individuen alleen toegang tot de informatie die ze nodig hebben om hun taak uit te voeren (hoe verder in de pijplijn, hoe beter), en verminder de wrijving bij het verlenen van machtigingen. Het ticketsysteem voor verkrijgen toegang moet efficiënt zijn, anders heeft de vertraging tussen verzoek en inzicht een negatieve invloed op het gebruik. Een eerste uitbarsting van inspanning hier zal de toegang voor de toekomst snel en veilig houden.

Nadat is vastgesteld wie wat nodig heeft, is de belangrijkste variabele waarmee rekening moet worden gehouden de ophaalfrequentie. We kunnen dit zien als de gegevenstemperatuur – “hot data” zijn gegevens die vaak worden opgevraagd, terwijl “cold data” gedurende langere tijd zonder menselijke tussenkomst in de opslag zitten (als schrijver kan ik vertellen). Verschillende niveaus van cloudopslag kunnen helpen bij het efficiënt opslaan van gegevens op basis van ophalen, en moeten dienovereenkomstig worden geïmplementeerd.

Wanneer dataprojecten nog in de kinderschoenen staan, bestaat de neiging dat de verantwoordelijkheidslijnen vervagen. We raden aan om bewust de tijd te nemen om rollen en verantwoordelijkheden rond datadomeinen in een vroeg stadium te codificeren, aangezien de behoefte aan duidelijkheid alleen maar zal toenemen naarmate de data groeien. De verantwoordelijkheid kan op tafel- of logstreamniveau liggen voor kleinere operaties, of zelfs op veldentiteitsniveau voor meer gevestigde bedrijven.

Implementatie van uw datastrategie

Datastrategie is geen opdracht die u afrondt, maar evolueert. Denk op de lange termijn, maar stel vast welke use cases het meest urgent zijn om aan te pakken, voordat u zich richt op het verbreden van de reikwijdte.