Volgend jaar

Welke metafoor je ook gebruikt – van olie, goud, grond of zelfs zand – de rol van data in het bedrijfsleven zal niet afnemen. Bedrijven willen data gebruiken die ze hebben, en ze willen dat deze de applicaties en services aansturen waarmee ze geld verdienen. Gegevens zijn echter niet eenvoudig. De services die worden gebruikt voor langetermijnanalyses zijn anders dan die voor een bedrijf.

Hoewel er veel aandacht en geld is besteed aan die analytische kant van de markt, zal de snelle datakant de plaats zijn waar in 2022 de grootste veranderingen plaatsvinden.

Na jarenlang the next big thing te zijn geweest, bestaat NoSQL nu lang genoeg om installaties op lange termijn te zien. Met alles in IT zal er altijd een discussie zijn over het migreren naar de nieuwste technologie. In dit geval zullen IT-teams, gezien de wereld van cloud en cloud-native data, debatteren over de juiste keuzes voor de komende tien jaar.

In die vergaderingen die volgend jaar plaatsvinden, zal er een interessante nieuwe taal zijn wanneer iemand “Legacy NoSQL” zegt wanneer hij het heeft over bestaande systemen die niet native draaien. Mainstream NoSQL zal nauwer worden afgestemd op cloud-native applicaties, en er zal meer ontwikkelingswerk plaatsvinden rond hoe NoSQL-databases worden uitgevoerd als onderdeel van die cloudimplementaties.

Zolang cloudproviders actief zijn, is er een scheve prijsstelling voor gegevens die binnenkomen en uitgaan. Gegevens die binnenkomen zijn meestal gratis, wat een geweldige manier was om de acceptatie naar de cloud te stimuleren. Gegevens die cloudproviders verlaten, zijn waar de echte kosten begonnen op te lopen. Nogmaals, om niet alleen de acceptatie te stimuleren, maar gebruikers te stimuleren om gegevens in de cloud te houden.

Er zijn scheuren ontstaan ​​in dit businessplan nu er stoutmoedig is aangekondigd door sommige cloud providers dat er geen uitgaande kosten zullen voor maximaal één terabyte aan data, terwijl een handvol kleinere providers een vast bedrag in rekening brengen voor bandbreedte. De bestaande cloud providers reageerden hierop door hun gratis niveau voor data-uitgang te verhogen.

Net zoals opslag het wapen werd in een prijzenoorlog, zullen we in 2022 in een race naar de bodem zien dat de kosten voor in- en uitstappen veel lager en genormaliseerd worden. Zal dit ertoe leiden dat meer bedrijven alternatieve cloudproviders overwegen, of zal het AWS meer kansen geven? Nu al populair bij prijsbewuste klanten?

In de praktijk zullen in 2022 meer applicaties worden geïmplementeerd met dat gedistribueerde model in gedachten van centrum tot rand. Dit zal ook meer bedrijven dwingen om te kijken hoe ze gedistribueerde databenaderingen toepassen die hetzelfde doen: de data naast de applicatie plaatsen, of dit nu één cloud is of meerdere, of in het midden naar de rand.

Na jarenlang boos te zijn geweest op sociale-mediaplatforms en technologie in het algemeen, zal overheidsregulering over de hele wereld eindelijk de publieke opinie inhalen. De Amerikaanse staat Californië heeft regels voor gegevensprivacy aangenomen op basis van de Algemene Verordening Gegevensbescherming van de Europese Unie, terwijl de EU haar werk heeft uitgebreid tot gebieden als open data en kunstmatige intelligentie.

Al dit werk is nodig voor de privacy, maar het resultaat zal een zeer ingewikkeld doolhof van regelgeving zijn voor iedereen die datagestuurde applicaties bouwt. Dat wil zeggen, iedereen. Gegevensregulering heeft geen gelijke tred gehouden met de verfijning van privacykwesties die voortdurend naar voren komen. Dit jaar zagen we de particuliere industrie proberen zichzelf te reguleren.

2022 wordt het begin van een meerjarige reis door nieuwe regelgeving en deadlines. Om dit bij te houden, zullen bedrijven controle willen houden over waar hun gegevens worden ingezet, hoe deze gegevens worden beheerd en hoe ze deze voor hun bedrijf gebruiken. Deze snelle data-aanpak is afhankelijk van een open-source stack om te werken.

Metadata

Data is de valuta van de toekomst, gekenmerkt door de hoeveelheid gegevens die inmiddels worden verzameld.

Maar wat als deze gegevens niet goed worden opgeslagen?

Er begint zich een moeras te ontwikkelen vol gegevens en toegang tot die gegevens is moeilijk of soms onmogelijk.

Het internet, sociale media, het internet der dingen (IoT) en de vooruitgang in gegevensopslag en -verzamelen hebben gezorgd voor een manier alles vast te leggen. Dit varieert van winkelgewoonten, persoonlijke voorkeuren, financiële en nog veel meer.

Bovendien biedt IoT de mogelijkheid om grote hoeveelheden gegevens te verzamelen over processen, machines, het weer en bijna alles wat je maar kunt bedenken.

Indien correct verwerkt en geanalyseerd, kan deze informatie belangrijke inzichten opleveren om de efficiëntie te verbeteren en de effectiviteit te vergroten.

Echter het opslaan van gegevens zonder de juiste registratie en beveiliging stelt ons echter bloot aan uitbuiting, gegevensinbreuken en andere potentiële gevaren en aansprakelijkheden.

In eenvoudige bewoordingen kan een ongeorganiseerde verzameling gegevens leiden tot een datamoeras. Stelt u zich voor een constante stroom brieven en pakketten die bij PostNL binnenkomen. Deze brieven worden meestal gesorteerd op basis van hun bestemming, grootte en prioriteit. Dit maakt het gemakkelijk om ze te sorteren en te distribueren. Maar wat als er geen goed sorteer- of bezorging systeem was voor het afhandelen van de constante aanvoer van pakketten? Dan zou het chaotisch worden, met brieven naar de verkeerde bestemmingen en onbekende pakketten die het sorteercentrum overvol maken.

Een vergelijkbare situatie doet zich voor wanneer de data-infrastructuur niet georganiseerd is of niet klaar is om binnenkomende informatie te verwerken.

Aan de andere kant van het spectrum bevinden zich data lakes. Dit zijn inmiddels een gevestigde en adequaat ingerichte manier van data-opslag in een gereguleerde omgeving voor het opslaan en ongeorganiseerd gegevens, die later gemakkelijk toegankelijk zijn met de juiste tools.

Data lakes zijn schaalbare opslagplaatsen die grote hoeveelheden onbewerkte gegevens kunnen bevatten. Deze gegevens kunnen worden georganiseerd met de juiste metadata. De ideale omgeving om de onbewerkte gegevens te beheren totdat ze nodig zijn.

Het grote voordeel van het gebruik van een data lake is dat het elk type gegevens kan worden opgeslagen. Of het nu gaat om een ​​IoT-apparaat, sociale-mediagegevens of machine learning uit logbestanden, alles kan in een data lake terechtkomen.

Bij een traditioneel data-opslag wordt daarentegen een index geplaatst voordat er gegevens worden opgeslagen. Dit zorgt ervoor dat de informatie op de juiste manier wordt opgeslagen en georganiseerd, al introduceert dit ook beperkingen en limieten voor gegevens die mogelijk niet zijn verantwoord.Het vereist ook dat gegevens een gegevensextractieproces doorlopen, zoals ETL (Extract Transform, Load) of ELT.

Dus hoe verandert een data lake in een datamoeras? Een data lake kan snel veranderen in een datamoeras wanneer ongeorganiseerde data zonder precieze metadata in het systeem wordt geïntroduceerd. Dit kan het opslagsysteem snel overspoelen met nutteloze en irrelevante gegevens die het systeem rommelig maken en het ophalen bemoeilijken.

Dit kan op verschillende manieren gebeuren:

1. Mist je de juiste protocollen en richtlijnen voor het organiseren en filteren van gegevens. Dan kan dit leiden tot een opeenhoping van oude en irrelevante gegevens.

2. Een data-extractieproces zoals ETL/ELT (Extract, Load, Transform) is niet goed opgezet of geïntegreerd. Dan neemt ELT bedrijfsgegevens en maakt in wezen een identieke kopie, als dit proces niet correct wordt geïmplementeerd, dan zal het het data lake snel overspoelen met niet-identificeerbare gespiegelde gegevens.

3. Het data lake wordt een stortplaats voor niet-toepasbare of niet-gerelateerde data.

Dus, hoe kun je een datamoeras opruimen en het weer transformeren in een ongerept data lake? Hier zijn verschillende richtlijnen voor:

Implementeer de juiste processen en richtlijnen: Zorg er allereerst voor dat uw bestaande protocollen hun werk doen. Zonder duidelijke richtlijnen heb je een eindeloze stroom van irrelevante en ongeorganiseerde gegevens. Initiële protocollen moeten dienen als een filter om ervoor te zorgen dat alleen waardevolle gegevens in het opslagsysteem terechtkomen. Bovendien moet het de juiste metadata worden toegewezen om te worden gelokaliseerd en aangeroepen wanneer dat nodig is.

Houd het relevant: verzamel geen gegevens als het niet relevant is. Stel parameters in om oude en verouderde gegevens te verwijderen en op te schonen.

Dit kan worden gedaan door processen op te zetten die ervoor zorgen dat het data lake alleen bepaalde gegevens accepteert. De verkregen gegevens moeten een duidelijk doel en een duidelijke rol hebben om het ophopen van nutteloze informatie te helpen voorkomen. Dit moet natuurlijk worden afgewogen tegen het idee dat een data lake waarin gegevens worden opgeslagen die mogelijk niet onmiddellijk worden gebruikt, maar in onbewerkte vorm worden bewaard voor toekomstig gebruik.

Stel behoeften en doelen vast: omdat we elk soort gegevens kunnen verzamelen, betekent nog niet dat we dat zouden moeten doen. Stel een duidelijke intentie vast over wat voor soort gegevens we willen verzamelen en welke doelen ermee moeten worden bereikt. Dit helpt ervoor te zorgen dat een data lake zich niet vult met irrelevante of nutteloze informatie.

Weet waar gevoelige gegevens staat en beheer deze: het is één ding om nutteloze prestatiegegevens te hamsteren, maar het hamsteren van gevoelige gegevens kan ook een verplichting zijn in termen van wettelijke verplichtingen, naleving en beveiligingsrisico’s. Weet daarom waar u gevoelige gegevens in uw dataopslag heeft. Het is van vitaal belang om een ​​duidelijk beleid voor gegevenstoegang te hebben voor gevoelige gegevens.

Gegevens spelen een cruciale rol in het huidige data landschap. Gegevens zijn kostbaar, of het nu gaat om het bieden van inzicht in de mentaliteit van mensen of het verbeteren van de efficiëntie door middel van machine learning. En daarom is het cruciaal om het als zodanig te behandelen. Door een onberispelijke data omgeving voor uw gegevens te onderhouden en te beheren, is deze voldoende beschermd en klaar voor gebruik.

Met andere woorden, alleen omdat het goedkoop is om gegevens op te slaan en vervolgens te verwerken, wil dat nog niet zeggen dat we ongeorganiseerd kunnen zijn met de data in onze data lakes en data-opslag plaatsen.

Metadata

Met datagovernance is een kritiek keerpunt bereikt. Een essentieel onderdeel van risicobeheer dat gebaseerd is op het bereiken van naleving van de regelgeving, het handhaven van gegevensprivacy en het waarborgen van gegevens.

Het gaat echter verder dan risicobeheermogelijkheden voor het bepalen of beïnvloeden van gegevensgestuurde acties. Recente ontwikkelingen hebben het mogelijk gemaakt om dit dynamisch, vrijwel onmiddellijk, met de mogelijkheden van downstream-analyses en de daaruit voortvloeiende besluitvorming vorm te geven.

“Met actieve metadata realtime gebruikt in verschillende toepassingen.’

De operationele functionaliteit met betrekking tot metadatabeheer, datamodellering, datastewardship, machine learning en kunstmatige intelligentie, en verschillende andere componenten.

De overgang van een voornamelijk statische, passieve reeks principes en protocollen naar realtime toepasbaarheid in een reeks gebruiksscenario’s die concurrerende waarde opleveren.

Expressieve datamodellen waar semantiek en taxonomieën, machine-intelligentie gebruiken om af te leiden hoe we verschillende data stromen in datasystemen kunnen worden gemengd. Vergelijkbare informatie in verschillende systemen en governance oplossingen wanneer je communiceert tussen die stromen en systemen.

Slimme inferentiemogelijkheden, met het vermogen om nieuwe inzichten te genereren. Bijvoorbeeld de naleving van regelgeving, waarbij logische gevolgtrekkingen over gegevenstoegang voor de ene gegevensbron, regelgeving of groep gebruikers invloed kunnen hebben op die voor een andere gegevensbron, regelgeving of gebruikersgroep om nalevingsmaatregelen te automatiseren.

Met metadata in datamodellen kunnen we taxonomieën stroomlijnen voor content engines, met wereldwijde en lokale bronnen. Door cognitieve computertechnieken kunnen we de invoer van metadata snel automatiseren. Metadata beschrijvingen, trefwoorden, gedetailleerde inzichten ofwel een voorbode van gebeurtenissen of een routekaart van eerdere gebeurtenissen die de datakwaliteit waarborgen.

Het verbinden van metadata met Data life cycle en BI die de traceerbaarheid gebruiken die door metadata wordt geboden, noodzakelijk om de informatie in analyses te begrijpen en te vertrouwen. Een dashboard waar data kan onthullen wie ernaar kijkt en waar die gegevens vandaan komen.

Analyse op hoofdoorzaken: eventuele abnormaliteiten of afwijkingen in processen die verband houden met analyses eenvoudig kunnen worden geïllustreerd door metadata te analyseren. Waarbij een anomalie of iets dat lijkt oplicht in het dashboard, en laat zien hoe de gegevens daar zijn gekomen, waardoor de oorzaak te analyseren is.

Door metagegevens te onderzoeken in elk facet van je datawarehouse dat wordt gebruikt om informatie over tabellen, kolommen en rijen met gegevens te genereren. Waardoor een wijziging in gegevens realtime beschikbaar zijn zodat we precies zien wat er gaat gebeuren.

Het vermogen om metadata in te zetten, verbreedt de bruikbaarheid met het oog op datagovernance om alles te omvatten, van referentiegegevens tot gecontroleerde steekwoordenlijsten. Het verzamelen van metadata is van cruciaal belang om er nieuwe inzichten verkrijgen en te voldoen aan de datagovernance.

Een andere aspect van actieve metadata: niet alleen wat bestaat, maar wat kan worden gegenereerd of afgeleid uit iets, waarbij dit expliciet wordt vermeld bij het resultaat.

Toekomst van data

Wat biedt de toekomst op het gebied van tooling en technologieën voor data-analyse en engineering.

Datastacks zijn:

* cloud gebaseerd

* modulair en aanpasbaar

* metadata-gedreven

* draaien op SQL (althans voorlopig)

1. Data lakes en datawarehouses zijn niet meer van elkaar te onderscheiden

Datawarehouses bestaan ​​al tientallen jaren en maakten een sprong voorwaarts met cloudgebaseerde warehousing. Aanpasbare en flexibele data lakes zijn de afgelopen jaren steeds populairder geworden, en we moesten evalueren of een datawarehouse of data lake de juiste keuze was. Die keuze hoeven we in de nabije toekomst niet meer te maken.

“Meer en meer komen data lakes en datawarehouses samen.”

En binnen afzienbare tijd zullen ze niet meer van elkaar te onderscheiden zijn. Het is echt of je het als een bestand bekijkt, of dat je het als een relationele tabel bekijkt. Dat is de juiste abstractie om aan te denken. Er zijn momenten waarop bestanden waardevol zijn, vooral als het gaat om uitwisseling, maar de meeste bewerkingen die we uitvoeren, worden feitelijk uitgevoerd in een relationele architectuur. En zo komen het idee van een data lakes en datawarehouse samen.

2. Analytics worden samengevoegd in op SQL gebaseerde systemen binnen dataplatforms

In feite zijn er cloud platform waar we bovenop kunnen bouwen. En deze analytische systemen zullen opgaan in de dataplatforms. Een zeer competitieve samenvoeging van zowel analyses als geavanceerde analyse- en machine learning-systemen, met op SQL gebaseerde datamanagementsystemen.

3. Universele standaarden zullen verschijnen

We beginnen met het ontwikkelen van standaarden rond datagovernance. Belangrijke standaarden in de moderne datastack met betrekking tot governance, afkomst, inclusiviteit, interoperabiliteit tussen deze platforms en tussen tools.

Governance is geen eenvoudig probleem, maar het is een belangrijk probleem, het beschermen van de informatie is iets dat voor iedereen belangrijk is. Het is belangrijk als het gaat om reputatie. Het is van belang in termen van intellectuele eigendomsrechten. We evolueren en moeten er bovenop blijven zitten. En hoewel de moderne datastack veel ongelooflijke mogelijkheden bieden om met data te werken, ze moeten ook worden beschermd en op de juiste manier worden beheerd om ervoor te zorgen dat alleen de mensen die toegang moeten hebben tot data die toegang krijgen.

4. Voorspellende analyses evolueren

Voorspellende analyses de huidige generatie voorspellende analytische systemen is gebouwd. En hoewel dit effectief is we bevinden ons op een heel, heel primitief niveau. Tot dramatische verbeteringen te zien zijn in de manier waarop machine learning wordt uitgevoerd.

5. De vraag naar kennis

Dataplatforms zullen evolueren om daar aan te voldoen.

De moderne datastack zal zich gaan ontwikkelen om het mogelijk te maken kennis op te bouwen. De logica die bij iets hoort, embed in de database is het onderscheid.

6. Datadeling vereist governance binnen (en tussen) organisaties

Het delen van gegevens zowel binnen organisaties als tussen organisaties, staat centraal in de toekomst.

Data wordt gecreëerd en is een troef die je creëert, waar je vervolgens waarde uit kunt halen en op de juiste manier kunt gebruiken. Data mesh en het idee van organisatieprincipes en domeinoriëntatie van data.

Hoe dat tot stand komt, zal er anders uitzien waarschijnlijk niet een heleboel verschillende datadomeinen. De mechanismen die je gebruikt om dat daadwerkelijk te doen? Het idee van het delen van gegevens om te bouwen aan een ​​domeingericht model. Dat is wat het delen van gegevens is. Data-uitwisseling kan met verschillende domeinen van data-expertise en die data vervolgens weer delen.

Mensen data hebben, en ook de kennis ze die data naartoe willen brengen. Data plus kennis over in een applicatie die autonoom in actie kan komen op basis van wat er binnen die data gebeurt. De volgende generatie datamarktplaatsen en delen omdat we overal expertise bij de hand zullen hebben.

Je hebt misschien niet de capaciteiten van datawetenschappers, maar je kunt ze inlenen. Duizenden analytische gericht op verticale industrieën waar ze expertise over hebben die ze kunnen toepassen.

Om ons te concentreren op het oplossen van het probleem van gegevensvertrouwen om mogelijkheden te bieden voor het werken met data binnen en tussen organisaties. Naarmate er een meer domein georiënteerde architectuur kan worden geadopteerd waarin we gegevens delen of verkopen, hierdoor zal de behoefte aan consistente, branchebrede normen voor vertrouwen en betrouwbaarheid van gegevens dringender worden.

Of het nu gaat om de waarneembaarheid en prestaties van gegevens, of het gaat om metadatabeheer en governance. Er is nog steeds een enorme kans om te verbeteren en problemen op te lossen.

Vertrouwen

De Focus komt te liggen op vertrouwen in de zoektocht naar perfecte data, om de puzzel rond privacy op te lossen

Privacy is een onderwerp aan de bestuurstafel wat moeilijk lijkt te visualiseren. Hoe kunnen we ervoor zorgen dat bedrijven privacy-compliant zijn terwijl ze flexibel blijven voor toekomstige veranderingen?

Inbreukmakend privacyzaken, zoals Cambridge Analytica, hebben het verzamelen en gebruiken van gegevens op de agenda gezet, en we maken ons zorgen over onze gegevens. Updates om de privacy te beschermen zijn inmiddels aan de orde van de dag, waardoor we leren hoe apps gebruikers volgen, evenals de de mogelijkheden van open tracking in e-mails.

Het blijft echter absoluut noodzakelijk dat alle bedrijven een privacy-first beleid gaan volgen, en idealiter een strategie die wendbaar genoeg is om rekening te houden met veranderingen, wetgeving en technologie die de komende jaren zullen plaatsvinden.

Het is van cruciaal belang om elke privacystrategie te centreren rond twee peilers: de mensen die er meewerken en de mensen wie het betreft. Privacyregels nu en in de toekomst zullen worden bepaald op basis van wat nodig is. Door inspanningen te concentreren op het waarborgen van respect en vertrouwen, vormen we de kern, met strategieën die flexibel genoeg zijn om aan de toekomstige veranderingen te voldoen.

Waarbij de zoektocht naar perfecte data een mythe blijkt te zijn die meer kwaad dan goed doet. De waarheid is dat de zoektocht naar perfecte data een inefficiënt gebruik middelen is, aangezien de meeste, zo niet alle, beslissingen kunnen worden genomen zonder deze data.

Bedrijven, organisaties en overheden zouden zich meer op hun gemak moeten voelen bij het nemen van beslissingen op basis van realtime gegevens, die waarschijnlijk niet perfect zijn. Maar bedrijven, organisaties en overheden in staat stelt om strategische beslissingen te nemen op basis van realtime data en flexibel te blijven in het omgaan met veranderingen die plaatsvinden. We denken ten onrechte dat onze persoonlijke gegevens de kern vormen van privacyveranderingen. Data is slechts een strategisch hulpmiddel.

Daarbij moeten we de verleiding om snelle oplossingen te implementeren of te vinden zien te vermijden. En niet zoeken naar technologie die de huidige privacy-uitdagingen oplost.

Privacy is veel meer dan een probleem. Het is een kans om het vertrouwen en de loyaliteit te behouden. De uitdagingen die voor ons liggen, zijn een kans om te heroverwegen en betere manieren te vinden. We lijken verstrikt te zijn geraakt in het najagen van technologie en regelgeving, en zijn vergeten wat er echt toe doet. Als we eerlijk kunnen zeggen dat we blij zijn met de manier waarop onze gegevens worden verzameld, opgeslagen en gebruikt, dan zijn we op de goede weg.