Data is de valuta van de toekomst, gekenmerkt door de hoeveelheid gegevens die inmiddels worden verzameld.
Maar wat als deze gegevens niet goed worden opgeslagen?
Er begint zich een moeras te ontwikkelen vol gegevens en toegang tot die gegevens is moeilijk of soms onmogelijk.
Het internet, sociale media, het internet der dingen (IoT) en de vooruitgang in gegevensopslag en -verzamelen hebben gezorgd voor een manier alles vast te leggen. Dit varieert van winkelgewoonten, persoonlijke voorkeuren, financiële en nog veel meer.
Bovendien biedt IoT de mogelijkheid om grote hoeveelheden gegevens te verzamelen over processen, machines, het weer en bijna alles wat je maar kunt bedenken.
Indien correct verwerkt en geanalyseerd, kan deze informatie belangrijke inzichten opleveren om de efficiëntie te verbeteren en de effectiviteit te vergroten.
Echter het opslaan van gegevens zonder de juiste registratie en beveiliging stelt ons echter bloot aan uitbuiting, gegevensinbreuken en andere potentiële gevaren en aansprakelijkheden.
In eenvoudige bewoordingen kan een ongeorganiseerde verzameling gegevens leiden tot een datamoeras. Stelt u zich voor een constante stroom brieven en pakketten die bij PostNL binnenkomen. Deze brieven worden meestal gesorteerd op basis van hun bestemming, grootte en prioriteit. Dit maakt het gemakkelijk om ze te sorteren en te distribueren. Maar wat als er geen goed sorteer- of bezorging systeem was voor het afhandelen van de constante aanvoer van pakketten? Dan zou het chaotisch worden, met brieven naar de verkeerde bestemmingen en onbekende pakketten die het sorteercentrum overvol maken.
Een vergelijkbare situatie doet zich voor wanneer de data-infrastructuur niet georganiseerd is of niet klaar is om binnenkomende informatie te verwerken.
Aan de andere kant van het spectrum bevinden zich data lakes. Dit zijn inmiddels een gevestigde en adequaat ingerichte manier van data-opslag in een gereguleerde omgeving voor het opslaan en ongeorganiseerd gegevens, die later gemakkelijk toegankelijk zijn met de juiste tools.
Data lakes zijn schaalbare opslagplaatsen die grote hoeveelheden onbewerkte gegevens kunnen bevatten. Deze gegevens kunnen worden georganiseerd met de juiste metadata. De ideale omgeving om de onbewerkte gegevens te beheren totdat ze nodig zijn.
Het grote voordeel van het gebruik van een data lake is dat het elk type gegevens kan worden opgeslagen. Of het nu gaat om een IoT-apparaat, sociale-mediagegevens of machine learning uit logbestanden, alles kan in een data lake terechtkomen.
Bij een traditioneel data-opslag wordt daarentegen een index geplaatst voordat er gegevens worden opgeslagen. Dit zorgt ervoor dat de informatie op de juiste manier wordt opgeslagen en georganiseerd, al introduceert dit ook beperkingen en limieten voor gegevens die mogelijk niet zijn verantwoord.Het vereist ook dat gegevens een gegevensextractieproces doorlopen, zoals ETL (Extract Transform, Load) of ELT.
Dus hoe verandert een data lake in een datamoeras? Een data lake kan snel veranderen in een datamoeras wanneer ongeorganiseerde data zonder precieze metadata in het systeem wordt geïntroduceerd. Dit kan het opslagsysteem snel overspoelen met nutteloze en irrelevante gegevens die het systeem rommelig maken en het ophalen bemoeilijken.
Dit kan op verschillende manieren gebeuren:
1. Mist je de juiste protocollen en richtlijnen voor het organiseren en filteren van gegevens. Dan kan dit leiden tot een opeenhoping van oude en irrelevante gegevens.
2. Een data-extractieproces zoals ETL/ELT (Extract, Load, Transform) is niet goed opgezet of geïntegreerd. Dan neemt ELT bedrijfsgegevens en maakt in wezen een identieke kopie, als dit proces niet correct wordt geïmplementeerd, dan zal het het data lake snel overspoelen met niet-identificeerbare gespiegelde gegevens.
3. Het data lake wordt een stortplaats voor niet-toepasbare of niet-gerelateerde data.
Dus, hoe kun je een datamoeras opruimen en het weer transformeren in een ongerept data lake? Hier zijn verschillende richtlijnen voor:
Implementeer de juiste processen en richtlijnen: Zorg er allereerst voor dat uw bestaande protocollen hun werk doen. Zonder duidelijke richtlijnen heb je een eindeloze stroom van irrelevante en ongeorganiseerde gegevens. Initiële protocollen moeten dienen als een filter om ervoor te zorgen dat alleen waardevolle gegevens in het opslagsysteem terechtkomen. Bovendien moet het de juiste metadata worden toegewezen om te worden gelokaliseerd en aangeroepen wanneer dat nodig is.
Houd het relevant: verzamel geen gegevens als het niet relevant is. Stel parameters in om oude en verouderde gegevens te verwijderen en op te schonen.
Dit kan worden gedaan door processen op te zetten die ervoor zorgen dat het data lake alleen bepaalde gegevens accepteert. De verkregen gegevens moeten een duidelijk doel en een duidelijke rol hebben om het ophopen van nutteloze informatie te helpen voorkomen. Dit moet natuurlijk worden afgewogen tegen het idee dat een data lake waarin gegevens worden opgeslagen die mogelijk niet onmiddellijk worden gebruikt, maar in onbewerkte vorm worden bewaard voor toekomstig gebruik.
Stel behoeften en doelen vast: omdat we elk soort gegevens kunnen verzamelen, betekent nog niet dat we dat zouden moeten doen. Stel een duidelijke intentie vast over wat voor soort gegevens we willen verzamelen en welke doelen ermee moeten worden bereikt. Dit helpt ervoor te zorgen dat een data lake zich niet vult met irrelevante of nutteloze informatie.
Weet waar gevoelige gegevens staat en beheer deze: het is één ding om nutteloze prestatiegegevens te hamsteren, maar het hamsteren van gevoelige gegevens kan ook een verplichting zijn in termen van wettelijke verplichtingen, naleving en beveiligingsrisico’s. Weet daarom waar u gevoelige gegevens in uw dataopslag heeft. Het is van vitaal belang om een duidelijk beleid voor gegevenstoegang te hebben voor gevoelige gegevens.
Gegevens spelen een cruciale rol in het huidige data landschap. Gegevens zijn kostbaar, of het nu gaat om het bieden van inzicht in de mentaliteit van mensen of het verbeteren van de efficiëntie door middel van machine learning. En daarom is het cruciaal om het als zodanig te behandelen. Door een onberispelijke data omgeving voor uw gegevens te onderhouden en te beheren, is deze voldoende beschermd en klaar voor gebruik.
Met andere woorden, alleen omdat het goedkoop is om gegevens op te slaan en vervolgens te verwerken, wil dat nog niet zeggen dat we ongeorganiseerd kunnen zijn met de data in onze data lakes en data-opslag plaatsen.