In wezen is een datameer een informatierepository. Datalakes worden vaak verward met datawarehouses, maar ze voorzien in verschillende bedrijfsbehoeften en hebben verschillende architecturen. Met name met de wildgroei aan gegevens van sociale media, Internet of Things (IoT)-machines en transactiegegevens, zijn datameren in de cloud een essentieel onderdeel van een moderne strategie voor gegevensbeheer. De mogelijkheid om elk type data op te slaan, te transformeren en te analyseren, maakt de weg vrij voor nieuwe zakelijke kansen en digitale transformatie: hier komt het datameer om de hoek kijken.
Na de jaren 90 %
van de financiële instellingen ziet initiatieven op het gebied van big data als de sleutel tot toekomstig succes
64,2
Zebytes aan digitale data gecreëerd in 2020
17,6
miljard USD, de data lake-markt zal naar verwachting in 2026 zijn
Data Lake-definitie
Een data lake is een centrale datarepository die kan worden gebruikt om het probleem van datasilo's op te lossen. Belangrijk is dat datameren grote hoeveelheden onbewerkte gegevens opslaan in onbewerkte of native formaten. Dit formaat kan gestructureerd, ongestructureerd of semi-gestructureerd zijn. Datameren, vooral in de cloud, zijn niet duur en gemakkelijk schaalbaar, en worden vaak gebruikt in combinatie met toegepaste machine learning-analyses.
Data Lake versus datawarehouse
In tegenstelling tot datameren,databankEr zijn ook functies voor gegevensbeheer. Datawarehouses slaan ook verwerkte en gefilterde gegevens op die zijn verwerkt voor vooraf gedefinieerde zakelijke vragen of use cases.
Schematische vergelijking van een datawarehouse en een datalake.
Datawarehouses en datalakes gaan vaak hand in hand. Wanneer bijvoorbeeld onbewerkte gegevens die zijn opgeslagen in een datameer nodig zijn om zakelijke vragen te beantwoorden, kunnen deze worden geëxtraheerd, opgeschoond, getransformeerd en gebruikt voor verdere analyse in een datawarehouse.
Het "data lake house" is een nieuw concept dat nog niet is uitgekomen. Het voegt gegevensbeheermogelijkheden toe aan traditionele datameren. In wezen is een data lake house een combinatie van een data lake en een datawarehouse.
Naast de bovengenoemde verschillen in datatypes en processen, zijn er enkele subtiele verschillen tussen data lake- en datawarehouse-oplossingen. Een overzicht is als volgt.
Component voor vergelijking van tabelfuncties bewerken
Uiteindelijk zullen datavolume, databaseprestaties en opslagprijzen een belangrijke rol spelen bij het kiezen van een opslagoplossing.
Sleutelelementen van een Data Lake-oplossing
- Gegevensbeweging:Met een data lake kunnen alle soorten data uit meerdere bronnen in hun eigen formaat geïmporteerd worden. Hierdoor kunnen bedrijven schalen op basis van behoefte en datagrootte zonder datastructuren, schema's en transformaties te hoeven definiëren, waardoor overheadkosten worden verlaagd.
- Gegevens veilig opslaan en catalogiseren:Datameren slaan gestructureerde, semi-gestructureerde en ongestructureerde gegevens op uit verschillende bronnen. Denk aan bedrijfsgegevens uit CRM- of ERP-software en historische gegevens uit IoT-apparaten, sociale media of zelfs bestaande systemen. Bovendien bieden datalakes de mogelijkheid om batch- en streaminggegevens vast te leggen terwijl governance, beveiliging en controle worden toegepast. U kunt direct query's uitvoeren op de gegevens of geschikte tools gebruiken om de gegevens op te nemen in het datawarehouse.
- Analyse en machinaal leren:Datalakes maken analyses en machine learning-analyses mogelijk door op rollen gebaseerde toegang tot informatie. Het is niet nodig om de gegevens eerst naar een aparte analysedatabase te verplaatsen. Bovendien kunnen datalakes historische data combineren met real-time data om machine learning of voorspellende analysemodellen te verbeteren, wat betere en/of nieuwe resultaten oplevert.
Hoe datameren werken
Een modern datameer heeft drie hoofdfuncties:
- Alandingsbaanvoor uw ruwe gegevens
- Aopslagcachewaar gegevens worden getransformeerd voor analyse
- AgegevensverkenningsgebiedWaar data wordt gebruikt voor analyse, toepassingen en als materiaal voor machine learning-modellen
Informatie wordt ingevoerd in verschillende bronnen van het datameer, zoals analyses of andere zakelijke toepassingen, of in machine learning-tools voor verdere analyse.
Gebruik cases voor datameren
Hieronder staan twee voorbeelden van gebruiksscenario's voor datameren in de detailhandel.
Verkoopgegevens voor de lange termijn worden opgeslagen in datameren, samen met ongestructureerde gegevens zoals websiteklikstromen, weersinformatie, nieuws en micro-/macro-economische gegevens. Wanneer deze gegevens bij elkaar worden opgeslagen en toegankelijk zijn, kunnen datawetenschappers gemakkelijker informatie uit deze ongelijksoortige bronnen combineren tot modellen die de vraag naar een specifiek product of een specifieke productlijn kunnen voorspellen. Deze informatie wordt vervolgens gebruikt als input voor het ERP-systeem van de winkel om productieplannen naar boven of naar beneden aan te passen.
Ondertussen kunnen marketingspecialisten naar hetzelfde datameer gaan en de betrokkenheid van websites en sociale media bekijken, naast sentimentanalyse van nieuws, macro-economische en verkoophistorische gegevens om te identificeren welke producten moeten worden getarget en hoe de verkoop, winst en prestaties kunnen worden verhoogd. /of Beste adoptie maximaliseren.
Soorten datameren
Datalakes kunnen on-premises, in de cloud of beide (hybride) zijn. Of ze zijn verdeeld over meerdere cloud-hyperscale-applicaties, zoals Amazon Web Services (AWS), Microsoft Azure of Google Cloud.
Verreweg het meest populaire type data lake is het cloud data lake. Adatameer in de cloudBiedt alle gebruikelijke data lake-functies, maar dan in een volledig beheerde cloudservice.
- Datalake op locatie:Met een on-premises data lake beheert intern technisch IT-personeel hardware, software en processen. Deze aanpak vereist een grote investering (CAPEX) en de gegevens zijn vaak geïsoleerd.
- Datameer in de cloud:In een datalake in de cloud wordt de on-premises infrastructuur uitbesteed. Er zijn hogere bedrijfskosten (OPEX) aan verbonden, maar deze aanpak stelt bedrijven in staat gemakkelijker op te schalen en te profiteren van vele andere voordelen (zie hieronder).
- Hybride datameer:Soms kiezen bedrijven ervoor om een data lake zowel on-premises als in de cloud te onderhouden. Dit is een zeer zeldzame situatie die zich meestal voordoet in scenario's voor migratie van on-premises naar de cloud.
- Multi-cloud datameer:In een multi-cloud data lake worden twee of meer cloudoplossingen gecombineerd. Een bedrijf kan bijvoorbeeld zowel AWS als Azure gebruiken om een cloud data lake te beheren en te onderhouden. Dit vereist meer expertise omdat het nodig is om ervoor te zorgen dat deze verschillende platformen met elkaar communiceren.
Zes voordelen van een Cloud Data Lake
Waarom kiezen voor een Cloud Data Lake? Wanneer u gegevens omzet in een waardevol bezit, stimuleert u digitale transformatie. Dit komt door de voordelen van de cloud in combinatie met het data lake. Met datalakes in de cloud kunnen bedrijven analyses toepassen op historische en nieuwe gegevensbronnen om bruikbare inzichten te verkrijgen. Denk aan logbestanden, clickstreams, sociale media, netwerkapparaten en meer.
Hier zijn enkele belangrijke voordelen die u kunt verwachten:
- Kosten efficiëntie:Cloudopslagproviders bieden veel opslag- en prijsopties.
- Automatische sluiter:Cloudservices zijn ontworpen om schaalmogelijkheden te bieden waarmee bedrijven on-demand opslagcapaciteit kunnen berekenen en gebruiken.
- Centrale databank:Datalakes in de cloud brengen informatie samen als een enkele bron van waarheid met gecontroleerde gegevenstoegang, waardoor de procesefficiëntie tussen teams wordt verbeterd.
- Dataveiligheid:Cloudopslagproviders zorgen voor gegevensbeveiliging via een gedeeld verantwoordelijkheidsmodel.
- hulpmiddel:Cloudopslagproviders en andere leveranciers bieden ETL-tools voor het verzamelen van gegevens, het bouwen van gegevenscatalogi, het voorbereiden en transformeren van gegevens en het opnemen van gegevens om gegevensquery's mogelijk te maken.
- Verbeter analyses voor nieuwe inzichten en betere bedrijfsresultaten:Datalakes in de cloud kunnen data op nieuwe manieren combineren. CRM-gegevens en analyse van sociale media kunnen bijvoorbeeld nieuwe inzichten bieden in waarom klanten afhaken, of laten zien welke promoties klantenloyaliteit stimuleren. De operationele efficiëntie kan ook worden verbeterd door IoT-gegevens te analyseren.
Ga aan de slag met data lake-oplossingen
Ontdek de mogelijkheden van datalakes in SAP HANA Cloud.
Meer in deze serie
Veelgestelde vragen over datameren
Bekijk enkele van onze veelgestelde vragen over data lakes en bekijk onzeWoordenlijst gegevensbeheerMeer definities.
De term "data lake" is ontstaan uit het concept van het aanduiden van een vloeiende, grotere dataopslag, in plaats van een meer gecompartimenteerde, goed gedefinieerde en gestructureerde datamart.
Meer dan tien jaar geleden, toen de gegevensbronnen groeiden, ontwikkelden datameren zich om tegemoet te komen aan de behoefte om petabytes aan ongedefinieerde gegevens op te slaan voor latere analyse. De eerste datalakes waren gebaseerd op het Hadoop File System (HDFS) en standaardhardware in on-premises datacenters. Uitdagingen in verband met gedistribueerde architecturen en de behoefte aan aangepaste gegevenstransformatie en -analyse leiden echter tot suboptimale prestaties van op Hadoop gebaseerde systemen.
cloud computing-technologieen gegevensopslag is nu de moderne gegevensstapel endatameer in de cloud.
Adatabank(DW) is een digitaal opslagsysteem dat grote aantallen kan opslaangestructureerd en opgemaaktVerbind en coördineer gegevens uit verschillende bronnen. Aan de andere kant slaan datalakes data op in onbewerkte vorm, zonder structurering of opmaak.
gegevensbeheerIs het proces van het verzamelen, organiseren en openen van gegevens om productiviteit, efficiëntie en besluitvorming te ondersteunen.
Naast de mogelijkheden van traditionele datalakes bieden datalakehouses ook databeheer- en warehousefuncties. Dit is een nieuw vakgebied dat zich snel ontwikkelt en verandert.
Multi-cloud is het gebruik van meerdere cloud computing- en opslagdiensten in een heterogene architectuur. Dit verwijst naar de distributie van cloudactiva, software en applicaties, bijvoorbeeld over verschillende cloudhostingomgevingen.
Bestandsopslag organiseert en presenteert gegevens als een hiërarchie van bestanden in mappen; blokopslag verdeelt gegevens in willekeurig geordende brokken van gelijke grootte; en objectopslag beheert gegevens en koppelt deze aan gerelateerde metagegevens. Objectopslagsystemen kunnen grote hoeveelheden ongestructureerde gegevens opslaan.
SAP Insights-nieuwsbrief
Schrijf je vandaag in
Meld u aan voor onze nieuwsbrief en ontvang belangrijke inzichten.
- register
- Volg ons op Twitter