Deze sessie bespreekt de data lakehouse, de nieuweling in de wereld van data-architecturen. Kort gezegd is het data lakehouse een combinatie van een datawarehouse en een data lake. Met andere woorden, deze architectuur is ontwikkeld om een typische datawarehouse-workload plus een datalake-workload te ondersteunen. Het bevat gestructureerde, semi-gestructureerde en ongestructureerde gegevens. Technisch gezien worden de gegevens in een data lakehouse opgeslagen in bestanden die toegankelijk zijn voor elk type tool en databaseserver. De gegevens worden niet gegijzeld door een specifieke databaseserver. SQL-engines hebben ook efficiënt toegang tot die gegevens voor meer traditionele business intelligence-workloads. En datascientists kunnen hun descriptive en prescriptive modellen rechtstreeks op de data ontwikkelen.
Het is heel logisch om deze twee werelden te combineren, omdat ze dezelfde gegevens en logica delen. Maar is dit echt mogelijk? Is dit allemaal te mooi om waar te zijn? In deze sessie worden verschillende aspecten van datawarehouses en datalakes besproken om te bepalen of de datalakehouse een marketinghype is of dat dit echt een waardevolle en realistische nieuwe data-architectuur is.
- Het belang van het combineren van de BI use case en de data science use case in één architectuur
- De relatie tussen de data lakehouse-architectuur en SQL-on-Hadoop-engines
- Vergelijkingen van datawarehouse, datalake en datalakehouse zijn gekleurd
- Ontbrekende onderdelen van het data lakehouse
- Het opslaan van gegevens in open bestandsformaten heeft praktische voordelen
- Is de data lakehouse een business pull of een technology push?