Data lakes staan op een kantelpunt. Waar Hive jarenlang de standaard was, zien we nu een explosie van nieuwe open table formats: Apache Iceberg, Apache Hudi, Delta Lake en nieuwkomers zoals DuckLake. Ze beloven allemaal betere prestaties, ACID-transacties en flexibeler schema-beheer. Maar welke keuze maakt u?
Deze sessie biedt praktische handvatten voor architecten en engineers die voor deze beslissing staan. U krijgt inzicht in hoe elk format omgaat met schema-evolutie, time travel, transacties en metadata. Belangrijker nog: wat betekenen deze verschillen voor de prestaties, betrouwbaarheid en kosten van uw dataplatform?
Aan de hand van concrete implementaties bespreken we de valkuilen, verrassende voordelen en verborgen complexiteit van elk format. Of u nu een bestaande Hive-omgeving moderniseert, een nieuw data lake bouwt of een lakehouse-architectuur overweegt: u gaat naar huis met een helder besliskader om het juiste format te kiezen én te kunnen verantwoorden richting het management en uw team.
Highlights:
- Formats vergeleken: Diepgaande vergelijking van DuckLake, Iceberg, Hudi, Delta Lake en Hive op ACID-garanties, partitionering, query-performance en operationeel beheer
- Lessen uit de praktijk: Ervaringen uit productieomgevingen, migratiestrategieën, performance-optimalisatie en kostenoverwegingen bij petabyte-schaal
- Ecosysteem-integratie: Hoe elk format werkt met bv Spark, Flink, Trino, Dremio en DuckDB, welke cloudplatforms worden ondersteund en waar vendor lock-in dreigt
- Verborgen kosten: Operationele overhead, benodigde teamkennis en onderhoudskosten die verder gaan dan storage en compute
- Beslismodel: Praktisch stappenplan om te bepalen welk format past bij uw architectuur, workloads en strategische ambities.