Fysiek datamodelleren in een ‘modern datawarehouse’ op basis van Snowflake of BigQuery

Rond 2015 begonnen Nederlandse bedrijven met het migreren van on-premise datawarehouses naar de public cloud. Het is daarbij achter niet altijd vanzelfsprekend dat de fysieke datamodellen die we op basis van deze technologie bouwen exact hetzelfde blijven als we in de on-premise wereld gewend zijn. De nieuwe technologische mogelijkheden maken namelijk niet alleen een nieuwe aanpak mogelijk, maar kunnen ook een anti-pattern zijn binnen bestaande modelleringstechnieken als Kimball of Data Vault. Of ze vragen om een net wat andere aanpak van deze technieken. Het doel van deze sessie is om u inzicht te geven in de (on)mogelijkheden op dit gebied, kijkende naar hoe dit praktisch aangepakt kan worden binnen een oplossing als Snowflake of Google BigQuery.

Voorbeelden van fysieke datamodel onderwerpen die we behandelen zijn:

  • Het gebruik van een semi-structured data type als VARIANT in Snowflake: de enabler voor een goede ‘separation of concerns’ tussen efficiënt data opslaan en de schema-on-read laag of Data Vault satellieten.
  • De herintroductie van dimensionele, gedenormaliseerde structuren in de integratielaag als we ook een historische staging laag gebruiken.
  • De (on)mogelijkheden van partitionering / clustering in BigQuery / Snowflake en waarom deze goed opzetten essentieel is voor schaalbare performance en kosten.
  • Het wel of niet gebruiken van hash keys versus integers als surrogaat sleutels.

Highlights van deze sessie

  • Wat is een ‘moderne manier van datawarehousing’ en hoe verschilt deze van een klassieke aanpak?
  • Wat is de functionele rol van elk van de vier lagen van het moderne datawarehouse?
  • Wat zijn de belangrijkste voor- en nadelen van de meest gebruikte cloud analytische databases: Snowflake, Google BigQuery, Amazon Redshift and Azure Synapse
  • Wat zijn geschikte fysieke datamodellerings technieken om in te zetten per datawarehouse laag (met een focus op Snowflake en BigQuery) en waarom?
  • Lessons learned in Snowflake en BigQuery: wat werkt wel en wat niet bij de fysieke implementatie van deze datamodellen?