Datawarehouses bouwen met GenAI: Een Toekomstblik
Data engineers zijn schaars, maar stel je voor dat je met GenAI zelf een data warehouse kunt bouwen! Victor de Graaff, oprichter van D-Data, zal in deze inspirerende sessie laten zien hoe het mogelijk is om zonder diepgaande technische kennis in slechts 45 minuten een compleet datawarehouse op te zetten, te vullen en er een BI-dashboard bij te maken.
Victor demonstreert dit proces met behulp van openbare APIs en GenAI, waarbij hij de kracht van automatisering en kunstmatige intelligentie inzet. In deze showcase staan Azure en ChatGPT hem bij als ‘digitale assistenten’, en maken ze het onmogelijke mogelijk.
Door GenAI-gegenereerde code te gebruiken, zullen we:
- Een datawarehouse aanmaken en configureren zonder ingewikkelde scripts
- Data direct vanuit publieke APIs ophalen en laden
- Deze data visualiseren in een overzichtelijk BI-dashboard
Deze sessie laat zien dat zelfs specialistische taken, zoals het bouwen van datawarehouses, bereikbaar zijn voor een breder publiek dankzij GenAI. Bereid je voor om “in awe” te zijn en ontdek de toekomst van BI en data-engineering met kunstmatige intelligentie!
Lees minderTesten in een BI & Data landschap
Onze dataprocessen en -systemen worden steeds complexer en dynamischer. Veel bedrijven hebben moeite met het op peil houden van de datakwaliteit en het vergroten van het vertrouwen in het datalandschap.
Testen biedt inzicht in risico’s en kwaliteit van de data, de systemen en de datastromen. Het onderzoekt bijvoorbeeld de prestaties, de data-integriteit en de bedrijfslogica. Veel meer dan het vinden van problemen en bugs gaat het bij testen om het bieden en opbouwen van vertrouwen voor eindgebruikers in de oplossing die wordt gebouwd. Testen zou daarom een cruciaal onderdeel moeten zijn van elke business intelligence- en data omgeving.
In deze lezing ga ik in op testkennis gericht op data omgevingen met behulp van TMAP en het VOICE-model. Ik zal ingaan op de DAMA-kwaliteitskenmerken die je kunt overnemen en je aanmoedigen om het niveau van vertrouwen in de kwaliteit van uw systemen en gegevens te communiceren. Krijg inzicht en tips over het testen van BI- & Data-oplossingen.
Belangrijkste punten:
- Het belang van testen
- Het TMAP- en VOICE-testmodel
- Vertrouwen opbouwen door inzicht te geven in het kwaliteitsniveau
- Testen in een BI & Data omgeving door te kijken naar:
- Data stromen; kijken naar hoe de data door het systeem heen beweegt
- Data kwaliteit; welke KPI’s kunnen worden gebruikt?
- Data Profiling; hoe je bugs kunt vinden nog voordat de oplossing is gebouwd.
What is Data Engineering? An introduction to the field, its intersection with other data fields, and trends in 2025 and beyond.
In today’s data landscape, data engineering stands as one of the most in-demand fields. Join Joe Reis in this wide-ranging talk as he explores data engineering and its significance. Discover the fundamentals of data engineering, encompassing the data engineering lifecycle and its undercurrents. Joe will also explore key concepts crucial for designing and maintaining scalable, reliable, and efficient data architectures. Lastly, he will shed light on the intersections between data engineering and other data-related domains, providing insights into macro trends that will shape the future of data engineering in 2025 and beyond.
- Understand the role of data engineering in today’s data landscape
- Learn the data engineering lifecycle and its undercurrents
- “Shifting left”
- How data engineering enables data-centric AI
- Trends in data engineering in 2025 and beyond
Onderzoek Vernieuwen door Open Data: Het Bouwen van het Samenwerkingsplatform van de toekomst
Erasmus Universiteit en TU-Delft hebben in 2023 de krachten gebundeld om een nieuw tijdperk van onderzoekssamenwerking in te luiden met een innovatief platform voor het delen van (open) data. Gebouwd op de pijlers van gebruiksgemak, robuuste beveiliging en moderne infrastructuur maakt dit platform het delen en ontdekken van onderzoeksgegevens een fluitje van een cent. Onderzoekers profiteren van intuïtief databeheer met geautomatiseerde Digital Object Identifier (DOI) toekenning, terwijl geavanceerde beveiliging zorgt voor AVG-compliance zonder de toegankelijkheid in gevaar te brengen. Het platform biedt geautomatiseerde datasynchronisatie en unieke compute-to-data mogelijkheden, waardoor algoritmes veilig kunnen worden uitgevoerd met behoud van gevoelige informatie.Als open-source oplossing stimuleert het platform actieve deelname van de gemeenschap en continue verbetering. Of u nu een bank bent die markttrends analyseert, een verzekeraar die risico-inzichten zoekt, of een retailer die klantgedrag onderzoekt: ontdek hoe dit platform veilige datacollaboratie mogelijk maakt terwijl uw intellectueel eigendom wordt beschermd en u volledige controle houdt over uw gevoelige informatie.
Deze sessie zal het volgende belichten:
- Platform Architectuur: Ontdek de bouwstenen van een modern datadeelplatform met focus op beveiliging en gebruiksgemak.
- Praktische Toepassing: Leer hoe organisaties data kunnen delen met volledige controle over hun gevoelige informatie.
- Technische Realisatie: Verken de implementatie van beveiligingsmaatregelen en geautomatiseerde functies voor efficiënt datadelen.
- Community Ontwikkeling: Begrijp hoe je een actieve datagemeenschap opbouwt tussen kennisinstellingen en bedrijfsleven.
- Toekomstbestendigheid: Zie hoe open-source ontwikkeling zorgt voor continue innovatie en AI-gereedheid van het platform.
Opening door de dagvoorzitter
Geen Data-disruptie zonder ICT-disruptie
Je zou denken van wel, met al meer dan vijftig jaar ervaring met datamodelleren, data-architecturen, datastrategieën, datawarehouses en databases. Desondanks moeten we bekennen dat er nog steeds fouten gemaakt worden en grote projecten nog altijd mislopen. Wat kunnen we eigenlijk voor de toekomst leren van alle ervaringen die we hebben opgedaan? Wat moeten we veranderen om mee te kunnen draaien in deze steeds meer datagedreven economie waarin voor iedereen digitale transformatie het magische woord is? Het is niet alleen een kwestie van nieuwe technologie aanschaffen. Wij ICT-ers moeten ook veranderen. Data-disruptie vereist ICT-disruptie.
- Hoe goed is ons track record wat betreft ICT-projecten?
- Waarom adopteren we niet meer generatoren en self-driving technologie?
- Is datamodelleren eigenlijk wel veranderd de laatste 30 jaar?
- Welke eigenschappen moet de ICT-er veranderen?
- Het belang van gedegen ICT-kennis aan de top van de organisatie.
Customer insights from EWALS and AEGON and how they continuously innovate with data
Jaap-Willem Verheij van Wijk will open the session with an introduction to Qlik then share customer insights including EWALS Cargo Care who have continuously innovated with data to stay ahead of the curve. See how they have solved the latest data challenges in logistics and how they automate the data warehouse lifecycle. Jaap will also share how AEGON have solved their manual data stream issues and are now able to enclose multiple data sources with a small team that supports the agility of their business demands.
Lees minderData Driven: meer dan technologie
APG is de grootste pensioenuitvoerder van Nederland en ziet vanuit huidige en toekomstige bedrijfsvoering data als een cruciale asset. De overheid trekt zich steeds meer terug uit een toereikende oudedagsvoorziening (verhoging AOW-leeftijd, verlaging pensioenopbouw) dus inzicht in de persoonlijke situatie van deelnemers en het bieden van handelingsperspectief is van cruciaal belang. Daarnaast wil APG als uitvoerder en belegger toonaangevend zijn.
Dit alles heeft geleid tot het oormerken van data als een strategische asset. Maar hoe kom je van die ambitie tot executie op de diverse assen techniek, capability, cultuur en organisatie? Deze presentatie vertelt een integraal verhaal over de reis die de afgelopen periode is afgelegd: wat ging er goed, wat niet, wat hebben we daarvan geleerd, waar staan we nu?
Er zal worden ingegaan op het neerzetten van een passende architectuur, het opbouwen van de juiste kennis en kunde, de combinatie met moderne werkvormen en de uitdagingen op samenwerking over bedrijfsonderdelen heen:
- Business drivers
- Architectuur en kennis
- Cultuur en wendbaarheid
- Organisatie en sponsorship
- Kritieke succesfactoren
The Power of Combining Machine Learning Models - The Risks and Rewards of Random Forests, XGBoost and other Ensembles
Ensembling is one of the hottest techniques in today’s predictive analytics competitions. Every single recent winner of Kaggle.com and KDD competitions used an ensemble technique, including famous algorithms such as XGBoost and Random Forest.
Are these competition victories paving the way for widespread organizational implementation of these techniques? This session will provide a detailed overview of ensemble models, their origin, and show why they are so effective. We will explain the building blocks of virtually all ensembles techniques, to include bagging and boosting.
What You Will Learn:
- What are ensemble models and what are their advantages?
- Why are ensembles in the news?
- The two most influential ensembling approaches: bagging and boosting
- The core elements of ensembles and their application
- The challenge of applying competition strategies to organizational problems.
Lunchpauze
Model Driven Data Vault Automation with Datavault Builder
Modern Data Management en Data-integratie
De digitale toekomst: denk groot, denk aan grootschalig gedistribueerde data, denk in ecosystemen. Welke Integratie-architectuur is benodigd om een belangrijke positie te krijgen in een ecosysteem van Fintech-bedrijven en andere banken? Hebben Enterprise Datawarehouses nog een functie in dit datalandschap? Over deze vragen gaat de presentatie. Ook komt aan bod:
- Data-integratie patronen
- Data ownership en Data Governance
- Metadata als bindmiddel
- Controle over gedistribueerde data
- Data distributie in de Cloud
Making Self-Service Analytics Work: Organizational, Architectural, and Governance Issues
Self-service analytics has been the holy grail of data analytics leaders for the past two decades. Although analytical tools have improved significantly, it is notoriously difficult to achieve the promise of self-service analytics. This session will explain how to empower business users to create their own reports and models without creating data chaos. Specifically, it examines seven factors for leading a successful BI program: right roles, right processes, right tools, right organization, right architecture, right governance, and right leadership. Ultimately, it will show how to build a self-sustaining analytical culture that balances speed and standards, agility and architecture, and self-service and governance.
You will learn:
- Trends and business dynamics driving analytics adoption
- The conundrum of self-service analytics
- Success factors for leading a successful BI program
- How to survive and thrive in the new world of big data analytics
- How to increase user adoption and facilitate self service
Data Governance and Architecture – Making the connections
With data increasingly being seen as a critical corporate asset, more organisations are embracing the concepts and practices of Data Governance. As a result Data Governance is today one of the hottest topics in data management, focusing both on how Governance driven change can enable companies to gain better leverage from their data through enhanced Business Intelligence, Data Analytics and so on, and also to help them design and enforce the controls needed to ensure they remain compliant with increasingly stringent laws and regulations, such as GDPR.
Despite this rapidly growing focus, many Data Governance initiatives fail to meet their goals, with only around one in five fully achieving expectations. Why is the failure rate so high? There are many factors, but one key reason is that implementing Data Governance without aligning it with a defined enterprise and data architecture is fraught with dangers. Linking Architecture with data accountability, a core principle of Data Governance, is essential.
This session will outline why Data Governance and Architecture should be connected, how to make it happen, and what part Business Intelligence and Data Warehousing play in defining a robust and sustainable Governance programme.
This talk will cover:
- What is Data Governance and what it is not
- Key reasons for Data Governance failure & disappointment
- The key components of enterprise architecture – Business, Process and Data
- The synergies between architecture and Governance – how do they reinforce each other?
- How artefacts from both disciplines can be combined and applied to ensure success
- The implications for Business Intelligence and Data Warehousing
- Several use cases of successes and lessons learned
Cloud Data Warehousing: Planning for Data Warehouse Migration
Cloud data warehousing helps to meet the challenges of legacy data warehouses that struggle to keep up with growing data volumes, changing service level expectations, and the need to integrate structured warehouse data with unstructured data in a data lake. Cloud data warehousing provides many benefits, but cloud migration isn’t fast and easy. Migrating an existing data warehouse to the cloud is a complex process of moving schema, data, and ETL. The complexity increases when architectural modernization, restructuring of database schema or rebuilding of data pipelines is needed.
This session provides an overview of the benefits, techniques, and challenges when migrating an existing data warehouse to the cloud. We will discuss the pros and cons of cloud migration, explore the dynamics of migration decision making, and look at migration pragmatics within the framework of a step-by-step approach to migrating. The tips and techniques described here will help you to make informed decisions about cloud migration and address the full scope of migration planning.
You Will Learn:
- The what and why of cloud data warehousing
- The benefits and challenges of cloud data warehousing
- Migration analysis and decision making
- Technology roles in migration to the cloud
- A step-by-step framework for data warehouse migration.
Borrel
Datawarehouses bouwen met GenAI: Een Toekomstblik
Data engineers zijn schaars, maar stel je voor dat je met GenAI zelf een data warehouse kunt bouwen! Victor de Graaff, oprichter van D-Data, zal in deze inspirerende sessie laten zien hoe het mogelijk is om zonder diepgaande technische kennis in slechts 45 minuten een compleet datawarehouse op te zetten, te vullen en er een BI-dashboard bij te maken.
Victor demonstreert dit proces met behulp van openbare APIs en GenAI, waarbij hij de kracht van automatisering en kunstmatige intelligentie inzet. In deze showcase staan Azure en ChatGPT hem bij als ‘digitale assistenten’, en maken ze het onmogelijke mogelijk.
Door GenAI-gegenereerde code te gebruiken, zullen we:
- Een datawarehouse aanmaken en configureren zonder ingewikkelde scripts
- Data direct vanuit publieke APIs ophalen en laden
- Deze data visualiseren in een overzichtelijk BI-dashboard
Deze sessie laat zien dat zelfs specialistische taken, zoals het bouwen van datawarehouses, bereikbaar zijn voor een breder publiek dankzij GenAI. Bereid je voor om “in awe” te zijn en ontdek de toekomst van BI en data-engineering met kunstmatige intelligentie!
Lees minderTesten in een BI & Data landschap
Onze dataprocessen en -systemen worden steeds complexer en dynamischer. Veel bedrijven hebben moeite met het op peil houden van de datakwaliteit en het vergroten van het vertrouwen in het datalandschap.
Testen biedt inzicht in risico’s en kwaliteit van de data, de systemen en de datastromen. Het onderzoekt bijvoorbeeld de prestaties, de data-integriteit en de bedrijfslogica. Veel meer dan het vinden van problemen en bugs gaat het bij testen om het bieden en opbouwen van vertrouwen voor eindgebruikers in de oplossing die wordt gebouwd. Testen zou daarom een cruciaal onderdeel moeten zijn van elke business intelligence- en data omgeving.
In deze lezing ga ik in op testkennis gericht op data omgevingen met behulp van TMAP en het VOICE-model. Ik zal ingaan op de DAMA-kwaliteitskenmerken die je kunt overnemen en je aanmoedigen om het niveau van vertrouwen in de kwaliteit van uw systemen en gegevens te communiceren. Krijg inzicht en tips over het testen van BI- & Data-oplossingen.
Belangrijkste punten:
- Het belang van testen
- Het TMAP- en VOICE-testmodel
- Vertrouwen opbouwen door inzicht te geven in het kwaliteitsniveau
- Testen in een BI & Data omgeving door te kijken naar:
- Data stromen; kijken naar hoe de data door het systeem heen beweegt
- Data kwaliteit; welke KPI’s kunnen worden gebruikt?
- Data Profiling; hoe je bugs kunt vinden nog voordat de oplossing is gebouwd.
What is Data Engineering? An introduction to the field, its intersection with other data fields, and trends in 2025 and beyond.
In today’s data landscape, data engineering stands as one of the most in-demand fields. Join Joe Reis in this wide-ranging talk as he explores data engineering and its significance. Discover the fundamentals of data engineering, encompassing the data engineering lifecycle and its undercurrents. Joe will also explore key concepts crucial for designing and maintaining scalable, reliable, and efficient data architectures. Lastly, he will shed light on the intersections between data engineering and other data-related domains, providing insights into macro trends that will shape the future of data engineering in 2025 and beyond.
- Understand the role of data engineering in today’s data landscape
- Learn the data engineering lifecycle and its undercurrents
- “Shifting left”
- How data engineering enables data-centric AI
- Trends in data engineering in 2025 and beyond
Onderzoek Vernieuwen door Open Data: Het Bouwen van het Samenwerkingsplatform van de toekomst
Erasmus Universiteit en TU-Delft hebben in 2023 de krachten gebundeld om een nieuw tijdperk van onderzoekssamenwerking in te luiden met een innovatief platform voor het delen van (open) data. Gebouwd op de pijlers van gebruiksgemak, robuuste beveiliging en moderne infrastructuur maakt dit platform het delen en ontdekken van onderzoeksgegevens een fluitje van een cent. Onderzoekers profiteren van intuïtief databeheer met geautomatiseerde Digital Object Identifier (DOI) toekenning, terwijl geavanceerde beveiliging zorgt voor AVG-compliance zonder de toegankelijkheid in gevaar te brengen. Het platform biedt geautomatiseerde datasynchronisatie en unieke compute-to-data mogelijkheden, waardoor algoritmes veilig kunnen worden uitgevoerd met behoud van gevoelige informatie.Als open-source oplossing stimuleert het platform actieve deelname van de gemeenschap en continue verbetering. Of u nu een bank bent die markttrends analyseert, een verzekeraar die risico-inzichten zoekt, of een retailer die klantgedrag onderzoekt: ontdek hoe dit platform veilige datacollaboratie mogelijk maakt terwijl uw intellectueel eigendom wordt beschermd en u volledige controle houdt over uw gevoelige informatie.
Deze sessie zal het volgende belichten:
- Platform Architectuur: Ontdek de bouwstenen van een modern datadeelplatform met focus op beveiliging en gebruiksgemak.
- Praktische Toepassing: Leer hoe organisaties data kunnen delen met volledige controle over hun gevoelige informatie.
- Technische Realisatie: Verken de implementatie van beveiligingsmaatregelen en geautomatiseerde functies voor efficiënt datadelen.
- Community Ontwikkeling: Begrijp hoe je een actieve datagemeenschap opbouwt tussen kennisinstellingen en bedrijfsleven.
- Toekomstbestendigheid: Zie hoe open-source ontwikkeling zorgt voor continue innovatie en AI-gereedheid van het platform.
Opening door de dagvoorzitter
Geen Data-disruptie zonder ICT-disruptie
Je zou denken van wel, met al meer dan vijftig jaar ervaring met datamodelleren, data-architecturen, datastrategieën, datawarehouses en databases. Desondanks moeten we bekennen dat er nog steeds fouten gemaakt worden en grote projecten nog altijd mislopen. Wat kunnen we eigenlijk voor de toekomst leren van alle ervaringen die we hebben opgedaan? Wat moeten we veranderen om mee te kunnen draaien in deze steeds meer datagedreven economie waarin voor iedereen digitale transformatie het magische woord is? Het is niet alleen een kwestie van nieuwe technologie aanschaffen. Wij ICT-ers moeten ook veranderen. Data-disruptie vereist ICT-disruptie.
- Hoe goed is ons track record wat betreft ICT-projecten?
- Waarom adopteren we niet meer generatoren en self-driving technologie?
- Is datamodelleren eigenlijk wel veranderd de laatste 30 jaar?
- Welke eigenschappen moet de ICT-er veranderen?
- Het belang van gedegen ICT-kennis aan de top van de organisatie.
Customer insights from EWALS and AEGON and how they continuously innovate with data
Jaap-Willem Verheij van Wijk will open the session with an introduction to Qlik then share customer insights including EWALS Cargo Care who have continuously innovated with data to stay ahead of the curve. See how they have solved the latest data challenges in logistics and how they automate the data warehouse lifecycle. Jaap will also share how AEGON have solved their manual data stream issues and are now able to enclose multiple data sources with a small team that supports the agility of their business demands.
Lees minderData Driven: meer dan technologie
APG is de grootste pensioenuitvoerder van Nederland en ziet vanuit huidige en toekomstige bedrijfsvoering data als een cruciale asset. De overheid trekt zich steeds meer terug uit een toereikende oudedagsvoorziening (verhoging AOW-leeftijd, verlaging pensioenopbouw) dus inzicht in de persoonlijke situatie van deelnemers en het bieden van handelingsperspectief is van cruciaal belang. Daarnaast wil APG als uitvoerder en belegger toonaangevend zijn.
Dit alles heeft geleid tot het oormerken van data als een strategische asset. Maar hoe kom je van die ambitie tot executie op de diverse assen techniek, capability, cultuur en organisatie? Deze presentatie vertelt een integraal verhaal over de reis die de afgelopen periode is afgelegd: wat ging er goed, wat niet, wat hebben we daarvan geleerd, waar staan we nu?
Er zal worden ingegaan op het neerzetten van een passende architectuur, het opbouwen van de juiste kennis en kunde, de combinatie met moderne werkvormen en de uitdagingen op samenwerking over bedrijfsonderdelen heen:
- Business drivers
- Architectuur en kennis
- Cultuur en wendbaarheid
- Organisatie en sponsorship
- Kritieke succesfactoren
The Power of Combining Machine Learning Models - The Risks and Rewards of Random Forests, XGBoost and other Ensembles
Ensembling is one of the hottest techniques in today’s predictive analytics competitions. Every single recent winner of Kaggle.com and KDD competitions used an ensemble technique, including famous algorithms such as XGBoost and Random Forest.
Are these competition victories paving the way for widespread organizational implementation of these techniques? This session will provide a detailed overview of ensemble models, their origin, and show why they are so effective. We will explain the building blocks of virtually all ensembles techniques, to include bagging and boosting.
What You Will Learn:
- What are ensemble models and what are their advantages?
- Why are ensembles in the news?
- The two most influential ensembling approaches: bagging and boosting
- The core elements of ensembles and their application
- The challenge of applying competition strategies to organizational problems.
Lunchpauze
Model Driven Data Vault Automation with Datavault Builder
Modern Data Management en Data-integratie
De digitale toekomst: denk groot, denk aan grootschalig gedistribueerde data, denk in ecosystemen. Welke Integratie-architectuur is benodigd om een belangrijke positie te krijgen in een ecosysteem van Fintech-bedrijven en andere banken? Hebben Enterprise Datawarehouses nog een functie in dit datalandschap? Over deze vragen gaat de presentatie. Ook komt aan bod:
- Data-integratie patronen
- Data ownership en Data Governance
- Metadata als bindmiddel
- Controle over gedistribueerde data
- Data distributie in de Cloud
Making Self-Service Analytics Work: Organizational, Architectural, and Governance Issues
Self-service analytics has been the holy grail of data analytics leaders for the past two decades. Although analytical tools have improved significantly, it is notoriously difficult to achieve the promise of self-service analytics. This session will explain how to empower business users to create their own reports and models without creating data chaos. Specifically, it examines seven factors for leading a successful BI program: right roles, right processes, right tools, right organization, right architecture, right governance, and right leadership. Ultimately, it will show how to build a self-sustaining analytical culture that balances speed and standards, agility and architecture, and self-service and governance.
You will learn:
- Trends and business dynamics driving analytics adoption
- The conundrum of self-service analytics
- Success factors for leading a successful BI program
- How to survive and thrive in the new world of big data analytics
- How to increase user adoption and facilitate self service
Data Governance and Architecture – Making the connections
With data increasingly being seen as a critical corporate asset, more organisations are embracing the concepts and practices of Data Governance. As a result Data Governance is today one of the hottest topics in data management, focusing both on how Governance driven change can enable companies to gain better leverage from their data through enhanced Business Intelligence, Data Analytics and so on, and also to help them design and enforce the controls needed to ensure they remain compliant with increasingly stringent laws and regulations, such as GDPR.
Despite this rapidly growing focus, many Data Governance initiatives fail to meet their goals, with only around one in five fully achieving expectations. Why is the failure rate so high? There are many factors, but one key reason is that implementing Data Governance without aligning it with a defined enterprise and data architecture is fraught with dangers. Linking Architecture with data accountability, a core principle of Data Governance, is essential.
This session will outline why Data Governance and Architecture should be connected, how to make it happen, and what part Business Intelligence and Data Warehousing play in defining a robust and sustainable Governance programme.
This talk will cover:
- What is Data Governance and what it is not
- Key reasons for Data Governance failure & disappointment
- The key components of enterprise architecture – Business, Process and Data
- The synergies between architecture and Governance – how do they reinforce each other?
- How artefacts from both disciplines can be combined and applied to ensure success
- The implications for Business Intelligence and Data Warehousing
- Several use cases of successes and lessons learned
Cloud Data Warehousing: Planning for Data Warehouse Migration
Cloud data warehousing helps to meet the challenges of legacy data warehouses that struggle to keep up with growing data volumes, changing service level expectations, and the need to integrate structured warehouse data with unstructured data in a data lake. Cloud data warehousing provides many benefits, but cloud migration isn’t fast and easy. Migrating an existing data warehouse to the cloud is a complex process of moving schema, data, and ETL. The complexity increases when architectural modernization, restructuring of database schema or rebuilding of data pipelines is needed.
This session provides an overview of the benefits, techniques, and challenges when migrating an existing data warehouse to the cloud. We will discuss the pros and cons of cloud migration, explore the dynamics of migration decision making, and look at migration pragmatics within the framework of a step-by-step approach to migrating. The tips and techniques described here will help you to make informed decisions about cloud migration and address the full scope of migration planning.
You Will Learn:
- The what and why of cloud data warehousing
- The benefits and challenges of cloud data warehousing
- Migration analysis and decision making
- Technology roles in migration to the cloud
- A step-by-step framework for data warehouse migration.
Borrel
Opening door de dagvoorzitter
Data routes: combineren van data vault, ensemble modelling en datavirtualisatie
Data vault, ensemble logical modeling, datavirtualisatie en cloud zijn bij elke BI of datawarehouse-specialist bekend. Maar de grote vraag is hoe je ze samen inzet bij het ontwikkelen van real-life systemen en dan de kracht en mogelijkheden van elke component optimaal benut. In deze sessie wordt uitgelegd hoe alle samen efficiënt ingezet kunnen worden. Centraal hierbij staat het nieuwe concept “data routes”. Binnen een data- en analytics-architectuur dienen data routes als brandstof voor de virtuele data presentatielaag die door eindgebruikers wordt benaderd voor al hun databehoeftes.
Het concept stelt een datageoriënteerde manier van verwerken voor, die rust op de genoemde zaken als data vault, ensemble modeling en datavirtualisatie. Hierbij wordt een ontkoppeling van data en techniek gerealiseerd waardoor het accent wordt verlegd naar de karakteristieken van de data en de eisen die use cases stellen. Het resultaat wordt als een virtuele (semantische) data laag aangeboden aan een brede groep van data enthousiasten. Met behulp van datavirtualisatie wordt een virtuele dataverzameling opgebouwd als virtueel dataportaal voor datagebruikers.
- Biedt een Cloud Analytics platform een volledige oplossing?
- Hoe past het concept Data Routes als methodiek bij een bestaande data architectuur voor Data & Analytics
- Hoeft de data nu niet meer gemodelleerd te worden?
- Hoe passen data routes en datavirtualisatie bij elkaar?
- Van Ensemble logical modeling naar data vault databases
Turning Data into Innovation - TIBCO Connected Intelligence for Enterprises
Data Virtualization, Data Quality, Reference Data Management, Master Data Management en Metadatamanagement als onderdeel van Data Management stellen organisaties in staat de verschillende data silo’s op elkaar af te stemmen en hun beslissingen te verbeteren.
Onze centrale vraag is: “Hoe kan TIBCO digitale transformatie initiatieven hierbij ondersteunen?” Data is het fundament voor operational excellence, customer intimacy en Business Reinvention. De rol van TIBCO’s Unify portfolio is de hoeksteen in een data-driven initiatief voor Operations, Data Governance en Analytics.
- Wat is de impact van data virtualisatie bij het gebruik van het data warehouse?
- Spelen API-led transformaties een rol bij het delen van informatie?
- Hoe kunnen gebruikers sneller inzicht krijgen in alle data van het bedrijf?
- Wat is de noodzaak van de standaardisatie van referentie data?
- Wat is de rol van streaming analytics voor een Data Science omgeving?
Cloud Database Systemen: een vergelijking en blik onder de motorkap
[Bekijk preview] In de afgelopen vijf jaar zijn cloud databasesystemen echt doorgebroken. De cloud maakt het mogelijk om kapitaal investeringen vooraf om te zetten in operationele kosten, zodat men alleen betaalt voor de capaciteit die echt is; en er nooit zorgen hoeven te zijn over capaciteitsproblemen. Daarbovenop “ontzorgen” cloud database systemen in de zin dat het beheer van de database systemen en onderliggende hardware bij de cloud provider ligt. In tijden van personele schaarste is dat een andere belangrijke factor achter het succes van cloud database systemen, die de eventuele nadelen op het gebied van lock-in en zorgen rond privacy en security vaak neutraliseert.
Maar, als eenmaal het besluit is genomen om de database naar de cloud te brengen, welke dan te kiezen? Er zijn op dit moment al een heleboel cloud systemen. Amazon heeft onder andere Aurora, Redshift, Neptune en Athena. Microsoft heeft SQLserver en Cosmos DB. Google heeft onder andere BigQuery. En dan zijn er nieuwe bedrijven bijgekomen, die zich specialiseren in cloud services, zoals Snowflake en Databricks.
Om beter te begrijpen wat de overeenkomsten en verschillen zijn tussen al die nieuwe cloud systemen, zal Peter Boncz ingaan op wat er zich onder de motorkap van deze nieuwe systemen bevindt. De verschillende alternatieven worden technisch ontleed en met elkaar vergeleken.
Enkele van de onderwerpen die aan bod zullen komen:
- Een introductie tot cloud data systemen met een actueel marktoverzicht van de belangrijkste kanshebbers
- Hoe ziet de architectuur van deze verschillende systemen eruit op het gebied van query-engine, data representatie, elasticiteit en data partitionering
- Welke diensten zijn “serverless” en wat is dat precies?
- Kunnen cloud database systemen automatisch data optimaliseren?
- Wat is het economische model, en verdere implicaties daarvan
- Welke ontwikkelingen zullen nog volgen in cloud database systemen in de komende jaren? Een voorbeeld is databases delen in de cloud.
Data Preparation for Machine Learning. Why Feature Engineering Remains a Human-Driven Activity
This session will expose analytic practitioners, data scientists, and those looking to get started in predictive analytics to the critical importance of properly preparing data in advance of model building. The instructor will present the critical role of feature engineering, explaining both what it is and how to do it effectively. Emphasis will be given to those tasks that must be overseen by the modeler – and cannot be performed without the context of a specific modeling project. Data is carefully “crafted” by the modeler to improve the ability of modeling algorithms to find patterns of interest.
Data preparation is often associated with cleaning and formatting the data. While important, these tasks will not be our focus. Rather it is how the human modeler creates a dataset that is uniquely suited to the business problem.
You will learn:
- Construction methods for various data transformations
- The merits and limitations of automated data preparation technologies
- Which data prep tasks are best performed by data scientist, and which by IT
- Common types of constructed variables and why they are useful
- How to effectively utilize subject matter experts during data preparation
Lunchpauze
Het moderniseren van Data Governance voor het tijdperk van Self-Service Analytics
Het vergrendelen van alle gegevens is niet het antwoord aangezien we daarbij teveel van het potentieel van de data zouden verliezen. Data Governance 1.0-top-down en watervalachtige modellen zijn niet langer geschikt voor de nieuwe data paradigma’s.
De presentatie richt zich op de stappen die u moet nemen om uit uw big data duurzame en met de regelgeving conforme waarde te krijgen via (Self-service) Analytics.
U leert:
- Hoe past u data governance aan voor de nieuwe manieren van werken
- Wat is het onderscheid tussen Informatie en Big Data Governance
- Wat is er nodig voor een goed beheer van self-service analytics
- Hoe laat ik de “data literacy” van mijn medewerkers toenemen
- Omgaan met de dynamiek van data on-boarding en datastromen
- Naar policy gebaseerde classificatie en toegang
- Use Case governance t.o.v. Kritieke gegevenselementen
Best Practices in DataOps: Trends, Tips, and Techniques for Creating and Managing Modern Data Pipelines
When it comes to data analytics, you don’t want to know “how the sausage is made.” The state of most data analytics pipelines is deplorable. There are too many steps; too little automation and orchestration; minimal reuse of code and data; and a lack of coordination between stakeholders in business, IT, and operations. The result is poor quality data delivered too late to meet business needs.
DataOps is an emerging approach for building data pipelines and solutions. This session will explore trends in DataOps adoption, challenges that organizations face in implementing DataOps, and best practices in building modern data pipelines. It will examine how leading-edge organizations are using DataOps to increase agility, reduce cycle times, and minimize data defects, giving developers and business users greater confidence in analytic output.
You will learn:
- What is DataOps and why you need it
- The dimensions of DataOps
- The state of DataOps adoption
- DataOps best practices and challenges
Beheersen en ontdekken van de waarde van data middels een data lake en een analytics lab
In de complexe wereld van halfgeleider productie worden dagelijks enorme hoeveelheden zeer gevarieerde data gegenereerd. ASML, wereldleider op het gebied van machines voor de productie van halfgeleiders, implementeert een central data lake waarin data verzameld wordt in een centrale omgeving en die vanuit daar beschikbaar gesteld wordt voor rapportage en analyse. Dit central data lake bevat ook een zogenaamd analytics lab voor gedetailleerde exploratie van data en het faciliteren van data science toepassingen. Het beheersen van deze snel veranderende data is een enorme uitdaging. In deze sessie bespreken we aan de hand van een aantal voorbeelden ASML’s aanpak voor de volgende uitdagingen:
- Hoe kunnen gebruikers, analisten en data scientists informatie in het central data lake ontdekken en vinden zonder te verdrinken in de hoeveelheid en complexiteit van gegevens?
- Hoe borgen we dat gebruikers van het central data lake de data begrijpen en weten waar de data vandaan komt (data lineage)?
- Hoe zorgen we er voor dat de data in het central data lake vertrouwd kan worden (data kwaliteit)?
- Hoe kunnen we als ASML borgen dat toegang tot data in lijn is met eisen van klanten en andere belanghebbenden?
- Welke toegevoegde waarde kan het analytics lab (nog meer) brengen?
Tien praktische richtlijnen voor moderne data-architecturen
Veel organisaties zijn hierdoor tot de conclusie gekomen dat het tijd is voor een nieuwe, toekomstbestendige data-architectuur. Dit is echter gemakkelijker gezegd dan gedaan. Een nieuwe data-architectuur ontwerpen doe je immers niet elke dag. In deze sessie worden tien essentiële richtlijnen gegeven voor het ontwerpen van moderne data-architecturen. Deze richtlijnen zijn gebaseerd op ervaringen met het uitdenken en implementeren van menig nieuwe data-architectuur.
- Welke nieuwe technologieën zijn er momenteel beschikbaar?
- Wat is de invloed op de architectuur van o.a. Hadoop, NoSQL, big data, datawarehouse automation en data-streaming?
- Welke nieuwe architectuurprincipes worden tegenwoordig toegepast?
- Hoe gaan we om met de steeds strengere regels voor data-opslag en analyse?
- Wat is de invloed van cloud platformen?
Opening door de dagvoorzitter
Data routes: combineren van data vault, ensemble modelling en datavirtualisatie
Data vault, ensemble logical modeling, datavirtualisatie en cloud zijn bij elke BI of datawarehouse-specialist bekend. Maar de grote vraag is hoe je ze samen inzet bij het ontwikkelen van real-life systemen en dan de kracht en mogelijkheden van elke component optimaal benut. In deze sessie wordt uitgelegd hoe alle samen efficiënt ingezet kunnen worden. Centraal hierbij staat het nieuwe concept “data routes”. Binnen een data- en analytics-architectuur dienen data routes als brandstof voor de virtuele data presentatielaag die door eindgebruikers wordt benaderd voor al hun databehoeftes.
Het concept stelt een datageoriënteerde manier van verwerken voor, die rust op de genoemde zaken als data vault, ensemble modeling en datavirtualisatie. Hierbij wordt een ontkoppeling van data en techniek gerealiseerd waardoor het accent wordt verlegd naar de karakteristieken van de data en de eisen die use cases stellen. Het resultaat wordt als een virtuele (semantische) data laag aangeboden aan een brede groep van data enthousiasten. Met behulp van datavirtualisatie wordt een virtuele dataverzameling opgebouwd als virtueel dataportaal voor datagebruikers.
- Biedt een Cloud Analytics platform een volledige oplossing?
- Hoe past het concept Data Routes als methodiek bij een bestaande data architectuur voor Data & Analytics
- Hoeft de data nu niet meer gemodelleerd te worden?
- Hoe passen data routes en datavirtualisatie bij elkaar?
- Van Ensemble logical modeling naar data vault databases
Turning Data into Innovation - TIBCO Connected Intelligence for Enterprises
Data Virtualization, Data Quality, Reference Data Management, Master Data Management en Metadatamanagement als onderdeel van Data Management stellen organisaties in staat de verschillende data silo’s op elkaar af te stemmen en hun beslissingen te verbeteren.
Onze centrale vraag is: “Hoe kan TIBCO digitale transformatie initiatieven hierbij ondersteunen?” Data is het fundament voor operational excellence, customer intimacy en Business Reinvention. De rol van TIBCO’s Unify portfolio is de hoeksteen in een data-driven initiatief voor Operations, Data Governance en Analytics.
- Wat is de impact van data virtualisatie bij het gebruik van het data warehouse?
- Spelen API-led transformaties een rol bij het delen van informatie?
- Hoe kunnen gebruikers sneller inzicht krijgen in alle data van het bedrijf?
- Wat is de noodzaak van de standaardisatie van referentie data?
- Wat is de rol van streaming analytics voor een Data Science omgeving?
Cloud Database Systemen: een vergelijking en blik onder de motorkap
[Bekijk preview] In de afgelopen vijf jaar zijn cloud databasesystemen echt doorgebroken. De cloud maakt het mogelijk om kapitaal investeringen vooraf om te zetten in operationele kosten, zodat men alleen betaalt voor de capaciteit die echt is; en er nooit zorgen hoeven te zijn over capaciteitsproblemen. Daarbovenop “ontzorgen” cloud database systemen in de zin dat het beheer van de database systemen en onderliggende hardware bij de cloud provider ligt. In tijden van personele schaarste is dat een andere belangrijke factor achter het succes van cloud database systemen, die de eventuele nadelen op het gebied van lock-in en zorgen rond privacy en security vaak neutraliseert.
Maar, als eenmaal het besluit is genomen om de database naar de cloud te brengen, welke dan te kiezen? Er zijn op dit moment al een heleboel cloud systemen. Amazon heeft onder andere Aurora, Redshift, Neptune en Athena. Microsoft heeft SQLserver en Cosmos DB. Google heeft onder andere BigQuery. En dan zijn er nieuwe bedrijven bijgekomen, die zich specialiseren in cloud services, zoals Snowflake en Databricks.
Om beter te begrijpen wat de overeenkomsten en verschillen zijn tussen al die nieuwe cloud systemen, zal Peter Boncz ingaan op wat er zich onder de motorkap van deze nieuwe systemen bevindt. De verschillende alternatieven worden technisch ontleed en met elkaar vergeleken.
Enkele van de onderwerpen die aan bod zullen komen:
- Een introductie tot cloud data systemen met een actueel marktoverzicht van de belangrijkste kanshebbers
- Hoe ziet de architectuur van deze verschillende systemen eruit op het gebied van query-engine, data representatie, elasticiteit en data partitionering
- Welke diensten zijn “serverless” en wat is dat precies?
- Kunnen cloud database systemen automatisch data optimaliseren?
- Wat is het economische model, en verdere implicaties daarvan
- Welke ontwikkelingen zullen nog volgen in cloud database systemen in de komende jaren? Een voorbeeld is databases delen in de cloud.
Data Preparation for Machine Learning. Why Feature Engineering Remains a Human-Driven Activity
This session will expose analytic practitioners, data scientists, and those looking to get started in predictive analytics to the critical importance of properly preparing data in advance of model building. The instructor will present the critical role of feature engineering, explaining both what it is and how to do it effectively. Emphasis will be given to those tasks that must be overseen by the modeler – and cannot be performed without the context of a specific modeling project. Data is carefully “crafted” by the modeler to improve the ability of modeling algorithms to find patterns of interest.
Data preparation is often associated with cleaning and formatting the data. While important, these tasks will not be our focus. Rather it is how the human modeler creates a dataset that is uniquely suited to the business problem.
You will learn:
- Construction methods for various data transformations
- The merits and limitations of automated data preparation technologies
- Which data prep tasks are best performed by data scientist, and which by IT
- Common types of constructed variables and why they are useful
- How to effectively utilize subject matter experts during data preparation
Lunchpauze
Het moderniseren van Data Governance voor het tijdperk van Self-Service Analytics
Het vergrendelen van alle gegevens is niet het antwoord aangezien we daarbij teveel van het potentieel van de data zouden verliezen. Data Governance 1.0-top-down en watervalachtige modellen zijn niet langer geschikt voor de nieuwe data paradigma’s.
De presentatie richt zich op de stappen die u moet nemen om uit uw big data duurzame en met de regelgeving conforme waarde te krijgen via (Self-service) Analytics.
U leert:
- Hoe past u data governance aan voor de nieuwe manieren van werken
- Wat is het onderscheid tussen Informatie en Big Data Governance
- Wat is er nodig voor een goed beheer van self-service analytics
- Hoe laat ik de “data literacy” van mijn medewerkers toenemen
- Omgaan met de dynamiek van data on-boarding en datastromen
- Naar policy gebaseerde classificatie en toegang
- Use Case governance t.o.v. Kritieke gegevenselementen
Best Practices in DataOps: Trends, Tips, and Techniques for Creating and Managing Modern Data Pipelines
When it comes to data analytics, you don’t want to know “how the sausage is made.” The state of most data analytics pipelines is deplorable. There are too many steps; too little automation and orchestration; minimal reuse of code and data; and a lack of coordination between stakeholders in business, IT, and operations. The result is poor quality data delivered too late to meet business needs.
DataOps is an emerging approach for building data pipelines and solutions. This session will explore trends in DataOps adoption, challenges that organizations face in implementing DataOps, and best practices in building modern data pipelines. It will examine how leading-edge organizations are using DataOps to increase agility, reduce cycle times, and minimize data defects, giving developers and business users greater confidence in analytic output.
You will learn:
- What is DataOps and why you need it
- The dimensions of DataOps
- The state of DataOps adoption
- DataOps best practices and challenges
Beheersen en ontdekken van de waarde van data middels een data lake en een analytics lab
In de complexe wereld van halfgeleider productie worden dagelijks enorme hoeveelheden zeer gevarieerde data gegenereerd. ASML, wereldleider op het gebied van machines voor de productie van halfgeleiders, implementeert een central data lake waarin data verzameld wordt in een centrale omgeving en die vanuit daar beschikbaar gesteld wordt voor rapportage en analyse. Dit central data lake bevat ook een zogenaamd analytics lab voor gedetailleerde exploratie van data en het faciliteren van data science toepassingen. Het beheersen van deze snel veranderende data is een enorme uitdaging. In deze sessie bespreken we aan de hand van een aantal voorbeelden ASML’s aanpak voor de volgende uitdagingen:
- Hoe kunnen gebruikers, analisten en data scientists informatie in het central data lake ontdekken en vinden zonder te verdrinken in de hoeveelheid en complexiteit van gegevens?
- Hoe borgen we dat gebruikers van het central data lake de data begrijpen en weten waar de data vandaan komt (data lineage)?
- Hoe zorgen we er voor dat de data in het central data lake vertrouwd kan worden (data kwaliteit)?
- Hoe kunnen we als ASML borgen dat toegang tot data in lijn is met eisen van klanten en andere belanghebbenden?
- Welke toegevoegde waarde kan het analytics lab (nog meer) brengen?
Tien praktische richtlijnen voor moderne data-architecturen
Veel organisaties zijn hierdoor tot de conclusie gekomen dat het tijd is voor een nieuwe, toekomstbestendige data-architectuur. Dit is echter gemakkelijker gezegd dan gedaan. Een nieuwe data-architectuur ontwerpen doe je immers niet elke dag. In deze sessie worden tien essentiële richtlijnen gegeven voor het ontwerpen van moderne data-architecturen. Deze richtlijnen zijn gebaseerd op ervaringen met het uitdenken en implementeren van menig nieuwe data-architectuur.
- Welke nieuwe technologieën zijn er momenteel beschikbaar?
- Wat is de invloed op de architectuur van o.a. Hadoop, NoSQL, big data, datawarehouse automation en data-streaming?
- Welke nieuwe architectuurprincipes worden tegenwoordig toegepast?
- Hoe gaan we om met de steeds strengere regels voor data-opslag en analyse?
- Wat is de invloed van cloud platformen?
Tijdgebrek?
Heeft u slechts één dag de tijd om de DW&BI Summit te bezoeken? Maak een keuze uit de onderwerpen en kom op alleen 2 juli of op 3 juli. Het is namelijk ook mogelijk om alleen de eerste dag van het congres of alleen de tweede dag te bezoeken. De onderwerpen zijn zodanig gekozen dat zij op zich zelf staan zodat het ook mogelijk is om dag twee te volgen zonder dat u dag één heeft bijgewoond.
2 juli
Zaal 1 Joe Reis
Zaal 1 Jos van Dongen
Zaal 1 Jaap-Willem Verheij van Wijk
Zaal 2 Keith McCormick
Plenair, Zaal 1
Zaal 2 Wayne Eckerson
3 juli
Zaal 1 Antoine Stelma
Zaal 1 Lackó Darázsdi
Zaal 1 Peter Boncz
Zaal 2 Keith McCormick
Plenair, Zaal 1
Zaal 1 Jan Henderyckx
Zaal 2 Wayne Eckerson
Zaal 1 Jeroen Vermunt
Zaal 1 Rick van der Lans