De datamesh: een gedistribueerde data-architectuur
Vanwege programma’s als digitale transformatie en de datagedreven organisatie neemt het belang van data toe. Organisaties willen ‘meer doen met data.’ Hun bestaande IT-landschap is vaak niet toereikend, dus er moet iets veranderen. Vele zoeken de oplossing in datalakes, datahubs en datafabrics, maar een data-architectuur die zeker ook de moeite waard is, is de datamesh. Terwijl datawarehouses, datalakes en datahubs primair centralistische en monolithische oplossingen zijn, is de datamesh een gedistribueerde oplossing. De data-architectuur wordt niet opgedeeld op basis van de aard van de toepassing, maar op basis van bedrijfsdomeinen.
De opdeling is niet meer transactionele systemen versus analytische-systemen. Hierdoor zullen klassieke verantwoordelijkheden binnen een IT-organisatie drastisch verschuiven. Bijvoorbeeld, single-domain engineers verantwoordelijk voor de transactionele systemen zullen ook verantwoordelijk worden voor de interfaces die ten behoeve van de organisatie analytische mogelijkheden bieden.
- De praktische problemen van centralistische en monolithische data-architecturen
- Verschillen tussen datamesh en datafabric
- Van service-interface naar data-product
- Het belang van een foundation, ofwel data infrastructure as a platform
- Het verschil tussen een single-domain en hyper-domain datamesh
- De rol van datawarehouses, datalakes en datahubs in een datamesh
Fast Data - concepten, architectuur en technologie van streaming analytics
Streaming Analytics (ook wel Fast Data processing) wordt een steeds populairder onderwerp binnen de financiële dienstverlening, marketing, het internet of things en de gezondheidszorg. Organisaties willen in real-time reageren op gebeurtenissen zoals clickstreams, transacties, logs en sensordata. Een kenmerkende streaming analytics-oplossing volgt een ‘pipes and filters’-patroon dat bestaat uit drie hoofdstappen: het detecteren van patronen op onbewerkte eventdata (Complex Event Processing), het evalueren van de uitkomsten met behulp van business rules en machine learning-algoritmen, en het beslissen over de volgende actie. De kern van deze architectuur is de uitvoering van voorspellende modellen die werken op enorme hoeveelheden nooit eindigende datastromen.
Maar met kansen komt complexiteit. Als je overschakelt van batch naar streaming, worden tijdgerelateerde aspecten van de gegevens ineens belangrijk. Wil je de volgorde van events bewaren en de garantie hebben dat elke event maar één keer verwerkt wordt? In deze lezing zal ik een architectuur voor streaming analytics-oplossingen presenteren die veel use cases omvat, zoals bruikbare inzichten in de detailhandel, fraudedetectie in de financiële sector, log-parsing, verkeersanalyse, fabrieksgegevens, het IoT, en andere. Ik zal een aantal architectuuruitdagingen bespreken die zich zullen voordoen bij het omgaan met streaming data, zoals latency issues, event time versus server time, en exactly-once processing. Tenslotte bespreek ik enkele technologische opties als mogelijke implementaties van de architectuur.
Lees minderAgile model-driven data warehouse development: A client success story with Datavault Builder
• Their journey to a better, faster, more structured and scalable data and information management environment using Datavault Builder
• How the model-driven development platform of Datavault Builder led to outstanding time-to-market results
• How the client increased transparency with Data Lineage and deployment module enabled a flawless deployment pipeline
Ervaringen met embedded BI-toepassingen in customer-facing applicaties
Nagenoeg alle organisaties hebben ervaring met het ontwikkelen van traditionele BI-toepassingen, zoals dashboards en rapporten voor medewerkers. Maar het ontwikkelen van embeddded BI-toepassingen die gebruikt worden door klanten en toeleveranciers als onderdeel van online applicaties is onbekend terrein. Customer-facing BI-toepassingen kunnen ingezet worden om bijvoorbeeld de time to market te versnellen, de klanttevredenheid te verhogen en een groter bereik te realiseren.
Dit soort toepassingen vereist wel een andere ontwikkelaanpak en de inzet van andere technologie. In deze sessie komen onder andere de verschillende bouwstenen aan bod zoals web embedding, secure custom portal, SAAS/COTS embedding, embedding van real-time en interactieve beslispunten en action-oriented dashboards. Het belang van schaalbare cloudgebaseerde database servers, zoals Google BigQuery en Amazon RedShift, Snowflake en Starburst zullen ook ter sprake komen.
Topics:
- De vijf niveaus van Embedded BI
- Architectuuropties: serverless of niet, real-time en batch, lambda en kappa
- Democratisering van insights door middel van customer-facing BI-toepassingen
- Succesvolle voorbeelden van embedded BI
- Vier belangrijke elementen: de database en de infrastructuur, het analytics platform, software development resources en de data product eigenaar.
Lunchpauze
Continue waardecreatie vanuit een incrementele DWH-architectuur
Met wisselend succes zijn pogingen gedaan tot het opzetten van een datawarehouse binnen het pensioenbedrijf. Met een grootschalig kwaliteitsonderzoek naar relevante administraties in 2009 ontstond een nieuwe urgentie om met data aan de slag te gaan, waarbij data-integratie een centrale plaats kreeg.
Aangezien een dergelijke investering bedrijfskundig gezien een lange levensduur moet kunnen doorstaan – er waren nog geen (grootschalige) cloudoplossingen – was duurzaamheid een van de ontwerpprincipes. Naast dit principe waren ook flexibiliteit, betrouwbaarheid, beschikbaarheid en herhaalbaarheid belangrijke ontwerpprincipes. Het ontwerp is opgezet door het team dat de omgeving moest realiseren. In een periode van zes weken is een prototype gebouwd op basis van verschillende methoden en technieken. Dat heeft een ‘grand high level design’ opgeleverd voor het datamodel en de technische oplossing voor de omgeving, waarbij gekozen werd voor een iteratieve ontwikkelstrategie.
Na de realisatie van het kwaliteitsonderzoek en het bijbehorende in control statement, is de omgeving verder uitgebreid. Dat was belangrijk voor uitvoering van portfolio-analyses, diepgaande kwaliteitsanalyses, operationele aansturing en fundering voor de migratiestraat om klanten te selecteren en (commercieel) te migreren naar de nieuwe productproposities. In 2018 is dezelfde data-omgeving verder uitgebreid voor de analyse en implementatie van nieuwe wetgeving. Nu wordt de omgeving in gebruik genomen voor data science activiteiten. Zo heeft deze omgeving zijn tienjarige bestaan gevierd en vele strategische, tactische en operationele doelen kunnen voorzien van data die nodig waren om tot gewenste resultaten te komen.
- Opzetten van een datafundament voor verschillende datadoelen.
- Grand Design met iteratieve implementatie van de data-omgeving.
- Datawarehousing als basis voor gestructureerde analyses en dataleveringen.
- Business Intelligence toepassing voor (dynamische) rapportages voor besluitvorming tijdens processen.
- Agile aanpak in de teamsamenstelling (analisten, (data) engineers, functioneel beheerders).
- Continue waardecreatie door ontwikkelen op bestaande data-omgeving.
Tijdens de sessie zal Mark van der Veen zijn ervaringen delen hoe waarde te halen vanuit de initiële opzet van de dataomgeving.
Lees minderEmbedding Data Science in het Data Platform
In de afgelopen jaren hebben vele organisaties geïnvesteerd in het experimenteren met Data Science, voorspellende modellen en Analytics. Vaak zien we dat deze modellen als tijdelijke ‘point solutions’ in de business worden gebruikt, met weinig aandacht voor support en met veel handwerk. De volgende uitdaging is om te bewegen van experimenteren naar operationaliseren: “Hoe de modellen en gerelateerde data science activiteiten te verplaatsen naar een beheerst IT data- en applicatielandschap.” We doen dit om een nog wijder verspreid, en belangrijker, geoperationaliseerde data omgeving binnen de organisatie te realiseren. Bovendien helpt dit om de Data Gedreven ambitie nog nadrukkelijker te adresseren.
In deze sessie zullen we u meenemen in de reis van ambitie naar operationaliseren, de Architectuur, een aantal belangrijke keuzes en hoe te migreren naar zo’n omgeving. We gaan in op de unieke uitdagingen, veel hands-on en onze lessons learned.
- Data Platform: in de cloud of niet?
- Niet alleen focus op Technologie, maar ook op Organisatie.
- Migratie & Integratie van data in de gehele omgeving.
- Focus op business waarde.
- We delen onze ervaringen.
- De Data Gedreven ambitie.
Guidelines for Migrating Your Data Warehouse to the Cloud
Many companies today are looking to migrate their existing data warehouse to the cloud as part of an a data warehouse modernisation programme. There are many reasons for doing this including the fact that many transactional data sources have now moved to the cloud or the capacity of an on-premises data warehouse has been reached with another project looming. Whatever the reason, data warehouse migration can be a daunting task because these systems are often five or ten years old. A lot may have happened in that timeframe and so there is a lot to think about. There are also a lot of temptations and decisions you can make that can increase risk of failure. This session looks at the what is involved in migrating data warehouses to the cloud environment, what options you have and how a migration can cause changes to data architecture.
- Why migrate your data warehouse to the cloud?
- The attraction of cloud based analytical DBMSs and data platforms
- Should you just migrate, re-design, switch DBMSs or do all of this?
- What are the options and their pros and cons when migrating a data warehouse to the cloud?
- How can you de-risk a data warehouse migration project before you migrate anything?
- Steps involved in migrating an existing data warehouse to the cloud
- Dealing with cloud DW migration issues such SQL differences
- How will migration affect data staging, ETL processing and data architecture?
- Integrating data science into a cloud-based data warehouse
- Training and deploying machine learning models into your cloud analytical database
- Integrating cloud-based data warehouses, data science and streaming with your BI tools.
Would you let AI do your BI?
AI is everywhere. Its early invasion of everyday life – from dating to policing – has succeeded beyond its proponents’ wildest dreams. Analytics and machine learning built on “big data” feature daily in the mainstream media.
In IT, BI and analytics vendors are adding artificial intelligence to enhance their offerings and tempt managers with the promise of better or faster decisions. So, how far could AI go? Will it take on a significant proportion of decision making across the entire enterprise, from operational actions to strategic management? What would be the consequences if it did?
In this session, Dr. Barry Devlin explores the challenges and potential benefits of moving from BI to AI. We explore its use in data management; its relationship to data warehouses, marts, and lakes; its emerging role in BI; its strengths and weaknesses at all levels of decision-making support; and the opportunities and threats inherent in its two main modes of deployment: automation and augmentation.
What you will learn:
- Where and why AI has been incorporated into today’s BI and analytics products
- How data preparation and governance benefit from AI
- What AI offers to existing data warehouses and lakes
- The important difference between automation and augmentation
- The dangers of thoughtless automation and benefits of well-considered augmentation
- Ethical considerations in adopting AI in enterprise decision making.
Overzicht van het Open Energy Data Platform (OSDU)
In september 2018 is de ontwikkeling van het OSDU Data Platform gestart door de Open Group. Het OSDU Forum is gestart als een standaard dataplatform voor de olie- en gasindustrie, dat silo’s zal verkleinen en data in het centrum van de exploratie community zal plaatsen. Alle soorten gegevens (gestructureerd en ongestructureerd) van olie- en gasexploratie, ontwikkeling en boorputten worden in dit ene OSDU Data Platform geladen. De data zijn toegankelijk via één set API’s; enkele voor datatypes geoptimaliseerde API’s zullen later worden toegevoegd. Het platform maakt veilige, betrouwbare, wereldwijde en performante toegang tot alle data over de ondergrond en boorputten mogelijk. Het fungeert als een open, op standaarden gebaseerd ecosysteem dat innovatie stimuleert.
Op 24 maart 2021 werd de eerste operationele release gelanceerd op de publieke cloudplatforms van Amazon, Google en Microsoft. Later in 2021 zullen olie- en gasproductiegegevens en gegevens van nieuwe energiebronnen, zoals wind- en zonneparken, waterstof, geothermische energie en CCUS, worden toegevoegd aan dit ene, op open source gebaseerde energiedataplatform. Het OSDU-gegevensplatform fungeert als een ‘system of record’ en is dus de ‘master’ van die gegevens. Deze sessie bespreekt de uitdagingen die gepaard gaan met het opzetten van een dergelijk uitdagend project en platform en de opgedane ervaringen.
- Samenbrengen van alle energiebrongerelateerde data in één OSDU Data Platform resulteert in gemakkelijke toegang voor AI-gebaseerde toepassingen.
- De voordelen van een open source- en real-time-gebaseerd dataplatform.
- Wat is de waarde van een ‘System of Record’?
- Eén set API’s, en datatypes geoptimaliseerde API’s, voor toegang tot alle datatypes; applicaties die overal geïnstalleerd kunnen worden.
- Het OSDU Data Platform is metadata-gestuurd.
Allianz Benelux Industrial Platform Industrialisation Program: BI on Hybrid Cloud
Topics covered include:
1. Automating an Oracle to Snowflake migration project.
2. Managing a Data Vault architecture that is growing in size and complexity.
3. How WhereScape Data Warehouse Automation performs in comparison to Allianz’s homegrown solution.
Datastrategie volgens het DMBoK
In een steeds complexer wordende en onderling verbonden wereld ontstaat toenemende behoefte aan autonome systemen die de mogelijkheden van menselijk beheer te boven gaan. Swarm Intelligence systemen vertrouwen op opkomende intelligencetechnieken voor hun probleemoplossende methoden. Beslissingen die uit deze intelligente systemen voortvloeien, zijn afhankelijk van de gegevens in uw organisatie. Het implementeren van datakwaliteit leidt tot betere data. Maar weet u of de data geschikt zijn voor het doel? Worden de gegevens in de juiste context gebruikt binnen uw BI-systemen?
Een datastrategie is nodig om uw organisatie in staat te stellen op feiten gebaseerde beslissingen te nemen met behulp van datageletterde medewerkers, ondersteund door intelligente systemen. Gamifaction en Data Literacy zijn bedoeld om uw datastrategie uit te leggen. Peter Vieveen leidt u door het proces van het definiëren van zo’n datastrategie aan de hand van het Data Management Body of Knowledge en vertelt hoe u gamification en data literacy kunt gebruiken om de datastrategie uit te leggen aan uw organisatie.
- Concrete aanpak voor een datastrategie
- Het belang van gamification bij een datastrategie
- De vier pijlers van datawijsheid onder gamification
- Succesvol implementeren van de datastrategie met de kennisgebieden van DMBoK
- Ervaringen met het spel Data Mollen voor het opstellen van een datastrategie.
Lunchpauze
Fysiek datamodelleren in een ‘modern datawarehouse’ op basis van Snowflake of BigQuery
Rond 2015 begonnen Nederlandse bedrijven met het migreren van on-premise datawarehouses naar de public cloud. Het is daarbij achter niet altijd vanzelfsprekend dat de fysieke datamodellen die we op basis van deze technologie bouwen exact hetzelfde blijven als we in de on-premise wereld gewend zijn. De nieuwe technologische mogelijkheden maken namelijk niet alleen een nieuwe aanpak mogelijk, maar kunnen ook een anti-pattern zijn binnen bestaande modelleringstechnieken als Kimball of Data Vault. Of ze vragen om een net wat andere aanpak van deze technieken. Het doel van deze sessie is om u inzicht te geven in de (on)mogelijkheden op dit gebied, kijkende naar hoe dit praktisch aangepakt kan worden binnen een oplossing als Snowflake of Google BigQuery.
Voorbeelden van fysieke datamodel onderwerpen die we behandelen zijn:
- Het gebruik van een semi-structured data type als VARIANT in Snowflake: de enabler voor een goede ‘separation of concerns’ tussen efficiënt data opslaan en de schema-on-read laag of Data Vault satellieten.
- De herintroductie van dimensionele, gedenormaliseerde structuren in de integratielaag als we ook een historische staging laag gebruiken.
- De (on)mogelijkheden van partitionering / clustering in BigQuery / Snowflake en waarom deze goed opzetten essentieel is voor schaalbare performance en kosten.
- Het wel of niet gebruiken van hash keys versus integers als surrogaat sleutels.
Highlights van deze sessie
- Wat is een ‘moderne manier van datawarehousing’ en hoe verschilt deze van een klassieke aanpak?
- Wat is de functionele rol van elk van de vier lagen van het moderne datawarehouse?
- Wat zijn de belangrijkste voor- en nadelen van de meest gebruikte cloud analytische databases: Snowflake, Google BigQuery, Amazon Redshift and Azure Synapse
- Wat zijn geschikte fysieke datamodellerings technieken om in te zetten per datawarehouse laag (met een focus op Snowflake en BigQuery) en waarom?
- Lessons learned in Snowflake en BigQuery: wat werkt wel en wat niet bij de fysieke implementatie van deze datamodellen?
De datakeuken van het RIVM: Van teststraat tot Corona-dashboard
Op 27 februari 2020 werd in Nederland voor het eerst bij een patiënt het SARS-CoV-2 virus vastgesteld. Al snel werd het belang duidelijk van hoogwaardige data uit de gehele zorgketen bij de bestrijding van de pandemie. Iedereen doet mee: GGD, VWS, RIVM, laboratoria, ziekenhuizen, zorginstellingen, huisartsen, patiëntenfederaties, ICT-leveranciers, enzovoort.
In deze presentatie wordt een kijkje gegeven in de datakeuken van het RIVM. Wat waren de uitdagingen bij het verzamelen van alle ingrediënten en het op smaak brengen en het opdienen op het (dash)bord? Een belangrijk stuk keukengerei daarbij was in elk geval de snelkookpan. Deze sessie gaat in op de ervaringen die zijn opgedaan tijdens de ontwikkeling van het Corona-dashboard en benodigde systemen onder hoge druk en waarbij heel Nederland meekijkt.
- Overzicht van de zorgketen en bijbehorende datastromen.
- Tools en technieken voor harmonisatie en genereren van output bij RIVM.
- De rol van open data en FAIR principes.
- De eerste ervaringen met datavirtualisatie.
- Overzicht van data voor het Corona-dashboard.
Richtlijnen voor het ontwerpen van duurzame data-architecturen
Duurzame data-architecturen zijn nodig om het hoofd te bieden aan de veranderende rol van data binnen organisaties en om te profiteren van de nieuwe technologieën en inzichten. Een duurzame data-architectuur is geen data-architectuur die slechts de huidige en alle nieuw geïdentificeerde vereisten ondersteunt, maar een die lang kan overleven, omdat deze eenvoudig is aan te passen en uit te breiden. Als de vereisten voor datagebruik veranderen, kan een duurzame data-architectuur zich aanpassen zonder dat er ingrijpende herontwikkelings- en heropbouwoefeningen nodig zijn. Deze architecturen passen zich aan de veranderende omgeving aan.
Voor het ontwikkelen van duurzame architecturen bestaan geen magische producten. Meerdere productsoorten zijn nodig om dit te realiseren. Tevens zullen andere ontwerpprincipes toegepast moeten worden en bepaalde heilige huisjes zullen eraan moeten geloven. In deze sessie wordt ingegaan op de eisen aan duurzame data-architecturen en hoe deze ontworpen en ontwikkeld kunnen worden.
- De toegevoegde waarde van data architecture automation tools
- Zeven eisen aan duurzame data-architecturen: definitie onafhankelijk, technologie onafhankelijk, runtime-platform onafhankelijk, distributie onafhankelijk, architectuur onafhankelijk, ontwerpprincipe onafhankelijk en metadata onafhankelijk
- Ontwerpregels voor duurzame transactionele systemen
- Leent IT-ontwikkeling zich voor automation?
- Een metadata-architectuur als onderdeel van een duurzame data-architectuur
- Wat is de rol van een datalake, datahub of datawarehouse in een duurzame data-architectuur?
How to Revamp your BI and Analytics for AI-based Solutions
As the pandemic has proven, digital transformation is possible—and at speed. Many more aspects of business operations have moved online or have enabled remote or no-touch access. This evolution has generated another growth spurt of “big data”, from websites, social media, and the Internet of Things (IoT). With new customer behaviour likely to stick after the pandemic and working from home remaining an important factor, novel approaches to decision-making support are an increasingly important consideration for many organisations.
In this context, the recent growth in interest in and focus on the use of artificial intelligence (AI) and machine learning (ML) across all aspects of business in every industry and government raises important questions. How can AI/ML be applied at management levels in support of decision making? What new possibilities or problems does it present? How far and how fast can businesses move to benefit? What are the downsides?
The seminar
AI, combined with big data, IoT and automation, offer both the threat and the promise of revolutionising all aspects of IT, business and, indeed, society. In this half-day session, Dr Barry Devlin explores what will enable you to take full advantage of emerging AI technology in your decision-making environment. Starting from the familiar worlds of BI and analytics, we position traditional and emerging BI and analytics tools and techniques in the practical application of AI in the business world. Extrapolating from the rapid growth of AI and IoT in the consumer world, we see where and how it will drive business decision making and likely impact IT. Based on new models of decision making at the organisational and personal levels, we examine where to apply augmentation and automation in the roll-out of AI. Finally, we address the ethical, economic and social implications of widespread adoption of artificial intelligence.
Learning objectives
- A comprehensive architectural framework for decision-making support that spans from BI to AI
- A brief primer on the evolution, key concepts, and terminology of AI
- Understanding the relationship between “big data” / IoT / social media and AI /ML and how it drives business value
- Approaches to applying AI to decision making
- Augmentation vs. automation of decision making
- How AI, social media, and IoT impact the IT department
- New technology solutions for business applications using AI and IoT, including embedded BI and edge analytics / social media
- How to evolve today’s BI to future AI-based solutions
- Ethical, economic, and social considerations for using AI to support decision making.
Intended for you
This seminar is of interest to all IT professionals and tech-savvy businesspeople directly or indirectly involved the design, delivery, and innovative use of decision making support systems, including:
- Enterprise, systems, solutions and data architects in data warehouse, data lakes, BI and “big data”
- Systems, strategy and business intelligence managers
- Data warehouse, lake and decision support systems designers and developers
- Tech-savvy business analysts and data scientists.
Course Description
We will send the course materials and meeting instructions well in advance as well as the invitation with hyperlink to join us online. The seminar will start at 09:00 and lasts until 13:00. The online meeting will be available at least one half hour earlier so please log in timely in order to check your sound and video settings beforehand.
- Architectural Framework and Models for Decision-Making Support
- Conceptual and logical architecture for information use in decision making
- How businesspeople really make decisions and take actions
- Considerations beyond rational choice theory and cognitive biases
- Organisational models for decision making / action taking
- Architectural considerations—from traditional BI to operational analytics
- Applying AI to Decision Making: Top-Level Considerations
- A brief primer on AI terminology, techniques such as artificial neural networks, and emerging approaches
- From training to operational use—data and technology options
- Automation vs. augmentation—the key choice in applying AI
- AI considerations for operational, tactical and strategic decision-making
- Positioning AI in relation to Data Warehouses, Lakes, and other constructs
- Applying AI to Decision Making: The Devil in the Detail
- AI in information preparation and governance
- AI in BI and analytics tools
- Model management
- Centralisation vs distributed processing approaches
- Migrating from BI to AI—key steps and options
- Building the Future of Decision Making with AI—Key Considerations
- Ethical considerations for analytics and AI in business
- Specific ethical concerns for AI-driven decision making
- The dangers of surveillance capitalism
- Wider ethical concerns for society
- Potential and possible impacts of AI on the economy and employment.
Tijdgebrek? Losse dagen en video opnames
Heeft u slechts één dag de tijd om de DW&BI Summit bij te wonen? Maak een keuze uit de onderwerpen en volg alleen 30 juni of 1 juli. De onderwerpen zijn zodanig gekozen dat zij op zich zelf staan zodat het ook mogelijk is om alleen de eerste dag van het congres te volgen óf om dag twee te volgen zonder dat u dag één heeft bijgewoond. Deelnemers aan het congres hebben bovendien nog enkele maanden toegang tot de video opnames dus als u een sessie moet missen, is er geen man overboord.
30 juni
Plenair Bas Geerdink
Plenair Ron van Braam, Guido de Vries
Plenair Marc de Haas
Plenair
Plenair Mark van der Veen
Plenair Hans Pannekoek, Gertjan van het Hof
1 juli
Plenair Jan Doumen
Plenair
Plenair Rogier Werschkull
Plenair Jeroen Alblas, Martijn van Rooijen
Plenair Rick van der Lans
Workshop