DDBM Blog

Geen AI zonder Data (Engineers)

Geschreven door Eloi Sanchez | 15 Aug, 2025
De hype in kunstmatige intelligentie (AI) is een realiteit. Op dit moment voelt het alsof je achterloopt en verouderd raakt als je bedrijf AI niet implementeert voor zowel interne als externe producten. Daarom overweeg je misschien om zelf aan de slag te gaan met de kracht van AI. Er is echter een cruciaal ding (en rol) waar je rekening mee moet houden!
 

Wat heeft AI nodig?

Allereerst is er iets dat duidelijk moet zijn, AI en Machine Learning (ML) modellen zijn niet gevoelig. Het zijn geen slimme, onafhankelijke wezens die de perfecte antwoorden op al je vragen zullen genereren, zelfs als ze goed zijn ontworpen. In plaats daarvan moeten deze modellen, ongeacht hun architectuur, voldoen aan bepaalde parameters (wat we training noemen) die moeten worden afgestemd op een manier die de juiste antwoorden geeft op de vragen die je van plan bent te stellen. In het geval dat je een voorgetraind model gebruikt, zal het fungeren als een tussenpersoon die bepaalde soorten gegevensbronnen ophaalt om hun antwoord te genereren. Ongeacht de specifieke situatie, kun je zien dat gegevens fundamenteel zijn voor elk model om te werken
 

Het belang van Data Engineers

Dus, nu we een solide basis hebben gelegd van schone en bruikbare data als het fundamentele blok dat AI-modellen aandrijft, moeten we ons afvragen wat we moeten doen om je bedrijf klaar te stomen voor AI. Hier verschijnen de Data Engineers! Dit is de rol die alle processen en infrastructuur creëert die nodig zijn om je data te benutten. Hier is een mooi diagram dat alles samenvat:
 
 
Laten we de stappen waarmee we rekening moeten houden wat gedetailleerder analyseren.
 

Opname

Om gegevens voor je modellen te hebben, moeten deze worden opgenomen. Er zijn meerdere geldige manieren om dit te doen, of het nu met aangepaste scripts is, betaalde software (zoals Fivetran), open software (zoals data load tool). In deze stap komen de gegevens vanuit uw bronnen (Salesforce, Exact Online, Stripe...) in uw database. We kunnen hier echter niet stoppen! Deze gegevens komen waarschijnlijk in een onbewerkt formaat binnen en moeten worden verwerkt om bruikbaar te worden.
 

Transformatie

Hier komt een combinatie van kleine stappen die je ruwe gegevens transformeren in georganiseerde, begrijpelijke en direct bruikbare gegevens. Ook hier kunnen veel tools en methodologieën worden gebruikt om deze stappen uit te voeren. Er zijn tools met veel code (zoals dbt) en alternatieven zonder code (zoals Alteryx of Coalesce) waarmee je de gegevenstransformatie op een georganiseerde en schaalbare manier kunt uitvoeren. In wezen kun je dit zien als een raffinageproces van een grondstof, waarbij je een ruw gesteente (je ruwe gegevens) extraheert en transformeert om de specifieke verbinding te verkrijgen waarnaar je op zoek bent (je gegevens zijn schoon en klaar voor gebruik).
 

Orkestratie

De planning is meestal ook essentieel, omdat je misschien wilt dat je model wordt bijgewerkt met de meest recente gegevens. Dit specifieke onderdeel wordt meestal pipeline orchestration genoemd en, in het kort, het omvat de infrastructuur die nodig is zodat je ingestie- en transformatiestappen volgens een schema worden getriggerd, zodat de gegevens die je BI-gebruikers of modellen gebruiken up-to-date zijn.
Tot slot, als we eenmaal een set goed gedefinieerde, georganiseerde en betekenisvolle tabellen met actuele informatie hebben, zijn we klaar voor onze Data Scientists om modellen te ontwikkelen die intern of extern gebruikt kunnen worden.
 

De semantische laag

Als je echter de typische out-of-the-box Large Language Models wilt gebruiken die veel bedrijven leveren, is er een extra tussenlaag nodig tussen je uiteindelijke gegevens en het model. Deze laag wordt de Semantische Laag genoemd en kan verschillen afhankelijk van het specifieke model dat je probeert te gebruiken. Hoe dan ook, het doel van deze Semantische laag is altijd hetzelfde: het verschaft context aan het model zodat het je gegevens kan begrijpen en er doorheen kan zoeken om je antwoorden te vinden. Meestal bevat het informatie zoals definities van metrieken, domeinspecifieke kennis of beschrijvingen van tabellen en kolommen.
 

Conclusie

Voordat je met AI aan de slag gaat, heb je dus AI-ready data nodig en om alle bovenstaande stappen uit te voeren heb je Data Engineers nodig. Data Engineers vormen de basis van elke datastack. Zij zorgen ervoor dat dataproducten (dashboards, voorspellende modellen, chatbots...) werken. Zonder data (engineers) zijn er geen dataproducten.
Tenzij je op een plek bent waar een solide data-infrastructuur is geïmplementeerd en goed wordt onderhouden, kun je het wel vergeten om iets te bouwen dat met AI te maken heeft. In plaats daarvan moet je je richten op het bouwen van een competent datateam dat je kan voorzien van AI-ready data. Pas dan kun je gaan nadenken over mooie dashboards, modellen of tools die je aan je klanten of je C-suite kunt laten zien.
Want goede data is niet alleen een good-to-have als je met AI werkt, het is essentieel.
Als je je bedrijf een niveau hoger wilt tillen met AI en je weet niet zeker of je datastack er klaar voor is, neem dan contact met ons op!