5 lessen uit de praktijk om (big) data uitdagingen te overwinnen
Ontvang onze verse kennis maandelijks in je mailbox.
Ontvang onze verse kennis maandelijks in je mailbox.
Big data levert bedrijven in de agrofood sector in potentie geweldige inzichten op, zodat besluitvorming en processen kunnen worden verbeterd en bijvoorbeeld de grip op voedselveiligheid kan worden vergroot of voedselfraude kan worden beperkt. Het is echter ook een uitdaging om met de terabytes en petabytes aan data die tegenwoordig binnenkomen de informatie op een snelle en efficiënte manier te verwerken. Terwijl de vraag naar kwalitatieve data analyses en rapportages juist blijft groeien. Het is nog altijd een uitdaging om data slimmer te gebruiken en om te zetten in waardevolle informatie.
Dit zien wij ook in de praktijk terugkomen: bedrijven in de agrofood sector beschikken over een schat aan (big) data, maar doen er wegens gebrek aan prioriteit of kennis en kunde weinig mee. Terwijl data je helpt de juiste besluiten te nemen en het de prestaties van de organisatie verbetert. Maar om deze data op de juiste manier te gebruiken sta je voor een aantal uitdagingen. Uit projecten rondom big data hebben wij een aantal lessen geleerd. En die willen we graag met jou delen.
Het klinkt zo mooi: ongestructureerde en gestructureerde data analyseren. Om dat te kunnen doen moet je toch, op een of andere manier, ook de ongestructureerde data structureren. Al is het maar door ‘tags’ mee te geven aan data elementen om bij het analyseren te weten wat ze betekenen. Dit begint al bij de kolomkoppen in een Excel sheet.
Als je combinaties wilt maken van verschillende datasets is structuur aanbrengen zeker nodig. Zonder context heeft data namelijk geen waarde. Dit wil overigens niet zeggen dat de data uiteindelijk allemaal in een gestructureerde database moet komen. MongoDB is bijvoorbeeld een object- of document-georiënteerde database. Maar ook hier is structuur voor nodig.
Om accuraat in te spelen op vragen en informatiebehoeftes op bijvoorbeeld het gebied van mogelijke voedselveiligheidsrisico’s heb je niet alleen relevante data nodig om te analyseren. Je moet dit ook snel kunnen doen. Door de toenemende hoeveelheid aan complexe informatie en de vraag naar details neemt die behoefte aan snelheid alleen maar toe.
Business Intelligence tools helpen je om sneller analyses uit te voeren omdat je sneller inzicht krijgt in datasets en in relaties tussen oorzaak en gevolg van bijvoorbeeld voedselveiligheidsrisico’s. Het is echter alleen een oplossing wanneer je ook snel grote hoeveelheden data kunt verwerken. Behalve de nodige hardware, die nodig is om deze volumes aan te kunnen, heb je een goede infrastructuur en architectuur nodig.
In andere woorden: je moet in staat zijn om de data efficiënt te verwerken, op te slaan en te analyseren. Daar is niet altijd een uitgebreid serverpark voor nodig, maar je moet wel over voldoende bandbreedte en opslagruimte beschikken en verschillende databases optimaal aan elkaar koppelen. MongoDB kan bijvoorbeeld gemakkelijk gedistribueerd worden, waarbij de data over meerdere computers wordt verspreid om gedistribueerde gegevensverwerking mogelijk te maken.
Ook bij het verzamelen van data is de infrastructuur cruciaal. Denk bijvoorbeeld aan het combineren van data uit databases met die van real-time data van sensoren. Internet of Things (IoT) maakt de uitdaging en de roep om een passende infrastructuur en architectuur alleen maar groter.
Niets is gemakkelijker dan op basis van een heleboel data uitspraken te doen, maar het is moeilijker om betrouwbare analyses te maken die ook echt waarde toevoegen. Daarom is het belangrijk de juiste kennis in huis te hebben om kwalitatieve analyses te maken. Je moet begrijpen waar de data vandaan komt, wat de context is, voor wie de data bedoeld is en hoe je de data moet interpreteren.
In de praktijk blijkt alignment van data elementen cruciaal. In een big data project hebben we bijvoorbeeld gekeken naar hoe vaak bepaalde fruitsoorten in Twitterberichten genoemd werden. Dan zie je bijvoorbeeld al snel dat bijvoorbeeld apple niet altijd eetbaar is, maar dat het in veel gevallen om de smartphone variant gaat.
Allerlei vals positieve berichten moet je er, voor een betrouwbare analyse, toch uit filteren. Dat kan aan de hand van een set beslissingsregels die in een aantal gevallen ook zelflerend gemaakt kunnen worden. Wanneer je bijvoorbeeld rondom voedselveiligheid gegevens van verschillende bronnen combineert is het relevant om bijvoorbeeld fenol en phenol met elkaar in verband te brengen. Hierbij kun je werken met synoniemen of biedt de toepassing van semantische methoden en technieken een waardevolle aanvulling.
Visualisatie helpt enorm bij het verkrijgen van inzicht uit data. Punten plotten op een grafiek is lastig wanneer het gaat om grote hoeveelheden informatie. Stel je voor dat je tien miljoen rijen aan data hebt die je wilt vergelijken en vervolgens op een begrijpelijk manier wilt weergeven. Bovendien wil je eigenlijk alleen die informatie delen die écht betekenis heeft.
Door slim gebruik te maken van datavisualisatie maak je het voor collega’s, klanten of stakeholders eenvoudiger om snel inzicht te krijgen in waardevolle resultaten. Business Intelligence tools ondersteunen visualisatie op een mooie manier. Behalve high-end oplossing als Tableau of SAS zijn er ook laagdrempeliger tools als QlikView en QlikSense die je al goed kunnen ondersteunen bij visualisatie van data.
We merken dat de term big data bedrijven juist vaak afschrikt om er mee te beginnen, maar ook small data is interessant. Kleine datasets bevatten vaak al een schat aan informatie. Vertil je niet en begin klein.
We zien dat het soms lastig is om vooraf de business case te maken, of te wel: wegen al die inspanningen op tegen de baten? Hoe maak ik de case echt tot waarde? Door klein te beginnen kun je stap voor stap je business case uitbouwen en bijsturen waar nodig. Een hoop data verzamelen is één ding, er inzichten uithalen die ook echt toegevoegde waarde hebben voor je bedrijfsvoering is een uitdaging van een andere orde.
Kortom, er liggen voldoende kansen om sneller en eenvoudiger inzicht te krijgen in complexe big datastromen om bijvoorbeeld voedselveiligheid te waarborgen. Maar er zijn meer manieren: bijvoorbeeld door beslisregels op te stellen, databronnen te combineren om risico’s in te schatten en achteruit kijken om de toekomst te voorspellen.
Laat je vrijblijvend adviseren, of ontvang aanvullende informatie over onze ICT-oplossingen. Wij helpen je graag informatievraagstukken om te zetten in de (digitale) groei van jouw organisatie.