Van data-ontsluiting in Microsoft Fabric naar dashboard in PowerBI.
Facts
Achtergrond: aanleiding opdracht
Elk bedrijf maakt gebruik van een boekhoudsysteem. Dit is belangrijk om de administratie gestructureerd, overzichtelijk en foutloos te laten verlopen. Binnen Forfacts hebben we dit uiteraard ook. Daarbij hebben we als doel om wekelijks volledig geautomatiseerd de urenregistratie van onze werknemers te ontsluiten, om ze vervolgens te verwerken en inzichtelijk te maken in een dashboard. Vanuit het dashboard kan geautomatiseerd een mailing worden verzonden aan medewerkers die nog niet bij zijn met het registreren van hun uren.
Om de benodigde data te ontsluiten van E-Boekhouden, is het gebruikelijk om de door de softwareleverancier opgezette API te gebruiken. Deze is normaal gesproken zodanig ingericht dat je toegang kan krijgen tot al jouw eigen data. Helaas was dit nou net niet het geval bij het door ons gebruikte boekhoudingssysteem (e-boekhouden.nl).
Als gevolg hiervan moesten alternatieve data-ontsluitingstechnieken worden onderzocht, om tóch nog zonder API alle geregistreerde uren van het personeel te extraheren.
Inzicht: probleemstelling en risico’s
Het hiervoor genoemde focust zich vooral op de uitdaging van de data-ontsluiting, maar dit is slechts de eerste component in deze casus. Na het ontsluiten willen wij, via het sterk opkomende Microsoft Fabric, de ruwe data opslaan en vervolgens prepareren voor het semantische model en uiteindelijk PowerBI. Het idee is dat deze keten eens per week automatisch werd geactiveerd om het PowerBI dashboard te voorzien van de nieuwste data.
De data-ontsluiting van de uren gebeurde eerst met handmatige exports. Niet alleen is dit saai en kost dit veel tijd, maar ook kan de export alleen plaatsvinden als de vaste “exporteur” hiervoor tijd heeft. Bovendien kan een export incompleet zijn wanneer de exportinstellingen onjuist zijn, het is daarmee tevens foutgevoeliger.
Probleemstelling: data-ontsluiting urenregistraties verloopt niet volledig automatisch.
Executie: aanpak en uitvoering
De implementatie kent drie componenten: (1) Data-ontsluiting, (2) Opslag & Verwerking, (3) Rapportage.
Data-ontsluiting:
Om zonder API de data te ontsluiten van een website zoals e-boekhouden.nl, is “web-scraping” de meest voor de hand liggende oplossing. Web-scraping kan op verschillende manieren. De aanpak hangt af van de betreffende website. Voor eenvoudige statische websites zijn “HTTP-verzoeken” al voldoende. Voor dynamisch gegenereerde websites is Selenium een logischere oplossing. Selenium is een programmeerbare automatisering en maakt het mogelijk instructies te geven, net als een echt persoon, waarbij je inlogt op e-boekhouden.nl en de data exporteert. Het is vergelijkbaar met PowerAutomate, maar heeft het in deze context veel meer voordelen (kosten, schaalbaarheid, controle en performance).
Omdat het op dít moment niet mogelijk is om Selenium binnen Microsoft Fabric te gebruiken, is er gekozen om Selenium op een Azure Virtual Machine server te “runnen”. Fabric blijft het centrale punt in deze architectuur en maakt verbinding met de Selenium server. De server browset op e-boekhouden.nl en exporteert de data naar Fabric.
Authenticatiegegevens, zoals API-tokens en wachtwoorden, zijn opgeslagen in de Azure Key Vault, zodat alleen toegewezen gebruikers toegang hebben tot gevoelige gegevens. Bovendien voorkomt dit dat wachtwoorden per ongeluk worden gelekt.
Opslag & Verwerking
De ontsloten data worden vervolgens opgeslagen in Lakehouses. Als opslagstructuur hanteren wij de “Medallion architecture”, waarbij er drie Lakehouse lagen zijn: brons (ruw), zilver (opgeschoond), goud (“business-ready”).
Rapportage
Tot slot verbindt de PowerBI rapportage met het semantische model van de “gouden” Lakehouse. Nu is de up-to-date data altijd optijd zichtbaar in het dashboard van Power BI.
Resultaat: eenvoud
- Het proces van wekelijks handmatig boekhoudingsdata exporteren, is vervangen door een geautomatiseerde pipeline die draait binnen Microsoft Fabric;
- Data-ontsluiting met Selenium, draaiende op een prijsoptimaal geconfigureerde Azure Virtual Machine.
#factbuilders
Wij helpen jou meer rendement uit je werkzaamheden te halen.
Andere artikelen
#factbuilders