Datavisualisatie en adresgegevens

Laurens Bakelants - 23 december 2019

Een kaart met geo data op

Hoe goed kunnen de huidige BI-tools om met adresgegeven? Zijn er eventueel bepaalde risico’s verbonden aan het blindelings slepen van data in deze tools? Welke tool kan het beste om met welk type data? Dit zijn slechts enkele vragen die ik ga proberen beantwoorden vandaag.

In deze blog zal ik de 3 voornaamste BI-datavisualisatie tools uit het leaders quadrant van Gartner vergelijken met elkaar. Ik ga van deze tools ook geen plug-ins of andere extra’s gebruiken, maar gewoon de standaardversie die iedereen probleemloos kan downloaden van het internet. De tools die ik vandaag iets meer ga bestuderen zijn PowerBI, Tableau en Qlik (Sense). Ook ga ik enkel gebruik maken van gegevens die een doorsnee bedrijf over een klant heeft (dus geen lengte- en breedtegraad).

Gartner diagram over BI visulaisatie tools
 
Laatst kreeg ik de vraag: “Laurens, zou het mogelijk zijn om eens al onze klanten op een kaart te plotten? Zo kunnen we zien waar al onze klanten liggen en op welke regio’s we eventueel een grotere focus moeten leggen. Dus uiteraard zei ik: “Dit is geen enkel probleem, zodra ik de gegevens heb zal ik ze allemaal mooi op kaart weergeven.” Ongeveer 5 minuten later had ik de gevraagde gegevens in mijn mailbox en ik begon vol goede moed aan deze opdracht. 
Omdat deze gegevens uiteraard vertrouwelijk zijn zal ik een publieke dataset met ziekenhuizen en hun adressen gebruiken, de data die ik kreeg zag er structureel ongeveer hetzelfde uit:

Sample data van soort data
 
Dus ik stak snel enkele proof-of-concepts (PoC) in elkaar zodat ik kon aftoetsen welk van de versies het beste was, zodat ik deze daarna beter kon uitwerken. Ik had een versie in Qlik, Tableau en een in PowerBI gemaakt waarop de gevraagde gegevens vermeld stonden. Ik merkte bij het maken van de kaarten dat er af en toe wel eens een locatie op een onlogische plaats werd geplot. Na een beetje onderzoek en wat tweaken van de gegevens had ik gekozen mijn versie in PowerBI te maken. Dit deed ik omdat je met PowerBI de adressen tot op straat en huisnummer kon plaatsen terwijl Qlik en Tableau maximaal tot op stadsniveau gingen. Ik ging met mijn eerste PoC naar de klant, die tevreden was met de kaart. Na een iets diepere analyse kwamen we erachter dat er enkele gegevens niet geplot waren. Hier was nergens iets van te zien op de kaart en dit was enkel aan het licht gekomen omdat er enkele bekende klanten niet geplot waren.  

Toen ik weer achter de ontwerptafel zat, begon ik nogmaals de gegevens in de drie tools te plaatsen. Bij Tableau kreeg ik rechts onderaan te zien ‘X unkown’ hier kon ik op klikken en zien welke gegevens niet goed waren. Bij Qlik Sense kreeg ik bij het bewerken van gegevens links bovenaan een klein bijna onzichtbaar cirkeltje met een uitroepteken waarbij stond: ‘De data bevat ongeldige punten, gelieve de data te herzien.’ Maar er werd nergens iets gezegd over welke gegevens er niet geplot konden worden. Tot slot werd er bij PowerBI  niets gezegd van melding. Ik besloot de adressen van enkele klanten die niet doorkwamen te bekijken en merkte bepaalde gelijkenissen op. Zo hadden sommige klanten dubbele huisnummers, letters in huisnummers, gebouwnamen in de adresregel…. Het meest voorkomende probleem kwam echter in Brussel voor. Hier mocht je soms straatnamen in het Nederlands laten staan, maar meestal moest je deze vertalen naar het Frans. Een ander probleem is het feit dat PowerBI sommige huisnummers niet goed kan plotten, zo kan een adres met huisnummer 4 soms niet zichtbaar zijn, maar met nummer 5 weer wel.

Naar analogie van mijn eerdere ervaring heb ik de gegevens van de Vlaamse ziekenhuizen eens geplot op een kaart in de drietools. In Tableau heb ik ze éénmaal geplot op basis van stadsnaam en een keer op basis van de postcode. Bij Qlik heb ik de gegevens geplot door gebruik te maken van de stadsnaam, vervolgen heb ik bij PowerBI  de gegevens geplot via de stadsnaam, postcode en de adresregel (straat nr., postcode stad). De resultaten zien er als volgt uit:

Resultaten van het aantal geplotte punten op een kaart per tool per situatie
 

Zoals je op bovenstaande tabel kan zien zijn de basisversies van Tableau en PowerBI beter voor het plotten van GEO-gegevens dan Qlik. Ook merk je dat PowerBI bepaalde plaatsen wel geplot kreeg met de adresregel terwijl de stadsnaam zelf niet geplot kon worden.
Een tweede kleinere dataset die ik heb, gaat over buurthuizen in Brussel. Deze set bevat een straatnaam en nummer in het Frans en Nederlands, maar ook een postcode en een stad. Als ik deze probeer te plotten in PowerBI via hun adresregel dan krijg ik de volgende resultaten:

Het aantal gegevens die geplot kunnen worden met een Nederlands en Frans adres
 
Van de 15 buurthuizen krijg ik puur op basis van hun Nederlandstalig adres slechts 2 resultaten, als we de adresregel naar het Frans vertalen krijgen we negen resultaten. Zeker in tweetalige regio’s zoals Brussel is het dus belangrijk om alle gegevens extra te controleren.

Conclusie

De drie tools gaan redelijk goed om met GEO-gegevens, echter zijn er wel enkele gevaren verbonden. Zo geeft PowerBI niet aan of er bepaalde gegevens missen, Qlik geeft aan dat er gegevens niet geplot worden maar laat niet zien welke dit zijn. Tableau is de enige van de drie die laat zien waar het misgaat. Ook moet je opletten met landen waar meerdere talen actief zijn. Zo kan het vertalen van een straat soms leiden tot het al dan niet plotten van bepaalde punten.

Laurens Bakelants

Laurens inschakelen voor je zaak?