In deze stap-voor-stap handleiding zal ik de acties doorlopen die ik heb ondernomen om de gegevens voor te bereiden en te visualiseren via een Tableau Dashboard. Onderweg zal ik inzichten delen uit de sheets die ik zal maken en tot slot zal ik het uiteindelijke dashboard laten zien.
De dataset die voor deze blogpost is gebruikt heet "New York City Airbnb Open Data" op Kaggle(Hier is de link). De dataset bevat advertentieactiviteiten en statistieken voor Airbnb in New York, VS voor 2019.
Om te zien hoeveel opschoning ik kan doen met deze dataset, duik ik eerst in Tableau Prep Builder en kijk ik wat ik...
Na het importeren van de dataset, is dit waar ik mee te maken krijg in termen van velden:
Zoals je kunt zien, heb ik informatie over de hosts, geografische informatie en metrics zoals prijs, aantal reviews en andere gerelateerde velden.
Vervolgens zal ik een schone stap toevoegen aan mijn flow om betere beschrijvingen van mijn velden te krijgen. Hieruit kan ik opmaken dat deze dataset er al schoon uitziet, maar dat er ruimte is voor verdere voorbereiding. Er kunnen bijvoorbeeld enkele nulwaarden worden waargenomen. In de kolommen "last_review" en "reviews_per_month" nemen nulwaarden ~20% van de totale waarden in beslag. Ik zou ze dus moeten filteren .
Snelle tip:
In hetzelfde veld varieert de datum van 2011 tot 2020. 65% van de gegevens bevindt zich tussen 2019 en 2020. Daarom zal ik de data van voor 2019 uitfilteren . Daarnaast heb ik ook een aantal potentiële uitschieters in verschillende velden gezien, maar die laat ik erin.
Nu ik klaar ben met mijn voorbereiding, kan ik een uitvoerblok op mijn stroom zetten en de bijgewerkte versie opslaan voor gebruik in Tableau Desktop voor de gegevensanalyse.
Ik heb het geluk dat onze dataset een goed scala aan datatypes bevat. Ik heb:
Eerst ga ik aan de slag met de datumgegevens. Ik wil de veranderingen zien in het aantal beoordelingen voor alle aanbiedingen over de maanden in 2019. Hiervoor plot ik als volgt een lijngrafiek:
SNELLE OBSERVATIE:
Zoals kan worden waargenomen, is er een scherpe stijging in beoordelingen van mei (~3000) tot juni (~12000) met een scherpe daling tegen juli (~4700). Dit kan te wijten zijn aan het zomerseizoen dat eraan komt en de toestroom van toeristen die in de zomer in New York verblijven. Omdat de dataset eindigt in juli, kunnen we niet zien hoe de trend is voor het einde van het jaar.
Vervolgens kan ik een kaart maken met alle geolocaties van de aanbiedingen in de dataset. Omdat ik de specifieke locaties voor elke aanbieding heb, kan ik ook een dichtheidskaart maken. Met de buurtclassificatie voor de aanbiedingen kunnen we ook een kaart met grenzen maken. De dichtheidskaart is vrij eenvoudig te maken. Maar om het er mooier uit te laten zien, zou wat kaartopmaak nuttig kunnen zijn. Dit is het uiteindelijke uiterlijk van de dichtheidskaart:
Ik heb gekozen voor een donker thema voor het uiterlijk van de kaart omdat ik van mening ben dat de transparantie van de dichtheidskaart het beste werkt in dit formaat, waar de namen van steden en wijken beter leesbaar zijn. Je kunt spelen met de instellingen voor ondoorzichtigheid en grootte met de knoppen Kleur en Grootte in de Markeringenkaart naar wens, lage ondoorzichtigheid betekent meer leesbaarheid.
Snelle tip:
KORTE OPMERKING:
Op de dichtheidskaart is te zien dat de meeste vermeldingen zich in het Manhattan-gebied van New York bevinden, met name in de zuidelijke delen. Een ander zeer dicht gebied is de bovenkant van Brooklyn. De minste aanbiedingen zijn te vinden in Staten Island.
Bovenop de dichtheidskaart, denk ik dat het een goed idee is om een Buurtgroep / Borough Map te maken waar de boroughs duidelijke grenzen hebben. Dit kan worden gebruikt om te filteren in ons dashboard aan het einde. Dit is het uiterlijk van mijn Borough Map die ik heb gemaakt:
Hiervoor heb ik een andere kaartachtergrond gebruikt: "Straten". De Borough Map bevat vijf verschillende waarden en daarom kan ik kleur gebruiken om te categoriseren. Een ander belangrijk punt is dat de gemeenten een geografische rol moeten krijgen. Op deze manier kan Tableau automatisch vormen tekenen op basis van de grenzen van de vijf buurtgroepen van New York. De breedte- en lengtegraadgegevens die in de weergave worden gebruikt, worden gegenereerd door de geografische rol van het veld "Buurtgroep" toe te wijzen.
Nadat ik mijn kaarten heb gemaakt, zijn staafdiagrammen voor vergelijkingsdoeleinden een goede toevoeging aan het uiteindelijke dashboard. Dit is waar gebruikers zichzelf kunnen informeren over wat de gemiddelde prijsklassen zijn voor elk kamertype en kleinere buurten binnen de stadsdelen.
Ik zal twee aparte bladen maken voor het verstrekken van de informatie. Ten eerste. Ik wil de gemiddelde prijzen van elke Airbnb-locatie uitzetten, uitgesplitst naar de individuele buurten in een stadsdeel. Dit is mijn resulterende staafdiagram voor het vergelijken van prijzen binnen stadsdelen:
Ik heb de stadsdelen in dit blad ook gefilterd en van een kleurcode voorzien zodat het overeenkomt met de kleuren van de stadsdelenkaart. Met de filter kan de gebruiker de gewenste gemeente of alle gemeenten selecteren. Daarnaast heb ik ook een Gemiddelde lijn toegevoegd voor elke deelgemeente zodat het vergelijken van gemiddelde prijzen van specifieke buurten met de gemiddelde prijs per deelgemeente makkelijker is.
Snelle tip:
SNELLE OBSERVATIE:
Manhattan heeft de hoogste gemiddelde prijs ($197,98) en Bronx de laagste ($81,73).
Ik ga verder met het maken van een soortgelijke weergave. Alleen deze keer wil ik de gemiddelde prijzen vergelijken voor elk kamertype binnen elk stadsdeel. Hier is de resulterende staafdiagram:
De gemeenten zijn opnieuw met kleur gecodeerd voor categorisatie. Wat betreft de filter, de gebruiker kan het gewenste kamertype of alles selecteren om vergelijkingen te maken tussen de stadsdelen.
Ik denk dat ik alle grafieken heb gemaakt die ik nodig heb om een informatief dashboard te maken van de kaarten en grafieken die ik heb gemaakt over de Airbnb gegevens van New York. Hiervoor maak ik een rechttoe rechtaan dashboard zonder oogverblindende visuele elementen. Gewoon een eenvoudige omgeving om mijn bevindingen te communiceren. Hier is een screenshot van mijn resulterende dashboard en de link naar het dashboard in mijn Tableau Public account:
De borough map wordt gebruikt als een filter in het dashboard om alleen resultaten van de geselecteerde borough over de grafieken te tonen. Als er geen zijn geselecteerd, worden alle resultaten weergegeven.
Dit dashboard bevat elke weergave die ik heb gemaakt. Het schetst welke gebieden van New York dichter bevolkt zijn met Airbnb locaties, toont het aantal recensies voor elke advertentie in het jaar 2019 en beschrijft en vergelijkt gemiddelde prijzen voor kamertypes tussen de stadsdelen en vergelijkt gemiddelde prijzen van advertenties in elke buurt van de stadsdelen.
Uit dit dashboard zou je de meest geschikte buurt moeten kunnen kiezen voor je volgende Airbnb locatie op je volgende vakantie in het buitenland 😉