Publicité
Que diriez-vous si je vous disais que vous avez les outils à votre disposition pour faire des recherches révolutionnaires et bouleversantes? Eh bien, oui, et je vais vous montrer comment.
Les gouvernements, les établissements universitaires et les organismes de recherche à but non lucratif publient des tableaux remplis de données dans le domaine public. Sans que quiconque utilise ces informations, sa véritable valeur ne sera jamais connue. Malheureusement, peu de gens ont la perspicacité, les compétences ou les outils pour prendre les données et faire des corrélations intéressantes entre des informations apparemment non connectées.
Contexte
Une grande partie de la recherche que je fais pour mon propre blog consiste à fouiller dans ce qui est connu sous le nom de toile invisible Les 12 meilleurs moteurs de recherche pour explorer le Web invisibleGoogle ou Bing ne peuvent pas tout rechercher. Pour explorer le Web invisible, vous devez utiliser ces moteurs de recherche spéciaux. Lire la suite
, pour découvrir des données qui ont été rendues publiques, mais cachées moteurs de recherche Les 5 moteurs de recherche les plus avancés du Web Lire la suite dans une base de données en ligne. C'est le web profond TorSearch veut être Google pour le Deep WebTor est un service caché et fait partie du Deep Web. TorSearch est un nouveau moteur de recherche anonyme que son fondateur Chris MacNaughton veut faire du «Google de Tor». Lire la suite et il regorge de données précieuses. Très souvent, je tombe sur des pages Web remplies de données parmi les plus précieuses sur des sujets qui couvrent toute la gamme, des données de recensement aux études épidémiologiques sur les maladies rares. J'ai constamment de nouvelles idées sur la façon d'essayer de corréler ces sources de données disparates en utilisant divers outils - et l'un des outils les plus précieux que j'ai trouvé est la requête Web à l'intérieur de Microsoft Exceller.Recherche de corrélations de données intéressantes
Ce que je vais vous montrer aujourd'hui est un exemple de la façon dont vous pouvez utiliser Excel Web Queries pour extraire des données de différents sites Web et les représenter les uns par rapport aux autres afin de rechercher des corrélations potentielles Les données.
La façon de commencer un exercice comme celui-ci est de formuler une hypothèse intéressante. Par exemple - pour garder les choses intéressantes ici - je vais postuler au hasard que les taux d'autisme montent en flèche aux États-Unis sont causés soit par des inoculations de vaccins, soit par la présence croissante de champs électromagnétiques chez et autour des enfants, tels que les cellules Téléphone (s. C'est une hypothèse folle que vous trouverez sur la plupart des sites Web de théorie du complot, mais c'est ce qui rend cela amusant. Commençons donc, d'accord?
Tout d'abord, ouvrez Excel, passez à l'élément de menu de données et recherchez l'icône «À partir du Web» dans le ruban de menu.
Voici ce que vous utiliserez pour importer les différents tableaux de données des nombreux sites Web qui les ont publiés.
Importation de données Web dans Excel
Donc, dans le passé, vous deviez essayer de copier les données de ce tableau sur une page Web, de les coller dans Excel, puis de traiter tous les problèmes de mise en forme fous impliqués dans cette opération. Tracas total, et bien souvent, cela ne vaut tout simplement pas le mal de tête. Eh bien, avec Excel Web Queries, ces jours sont révolus. Bien sûr, avant de pouvoir importer les données, vous devez parcourir Google sur le Web pour trouver les données dont vous avez besoin sous forme de tableau. Dans mon cas, j'ai trouvé un site Web qui avait publié les statistiques du ministère de l'Éducation sur le nombre d'élèves des écoles publiques américaines identifiés comme autistes. Un joli tableau a fourni des chiffres de 1994 tout au long de 2006.
Il vous suffit donc de cliquer sur «Du Web», de coller l'URL de la page Web dans le champ d'adresse de la requête, puis de faire défiler la page jusqu'à ce que vous voyiez la flèche jaune à côté du tableau avec les données que vous souhaitez importer.
Cliquez sur la flèche pour qu'elle devienne une coche verte.
Enfin, indiquez à Excel dans quel champ vous souhaitez coller les données du tableau à l'intérieur de votre nouvelle feuille de calcul.
Alors - Voila! Les données sont automatiquement transférées directement dans votre feuille de calcul.
Donc, avec une tendance des taux d'autisme dans les écoles publiques de 1996 à 2006, il est temps de partir à la recherche des tendances de vaccination et d'utilisation du téléphone portable.
Heureusement, j'ai rapidement trouvé des tendances pour les abonnés au téléphone cellulaire aux États-Unis de 1985 à 2012. Excellentes données pour cette étude particulière. Encore une fois, j'ai utilisé l'outil de requête Web Excel pour importer cette table.
J'ai importé cette table dans une nouvelle feuille propre. Ensuite, j'ai découvert les tendances de la vaccination pour le pourcentage d'enfants scolarisés vaccinés contre différentes maladies. J'ai importé cette table à l'aide de l'outil de requête Web dans une troisième feuille. Donc, finalement, j'avais trois feuilles avec les trois tableaux remplis des données apparemment non connectées que j'avais découvertes sur le Web.
L'étape suivante consiste à utiliser Excel pour analyser les données et essayer d'identifier les corrélations. C'est là que l'un de mes outils d'analyse de données préférés entre en jeu - le tableau croisé dynamique.
Analyse des données dans Excel avec le tableau croisé dynamique
Il est préférable de créer votre tableau croisé dynamique dans une toute nouvelle feuille vide. Vous souhaitez utiliser l'assistant pour ce que vous vous apprêtez à faire. Pour activer l'assistant de tableau croisé dynamique dans Excel, vous devez appuyer sur Alt-D en même temps jusqu'à ce qu'une fenêtre de notification s'affiche. Relâchez ensuite ces boutons et appuyez sur la touche «P». Ensuite, vous verrez apparaître l'assistant.
Dans la première fenêtre de l'assistant, vous souhaitez sélectionner "Plages de consolidation multiples", ce qui vous permet de sélectionner les données de toutes les feuilles que vous avez importées. En faisant cela, vous pouvez consolider toutes ces données apparemment sans rapport en une seule et puissante possibilité de pivotement. Dans certains cas, vous devrez peut-être masser certaines des données. Par exemple, j'ai dû corriger le champ «Année» dans la table de l'autisme afin qu'il affiche «1994» au lieu de «1994-1995» - ce qui permet de mieux l'aligner avec les tableaux des autres feuilles, qui ont également eu l'année primaire champ.
Ce champ commun entre les données est ce dont vous avez besoin pour essayer de corréler les informations, alors gardez cela à l'esprit lorsque vous recherchez des données sur le Web.
Une fois le tableau croisé dynamique terminé et toutes les différentes valeurs de données affichées dans un tableau, il est temps de faire une analyse visuelle pour voir s'il existe une connexion évidente qui vous saute aux yeux.
La visualisation des données est la clé
Avoir un tas de chiffres dans un tableau est génial si vous êtes un économiste, mais le moyen le plus rapide et le plus simple ce "aha!" moment où vous essayez de trouver des connexions comme une aiguille dans une botte de foin, est via des graphiques et graphiques. Une fois votre graphique croisé dynamique en place avec tous les ensembles de données que vous avez collectés, il est temps de créer votre graphique. Habituellement, un graphique linéaire fera mieux, mais cela dépend des données. Il y a des moments où un graphique à barres fonctionne beaucoup mieux. Essayez de comprendre quel type de données vous consultez et quelle forme de comparaison fonctionne le mieux.
Dans ce cas, je regarde les données au fil du temps, donc un graphique linéaire est vraiment le meilleur moyen de voir les tendances au fil des ans. Tracer les taux d'autisme (vert) par rapport aux taux de vaccination réduits (bleu foncé), les vaccins contre la varicelle (bleu clair) et l'utilisation du téléphone portable (violet), une étrange corrélation est soudainement apparue dans cet échantillon de données que je jouais avec.
Curieusement, la tendance de l'utilisation du téléphone cellulaire de 1994 à 2006 correspondait presque parfaitement à la hausse des taux d'autisme au cours de la même période. Bien que le modèle soit complètement inattendu, c'est un exemple parfait de la façon dont le fait de lier des données intéressantes peut révéler des pistes fascinantes - vous offrant plus de perspicacité et de motivation pour continuer à avancer et à rechercher plus de données susceptibles de renforcer davantage votre hypothèse.
Une corrélation comme celle ci-dessus ne prouve rien. Il existe de nombreuses tendances qui augmentent au fil du temps - le modèle pourrait être une coïncidence, mais cela pourrait également être un indice important dans votre quête continue de plus de données sur Internet. Heureusement, vous disposez d'un outil puissant appelé Excel Web Queries qui rendra cette quête un peu plus facile.
Crédit photo: Kevin Dooley via photopincc
Ryan est titulaire d'un BSc en génie électrique. Il a travaillé 13 ans dans l'ingénierie d'automatisation, 5 ans dans l'informatique et est maintenant ingénieur d'applications. Ancien rédacteur en chef de MakeUseOf, il a pris la parole lors de conférences nationales sur la visualisation des données et a été présenté à la télévision et à la radio nationales.