Publicité
En ce qui concerne les bases de données en ligne et les informations qui peuvent être trouvées dans ce qui est communément appelé le "toile invisible Les 12 meilleurs moteurs de recherche pour explorer le Web invisibleGoogle ou Bing ne peuvent pas tout rechercher. Pour explorer le Web invisible, vous devez utiliser ces moteurs de recherche spéciaux. Lire la suite ", Je ne suis pas votre utilisateur type. Bien sûr, je passe un peu trop de mon temps à parcourir les bases de données en ligne dans des endroits comme les Archives nationales et la CIA FOIA en lisant chambre, mais je dois dire que rien ne me rend plus excité que lorsque je trouve un tableau basé sur HTML rempli de volumes apparemment complexes et non connectés Les données.
Le fait est que les tableaux de données sont une mine d'or de vérités importantes. Les données sont souvent collectées par des armées de grognements de collecte de données avec des bottes au sol. Vous avez des gens du recensement américain qui voyagent dans tout le pays pour des informations sur le ménage et la famille. Vous avez des groupes environnementaux à but non lucratif qui collectent toutes sortes d'informations intéressantes sur l'environnement, la pollution, le réchauffement climatique et plus encore. Et si vous êtes dans le paranormal ou l'ufologie, il existe également des tableaux d'informations constamment mis à jour sur les observations d'objets étranges dans le ciel au-dessus de nous.
Ironiquement, on pourrait penser que n'importe quel gouvernement dans le monde serait intéressé de savoir quel genre de des embarcations étrangères sont repérées dans le ciel au-dessus de n'importe quel pays, mais apparemment pas - du moins pas aux États-Unis. en tous cas. En Amérique, la collection d'observations inhabituelles d'artisanat a été reléguée à des équipes d'amateurs amateurs qui affluent vers de nouvelles observations d'OVNIS comme des papillons de nuit. Mon intérêt pour ces observations ne découle en fait pas d'une fascination pour les extraterrestres ou l'artisanat d'autres planètes, mais d'une fascination scientifique pour les modèles - où et pourquoi plus de gens voient des choses dans le ciel, et si ces observations pourraient refléter quelque chose de très réel et beaucoup plus terre-à-terre sur.
Pour explorer les volumes de données collectées par des équipes d'amateurs d'OVNIS, j'ai en fait développé un moyen d'importer de grands tableaux HTML de données dans une feuille de calcul Google, puis manipuler et analyser ces données pour extraire et découvrir significative et importante information. Dans cet article, j'ai l'intention de vous montrer comment faire de même.
Données HTML importantes dans la feuille de calcul Google
Dans cet exemple, je vais vous montrer comment importer des données qui pourraient être stockées dans un tableau sur n'importe quel site Web sur Internet, dans votre feuille de calcul Google. Pensez à l'énorme volume de données disponibles sur Internet aujourd'hui sous forme de tableaux HTML. Wikipédia seul contient des données dans des tableaux pour des sujets comme réchauffement climatique, le U.S. Census Bureau a des tonnes de ensembles de données sur la population, et un peu de recherche sur Google vous amènera beaucoup plus au-delà de cela.
Dans mon exemple, je commence avec une base de données sur le National UFO Reporting Center qui ressemble en fait à une base de données Web profonde de style requête, mais si vous observez la La structuration d'URL, c'est en fait un système de reporting Web semi-complexe composé de pages Web statiques et de tableaux HTML statiques - exactement ce que nous voulons lorsque nous recherchons des données importation.
NUForc.org est l'une de ces organisations qui sert comme l'un des plus grands centres de notification des observations d'OVNIS. Ce n'est pas le seul, mais il est assez grand pour trouver de nouveaux ensembles de données avec les observations actuelles pour chaque mois. Vous choisissez d'afficher les données triées selon des critères tels que l'État ou la date, et chacune d'entre elles est fournie sous la forme d'une page statique. Si vous triez par date, puis cliquez sur la date la plus récente, vous verrez que le tableau répertorié contient une page Web statique nommée en fonction du format de date.
Nous avons donc maintenant un modèle pour extraire régulièrement les dernières informations sur les observations de cette base de données HTML. Tout ce que vous avez à faire est d'importer le premier tableau, utilisez l'entrée la plus récente (celle du haut) pour identifier le dernière mise à jour, puis utilisez la date de cette publication pour créer le lien URL où se trouve la dernière table de données HTML existe. Faire cela nécessitera simplement quelques instances de la fonction ImportHTML, puis quelques utilisations créatives des fonctions de manipulation de texte. Lorsque vous aurez terminé, vous disposerez de l'une des feuilles de calcul de rapports les plus intéressantes et à mise à jour automatique de votre choix. Commençons.
Importation de tables et manipulation de données
La première étape, bien sûr, consiste à créer la nouvelle feuille de calcul.
Alors, comment importez-vous des tableaux HTML? Tout ce dont vous avez besoin est l'URL où la table est stockée et le numéro de la table sur la page - généralement la première répertoriée est 1, la seconde est 2, etc. Étant donné que je connais l'URL de ce premier tableau répertoriant les dates et le nombre d'observations répertoriées, il est possible d'importer en tapant la fonction suivante dans la cellule A1.
= importhtml (" http://www.nuforc.org/webreports/ndxpost.html?”&H2,”table”,1)
H2 détient la fonction "= heure (maintenant ())", Le tableau sera donc mis à jour toutes les heures. C'est probablement extrême pour les données qui mettent à jour cela rarement, donc je pourrais probablement m'en tirer quotidiennement. Quoi qu'il en soit, la fonction ImportHTML ci-dessus apporte le tableau comme indiqué ci-dessous.
Vous devrez faire un peu de manipulation des données sur cette page avant de pouvoir reconstituer l'URL de la deuxième table avec toutes les observations d'OVNIS. Mais allez-y et créez la deuxième feuille sur le classeur.
Avant d'essayer de créer cette deuxième feuille, il est temps d'extraire la date de publication de cette première table, afin de créer le lien vers la deuxième table. Le problème est que la date est importée en tant que format de date, pas une chaîne. Donc, vous devez d'abord utiliser la fonction TEXTE pour convertir la date de publication du rapport en chaîne:
= texte (A2, "mm / jj / aa")
Dans la cellule suivante à droite, vous devez utiliser la fonction SPLIT avec le délimiteur «/» pour décomposer la date en mois, jour et année.
= divisé (D2, ”/”)
Vous cherchez bien! Cependant, chaque numéro doit être forcé à deux chiffres. Vous effectuez cette opération dans les cellules juste en dessous en utilisant à nouveau la commande TEXT.
= texte (E2, "00")
Un format de «00» (ce sont des zéros) force deux chiffres, ou un «0» comme espace réservé.
Vous êtes maintenant prêt à reconstruire l'URL complète vers le dernier tableau HTML des nouvelles observations. Vous pouvez le faire en utilisant la fonction CONCATENER et en rassemblant tous les bits d'informations que vous venez d'extraire de la première table.
= concaténer (" http://www.nuforc.org/webreports/ndxp”,G3,E3,F3,”.html”)
Maintenant, sur la nouvelle feuille que vous avez créée ci-dessus (la feuille vierge), vous allez faire une nouvelle fonction "importhtml", mais cette fois pour la première Paramètre de lien URL, vous allez donc revenir à la première feuille de calcul et cliquer sur la cellule avec le lien URL que vous venez de créer.
Le deuxième paramètre est «table» et le dernier est «1» (car le tableau des observations est le premier et uniquement sur la page). Appuyez sur Entrée, et maintenant vous venez d'importer le volume total des observations qui ont été publiées à cette date particulière.
Donc, vous pensez probablement que c'est un bel acte de nouveauté et tout - je veux dire, après tout, ce que vous avez fait est extrait les informations existantes d'une table sur Internet et les ont migrées vers une autre table, bien que privées dans vos documents Google Compte. Oui c'est vrai. Cependant, maintenant qu'il se trouve dans votre propre compte Google Docs privé, vous avez à portée de main les outils et les fonctions pour mieux analyser ces données et commencer à découvrir des connexions incroyables.
Utilisation de rapports de pivot pour analyser les données importées
Récemment, j'ai écrit un article sur l'utilisation de Rapports de pivot dans la feuille de calcul Google Devenez un analyste de données expert du jour au lendemain à l'aide des outils de rapport de feuille de calcul GoogleSaviez-vous que l'un des meilleurs outils pour effectuer une analyse de données est en fait la feuille de calcul Google? La raison en est non seulement parce qu'elle peut faire presque tout ce que vous voudrez ... Lire la suite pour effectuer toutes sortes de prouesses d'analyse de données cool. Eh bien, vous pouvez faire les mêmes acrobaties d'analyse de données incroyables sur les données que vous avez importées d'Internet - vous donnant la possibilité de découvrir des connexions intéressantes que personne d'autre n'a peut-être découvert auparavant vous.
Par exemple, à partir du tableau des observations finales, je pourrais décider d'utiliser un rapport pivot pour jeter un œil au nombre de différentes formes uniques signalées dans chaque état, par rapport au nombre total d'observations dans cet état particulier Etat. Enfin, je filtre également tout ce qui mentionne les «extraterrestres» dans la section des commentaires, pour, espérons-le, éliminer certaines des entrées les plus piquantes.
Cela révèle en fait des choses assez intéressantes dès le départ, comme le fait que la Californie a clairement le plus haut nombre d’observations signalées dans tout autre État, ainsi que la distinction de signaler le plus grand nombre de formes d’engins pays. Cela montre également que le Massachusetts, la Floride et l'Illinois sont également de grands frappeurs dans le département des observations d'OVNIS (au moins dans les données les plus récentes).
Une autre chose intéressante à propos de Google Spreadsheet est le large éventail de graphiques à votre disposition, y compris une géo-carte qui vous permet disposer des «points chauds» de données dans un format graphique qui se démarque vraiment et rend ces connexions au sein des données assez évident.
Si vous y réfléchissez, ce n'est vraiment que la pointe de l'iceberg. Si vous pouvez désormais importer des données à partir de tableaux de données sur n'importe quelle page d'Internet, pensez aux possibilités. Obtenez les derniers numéros de stock, ou les 10 livres et auteurs les plus récents sur la liste des best-sellers du New York Times, ou les voitures les plus vendues au monde. Il existe des tableaux HTML sur presque tous les sujets que vous pouvez imaginer, et dans de nombreux cas, ces tableaux sont fréquemment mis à jour.
ImportHtml vous donne la possibilité de brancher votre feuille de calcul Google sur Internet et de se nourrir des données qui existent. Il peut devenir votre propre centre d'informations personnelles que vous pouvez utiliser pour manipuler et masser dans un format avec lequel vous pouvez réellement travailler. C'est juste une autre chose très cool à aimer à propos de la feuille de calcul Google.
Avez-vous déjà importé des données dans vos feuilles de calcul? Quel genre de choses intéressantes avez-vous découvertes dans ces données? Comment avez-vous utilisé les données? Partagez vos expériences et vos idées dans la section commentaires ci-dessous!
Crédits image: Graphique d'entreprise
Ryan est titulaire d'un BSc en génie électrique. Il a travaillé 13 ans dans l'ingénierie d'automatisation, 5 ans dans l'informatique et est maintenant ingénieur d'applications. Ancien rédacteur en chef de MakeUseOf, il a pris la parole lors de conférences nationales sur la visualisation des données et a été présenté à la télévision et à la radio nationales.