Comment configurer correctement Robots.txt pour votre site

Si vous gérer un site Web 10 façons de créer un petit site Web simple et sans excèsWordPress peut être exagéré. Comme le prouvent ces autres excellents services, WordPress n'est pas la finalité de la création de sites Web. Si vous voulez des solutions plus simples, il existe une variété de choix. Lire la suite , vous avez probablement entendu parler d'un fichier robots.txt (ou du "standard d'exclusion des robots"). Que vous en ayez ou non, il est temps de vous renseigner à ce sujet, car ce simple fichier texte est une partie cruciale de votre site. Cela peut sembler insignifiant, mais vous pourriez être surpris de voir à quel point c'est important.

Voyons ce qu'est un fichier robots.txt, ce qu'il fait et comment le configurer correctement pour votre site.

Qu'est-ce qu'un fichier robots.txt?

Pour comprendre le fonctionnement d'un fichier robots.txt, vous devez connaître un peu sur les moteurs de recherche Comment fonctionnent les moteurs de recherche?Pour beaucoup de gens, Google EST Internet. C'est sans doute l'invention la plus importante depuis Internet lui-même. Et tandis que les moteurs de recherche ont beaucoup changé depuis, les principes sous-jacents sont toujours les mêmes.

instagram viewer

Lire la suite . La version courte est qu'ils envoient des «robots», qui sont des programmes qui parcourent Internet pour trouver des informations. Ils stockent ensuite certaines de ces informations afin de pouvoir y diriger des personnes plus tard.

Ces robots d'exploration, également appelés «robots» ou «araignées», trouvent des pages provenant de milliards de sites Web. Les moteurs de recherche leur indiquent où aller, mais les sites Web individuels peuvent également communiquer avec les robots et leur dire quelles pages ils devraient consulter.

La plupart du temps, ils font le contraire et leur disent quelles pages ils ne devrait pas regarder. Des choses comme les pages administratives, les portails backend, les pages de catégories et de balises, et d'autres choses que les propriétaires de sites ne veulent pas afficher sur les moteurs de recherche. Ces pages sont toujours visibles par les utilisateurs et sont accessibles à toute personne autorisée (qui est souvent tout le monde).

Mais en disant à ces araignées de ne pas indexer certaines pages, le fichier robots.txt rend service à tout le monde. Si vous avez recherché «MakeUseOf» sur un moteur de recherche, voudriez-vous que nos pages administratives apparaissent en haut du classement? Non. Cela ne servirait à personne, nous demandons donc aux moteurs de recherche de ne pas les afficher. Il peut également être utilisé pour empêcher les moteurs de recherche de consulter des pages qui pourraient ne pas les aider à classer votre site dans les résultats de recherche.

En bref, robots.txt indique aux robots d'indexation quoi faire.

Les robots peuvent-ils ignorer le fichier robots.txt?

Les robots d'exploration ignorent-ils jamais les fichiers robots.txt? Oui. En fait, de nombreux robots faire ignorez-le. En règle générale, cependant, ces robots ne proviennent pas de moteurs de recherche réputés. Ils proviennent de spammeurs, de récupérateurs d'e-mails et d'autres types de robots automatisés Comment créer un robot d'exploration de base pour extraire des informations d'un site WebVous avez toujours voulu capturer des informations à partir d'un site Web? Voici comment écrire un robot pour naviguer sur un site Web et extraire ce dont vous avez besoin. Lire la suite qui parcourent Internet. Il est important de garder cela à l'esprit - utiliser la norme d'exclusion des robots pour dire aux robots de ne pas entrer n'est pas une mesure de sécurité efficace. En fait, certains bots pourraient début avec les pages que vous leur dites de ne pas consulter.

Cependant, les moteurs de recherche feront ce que dit votre fichier robots.txt tant qu'il est correctement formaté.

Comment écrire un fichier robots.txt

Il existe quelques parties différentes qui entrent dans un fichier standard d'exclusion de robot. Je les décompose individuellement ici.

Déclaration de l'agent utilisateur

Avant de dire à un bot quelles pages il ne doit pas consulter, vous devez spécifier à quel bot vous parlez. La plupart du temps, vous utiliserez une simple déclaration qui signifie «tous les bots». Cela ressemble à ceci:

Agent utilisateur: *

L'astérisque représente «tous les bots». Vous pouvez cependant spécifier des pages pour certains bots. Pour ce faire, vous devez connaître le nom du bot pour lequel vous définissez des directives. Cela pourrait ressembler à ceci:

Agent utilisateur: Googlebot. [liste des pages à ne pas explorer] Agent utilisateur: Googlebot-Image / 1.0. [liste des pages à ne pas explorer] Agent utilisateur: Bingbot. [liste des pages à ne pas explorer]

Etc. Si vous découvrez un bot que vous ne souhaitez pas explorer du tout, vous pouvez également le spécifier.

Pour trouver les noms des agents utilisateurs, consultez useragentstring.com [n'est plus disponible].

Interdire les pages

Il s'agit de la partie principale de votre fichier d'exclusion de robot. Avec une simple déclaration, vous dites à un bot ou à un groupe de bots de ne pas explorer certaines pages. La syntaxe est simple. Voici comment vous interdisez l'accès à tout ce qui se trouve dans le répertoire "admin" de votre site:

Interdire: / admin /

Cette ligne empêcherait les robots d'explorer yoursite.com/admin, yoursite.com/admin/login, yoursite.com/admin/files/secret.html et tout ce qui relève du répertoire admin.

Pour interdire une seule page, spécifiez-la simplement dans la ligne d'interdiction:

Interdire: /public/exception.html

Maintenant, la page "exception" ne sera pas traînée, mais tout le reste du dossier "public" le sera.

Pour inclure plusieurs répertoires ou pages, répertoriez-les simplement sur les lignes suivantes:

Interdire: / privé / Interdire: / admin / Interdire: / cgi-bin / Interdire: / temp /

Ces quatre lignes s'appliqueront à l'agent utilisateur que vous avez spécifié en haut de la section.

Si vous souhaitez empêcher les robots de consulter une page de votre site, utilisez ceci:

Interdire: /

Définition de normes différentes pour les robots

Comme nous l'avons vu ci-dessus, vous pouvez spécifier certaines pages pour différents bots. En combinant les deux éléments précédents, voici à quoi cela ressemble:

User-agent: googlebot. Interdire: / admin / Interdire: / private / User-agent: bingbot. Interdire: / admin / Interdire: / privé / Interdire: / secret /

Les sections "admin" et "privé" seront invisibles sur Google et Bing, mais Google verra le répertoire "secret", contrairement à Bing.

Vous pouvez spécifier des règles générales pour tous les bots en utilisant l'agent utilisateur astérisque, puis donner également des instructions spécifiques aux bots dans les sections suivantes.

Mettre tous ensemble

Avec les connaissances ci-dessus, vous pouvez écrire un fichier robots.txt complet. Lancez simplement votre éditeur de texte préféré (nous sommes fans de Sublime 11 conseils de texte sublime pour la productivité et un flux de travail plus rapideSublime Text est un éditeur de texte polyvalent et une référence pour de nombreux programmeurs. Nos conseils se concentrent sur un codage efficace, mais les utilisateurs généraux apprécieront les raccourcis clavier. Lire la suite ici) et commencez à faire savoir aux robots qu'ils ne sont pas les bienvenus dans certaines parties de votre site.

Si vous souhaitez voir un exemple de fichier robots.txt, rendez-vous sur n'importe quel site et ajoutez "/robots.txt" à la fin. Voici une partie du fichier robots.txt de Giant Bicycles:

Comme vous pouvez le voir, il y a pas mal de pages qu'ils ne veulent pas voir apparaître sur les moteurs de recherche. Ils ont également inclus quelques éléments dont nous n'avons pas encore parlé. Voyons ce que vous pouvez faire d'autre dans votre fichier d'exclusion de robot.

Localisation de votre plan du site

Si votre fichier robots.txt indique aux robots où ne pas aller, votre le plan du site fait le contraire Comment créer un plan de site XML en 4 étapes facilesIl existe deux types de plans de site: une page HTML ou un fichier XML. Un plan de site HTML est une page unique qui montre aux visiteurs toutes les pages d'un site Web et contient généralement des liens vers celles-ci ... Lire la suite et les aide à trouver ce qu'ils recherchent. Et bien que les moteurs de recherche sachent probablement déjà où se trouve votre sitemap, cela ne fait pas de mal de le leur faire savoir à nouveau.

La déclaration d'un emplacement de plan du site est simple:

Plan du site: [URL du plan du site]

C'est ça.

Dans notre propre fichier robots.txt, cela ressemble à ceci:

Plan du site: //www.makeuseof.com/sitemap_index.xml

C'est tout ce qu'on peut en dire.

Définition d'un délai d'exploration

La directive sur le délai d'exploration indique à certains moteurs de recherche à quelle fréquence ils peuvent indexer une page sur votre site. Il est mesuré en secondes, bien que certains moteurs de recherche l'interprètent légèrement différemment. Certains voient un retard de 5 comme leur disant d'attendre cinq secondes après chaque exploration pour lancer la suivante. D'autres l'interprètent comme une instruction de ne parcourir qu'une page toutes les cinq secondes.

Pourquoi diriez-vous à un robot de ne pas ramper autant que possible? À préserver la bande passante 4 façons dont Windows 10 gaspille votre bande passante InternetWindows 10 gaspille-t-il votre bande passante Internet? Voici comment vérifier et ce que vous pouvez faire pour l'arrêter. Lire la suite . Si votre serveur a du mal à suivre le trafic, vous souhaiterez peut-être instituer un délai d'analyse. En général, la plupart des gens n’ont pas à s’inquiéter à ce sujet. Cependant, les grands sites à fort trafic peuvent vouloir expérimenter un peu.

Voici comment définir un délai d'exploration de huit secondes:

Retard d'exploration: 8

C'est ça. Tous les moteurs de recherche n'obéiront pas à votre directive. Mais ça ne fait pas de mal de demander. Comme pour les pages non autorisées, vous pouvez définir différents délais d'exploration pour des moteurs de recherche spécifiques.

Téléchargement de votre fichier robots.txt

Une fois que vous avez toutes les instructions dans votre fichier configuré, vous pouvez le télécharger sur votre site. Assurez-vous qu'il s'agit d'un fichier en texte brut et qu'il porte le nom robots.txt. Téléchargez-le ensuite sur votre site afin qu'il se trouve sur yoursite.com/robots.txt.

Si vous utilisez un système de gestion de contenu 10 systèmes de gestion de contenu les plus populaires en ligneL'époque des pages HTML codées à la main et de la maîtrise du CSS est révolue depuis longtemps. Installez un système de gestion de contenu (CMS) et en quelques minutes, vous pouvez avoir un site Web à partager avec le monde. Lire la suite comme WordPress, il y a probablement un moyen spécifique dont vous aurez besoin pour y parvenir. Parce qu'il diffère dans chaque système de gestion de contenu, vous devrez consulter la documentation de votre système.

Certains systèmes peuvent également avoir des interfaces en ligne pour télécharger votre fichier. Pour ceux-ci, copiez et collez simplement le fichier que vous avez créé dans les étapes précédentes.

N'oubliez pas de mettre à jour votre fichier

Le dernier conseil que je donnerai est de regarder occasionnellement votre fichier d'exclusion de robot. Votre site change et vous devrez peut-être effectuer certains ajustements. Si vous remarquez un changement étrange dans le trafic de votre moteur de recherche, c'est également une bonne idée de consulter le fichier. Il est également possible que la notation standard change à l'avenir. Comme tout le reste de votre site, cela vaut la peine de le vérifier de temps en temps.

De quelles pages excluez-vous les robots d'exploration de votre site? Avez-vous remarqué une différence dans le trafic des moteurs de recherche? Partagez vos conseils et commentaires ci-dessous!

Dann est un consultant en stratégie de contenu et en marketing qui aide les entreprises à générer de la demande et des prospects. Il blogue également sur la stratégie et le marketing de contenu sur dannalbright.com.

About Technology - denizatm.com