Publicité
Croyez-vous à l'idée qu'une fois que quelque chose est publié sur Internet, il est publié pour toujours? Eh bien, aujourd'hui, nous allons dissiper ce mythe.
La vérité est que dans de nombreux cas, il est tout à fait possible d’éradiquer des informations sur Internet. Bien sûr, il existe un enregistrement de pages Web qui ont été supprimées si vous recherchez le Wayback Machine, droite? Oui, absolument. Sur Wayback Machine, il existe des enregistrements de pages Web remontant à plusieurs années - des pages que vous ne trouverez pas avec une recherche Google car la page Web n'existe plus. Quelqu'un l'a supprimé ou le site Web a été fermé.
Donc, il n'y a pas moyen de contourner ça, non? L'information restera à jamais gravée dans la pierre de l'Internet, là pour les générations à voir? Enfin, pas exactement.
La vérité est que, même s'il peut être difficile, voire impossible, d'effacer les principales nouvelles qui se sont propagées d'un site Web ou d'un blog à un autre comme un virus, il est en fait assez facile d'éradiquer complètement une page Web ou plusieurs pages Web de tous les enregistrements d'existence - de supprimer cette page pour les deux moteurs de recherche ainsi que le
Wayback Machine La nouvelle machine Wayback vous permet de voyager visuellement dans le temps InternetIl semble que depuis le lancement de Wayback Machine en 2001, les propriétaires du site ont décidé de jeter le back-end basé sur Alexa et de le repenser avec leur propre code open source. Après avoir effectué des tests avec le ... Lire la suite . Il y a bien sûr un problème, mais nous y arriverons.3 façons de supprimer les pages de blog du net
La première méthode est celle que la majorité des propriétaires de sites Web utilisent, car ils ne savent pas mieux - il suffit de supprimer les pages Web. Cela peut se produire parce que vous avez réalisé que votre site contient du contenu en double ou parce que vous avez une page que vous ne souhaitez pas afficher dans les résultats de recherche.
Supprimez simplement la page
Le problème de la suppression complète des pages de votre site Web est que, puisque vous avez déjà créé la page sur le net, il y aura probablement des liens de votre propre site ainsi que des liens externes d'autres sites vers ce site particulier page. Lorsque vous le supprimez, Google reconnaît immédiatement votre page comme une page manquante.
Ainsi, en supprimant votre page, vous avez non seulement créé un problème avec des erreurs d'exploration "Introuvable" pour vous-même, mais vous avez également créé un problème pour quiconque a déjà lié à la page. Habituellement, les utilisateurs qui accèdent à votre site à partir de l'un de ces liens externes verront votre page 404, qui n'est pas un problème majeur, si vous utilisez quelque chose comme le code 404 personnalisé de Google pour donner aux utilisateurs des suggestions utiles ou alternatives. Mais, vous pensez qu'il pourrait y avoir des moyens plus élégants de supprimer des pages des résultats de recherche sans lancer tous ces 404 pour les liens entrants existants, non?
Eh bien, il y en a.
Supprimer une page des résultats de recherche Google
Tout d'abord, vous devez comprendre que si la page Web que vous souhaitez supprimer des résultats de recherche Google n'est pas une page de votre propre site, alors vous n’avez pas de chance, sauf pour des raisons légales ou si le site a publié vos informations personnelles en ligne sans votre autorisation. Si tel est le cas, utilisez alors le utilitaire de résolution des problèmes de suppression pour soumettre une demande de suppression de la page des résultats de recherche. Si vous avez un cas valide, vous pouvez trouver un certain succès en supprimant la page - bien sûr, vous pourriez avoir encore plus de succès contacter le propriétaire du site Comment supprimer les fausses informations personnelles sur InternetLa confidentialité en ligne n'est plus garantie. Découvrez comment signaler un site Web et supprimer des informations personnelles sur Internet. Lire la suite comme je l'ai décrit comment faire en 2009.
Maintenant, si la page que vous souhaitez supprimer des résultats de recherche se trouve sur votre propre site, vous avez de la chance. Il vous suffit de créer un robots.txt fichier et assurez-vous que vous avez interdit soit la page spécifique que vous ne voulez pas dans les résultats de la recherche, soit le répertoire entier avec le contenu que vous ne voulez pas indexer. Voici à quoi ressemble le blocage d'une seule page.
Agent utilisateur: * Interdire: /my-deleted-article-that-i-want-removed.html
Vous pouvez empêcher les robots d'explorer des répertoires entiers de votre site comme suit.
Agent utilisateur: * Interdire: / content-about-personal-stuff /
Google a un excellent page d'assistance qui peut vous aider à créer un fichier robots.txt si vous n'en avez jamais créé auparavant. Cela fonctionne extrêmement bien, comme je l'ai expliqué récemment dans un article sur structuration des offres de syndication Comment négocier des offres de syndication et protéger vos classements de rechercheLa syndication fait fureur ces jours-ci. Mais tout à coup, vous pouvez constater que le partenaire de syndication figure plus haut que vous dans les résultats de recherche pour une histoire que vous avez écrite à l'origine! Protégez vos classements de recherche. Lire la suite afin qu'ils ne vous blessent pas (en demandant aux partenaires de syndication de ne pas autoriser l'indexation de leurs pages sur lesquelles vous êtes syndiqué). Une fois que mon propre partenaire de syndication a accepté de le faire, les pages qui contenaient du contenu dupliqué de mon blog ont complètement disparu des listes de recherche.
Seul le site Web principal arrive à la troisième place pour la page où il répertorie notre titre, mais mon blog est maintenant répertorié aux premier et deuxième emplacements; quelque chose qui aurait été presque impossible si un site Web d'une autorité supérieure avait laissé la page dupliquée indexée.
Beaucoup de gens ne réalisent pas que cela est également possible avec Internet Archive (la Wayback Machine). Voici les lignes que vous devez ajouter à votre fichier robots.txt pour y arriver.
Agent utilisateur: ia_archiver. Interdire: / sample-category /
Dans cet exemple, je demande à Internet Archive de supprimer tout ce qui se trouve dans le sous-répertoire des catégories d'échantillons de mon site de Wayback Machine. Les archives Internet expliquent comment procéder sur leur page d'aide Exclusion. C'est aussi là qu'ils expliquent que «Les archives Internet ne sont pas intéressées à offrir l'accès à des sites Web ou à d'autres documents Internet dont les auteurs ne veulent pas que leurs documents soient dans la collection».
Cela va à l'encontre de la croyance populaire selon laquelle tout ce qui est publié sur Internet est emporté dans les archives pour l'éternité. Non - les webmasters qui possèdent le contenu peuvent spécifiquement supprimer le contenu de l'archive en utilisant l'approche robots.txt.
Supprimer une page individuelle avec des balises META
Si vous ne souhaitez supprimer que quelques pages individuelles des résultats de recherche Google, vous n'avez en fait pas besoin d'utiliser l'approche robots.txt du tout, vous pouvez simplement ajouter la balise méta «robots» correcte aux pages individuelles et dire aux robots de ne pas indexer ou suivre les liens sur l'ensemble page.
Vous pouvez utiliser la méta «robots» ci-dessus pour empêcher les robots d'indexer la page, ou vous pouvez spécifiquement dire au robot Google ne pas indexer pour que la page soit uniquement supprimée des résultats de recherche Google, et d'autres robots de recherche pourraient toujours accéder à la page contenu.
C'est à vous de décider comment vous souhaitez gérer ce que les robots font de la page et si la page est répertoriée ou non. Pour quelques pages individuelles, c'est peut-être la meilleure approche. Pour supprimer un répertoire complet de contenu, utilisez la méthode robots.txt.
L'idée de «supprimer» du contenu
Ce genre de retournement de la notion de «suppression de contenu d'Internet». Techniquement, si vous supprimez tous vos propres liens vers une page de votre site et que vous les supprimez de la recherche Google et du Internet Archive utilisant la technique robots.txt, la page est à toutes fins utiles «supprimée» d'Internet. Mais ce qui est cool, c'est que s'il existe des liens vers la page, ces liens fonctionneront toujours et vous ne déclencherez pas d'erreurs 404 pour ces visiteurs.
Il s'agit d'une approche plus «douce» pour supprimer du contenu d'Internet sans perturber entièrement la popularité des liens existants de votre site sur Internet. En fin de compte, c'est à vous de décider comment gérer le contenu collecté par les moteurs de recherche et les archives Internet, mais toujours rappelez-vous que malgré ce que les gens disent de la durée de vie des choses qui sont mises en ligne, cela dépend vraiment de votre contrôle.
Ryan est titulaire d'un BSc en génie électrique. Il a travaillé 13 ans dans l'ingénierie d'automatisation, 5 ans dans l'informatique et est maintenant ingénieur d'applications. Ancien rédacteur en chef de MakeUseOf, il a pris la parole lors de conférences nationales sur la visualisation des données et a été présenté à la télévision et à la radio nationales.