Où se trouve la ligne indiquant aux moteurs de recherche de ne pas référencer la page Wikipédia ?

Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

Vous pouvez empêcher l'affichage d'une page ou d'une autre ressource dans la recherche Google en incluant une balise Meta ou un en-tête noindex dans la réponse HTTP. Lors de la prochaine exploration de cette page par Googlebot, la balise ou l'en-tête seront détectés et Google excluera totalement cette page de ses résultats de recherche, même si d'autres sites contiennent des liens vers celle-ci.

La directive noindex est utile si vous n'avez pas accès à la racine de votre serveur, car elle vous permet de contrôler l'accès à votre site page par page.

Mettre en œuvre la directive noindex

Il existe deux façons de mettre en œuvre la directive noindex : en tant que balise Meta et sous forme d'en-tête de réponse HTTP. Ces deux méthodes ont le même effet. Choisissez celle qui est la plus pratique pour votre site et la plus adaptée à votre type de contenu.

Balise <meta>

Pour empêcher la plupart des moteurs de recherche d'indexer une page de votre site, ajoutez la balise Meta suivante dans la section <head> de votre page :

<meta name="robots" content="noindex">

Pour n'empêcher que les robots d'exploration Google d'indexer une page, utilisez la balise suivante :

<meta name="googlebot" content="noindex">

Sachez que certains moteurs de recherche peuvent interpréter la directive noindex différemment. Par conséquent, il se peut que votre page s'affiche toujours dans les résultats d'autres moteurs de recherche.

En savoir plus sur la balise Meta noindex

Au lieu d'une balise Meta, vous pouvez également afficher un en-tête X-Robots-Tag avec une valeur noindex ou none dans votre réponse. Un en-tête de réponse peut être utilisé pour les ressources non HTML, telles que les fichiers PDF, les fichiers vidéo et les fichiers image. Voici un exemple de réponse HTTP avec une directive X-Robots-Tag qui indique aux moteurs de recherche de ne pas indexer une page :

HTTP/1.1 200 OK
(…)
X-Robots-Tag: noindex
(…)

En savoir plus sur l'en-tête de réponse noindex

Nous aider à détecter vos balises Meta

Nous devons explorer votre page pour détecter les balises Meta et les en-têtes HTTP. Si une page continue à figurer dans les résultats, c'est probablement parce que nous n'avons pas exploré la page depuis que vous avez ajouté la balise. Vous pouvez nous demander d'explorer à nouveau votre page en utilisant l'outil d'inspection d'URL. Cela peut également s'expliquer par le fait que votre fichier robots.txt bloque l'accès de nos robots d'exploration à cette URL, ce qui nous empêche de voir la balise. Vous devez modifier votre fichier robots.txt pour nous permettre d'accéder à votre page. Vous pouvez modifier et tester votre fichier robots.txt à l'aide de l'outil de test du fichier robots.txt.

Except as otherwise noted, the content of this page is licensed under the Creative Commons Attribution 4.0 License, and code samples are licensed under the Apache 2.0 License. For details, see the Google Developers Site Policies. Java is a registered trademark of Oracle and/or its affiliates.

Last updated 2022-09-12 UTC.

[{ "type": "thumb-down", "id": "missingTheInformationINeed", "label":"Il n'y a pas l'information dont j'ai besoin" },{ "type": "thumb-down", "id": "tooComplicatedTooManySteps", "label":"Trop compliqué/Trop d'étapes" },{ "type": "thumb-down", "id": "outOfDate", "label":"Obsolète" },{ "type": "thumb-down", "id": "translationIssue", "label":"Problème de traduction" },{ "type": "thumb-down", "id": "samplesCodeIssue", "label":"Mauvais exemple/Erreur de code" },{ "type": "thumb-down", "id": "otherDown", "label":"Autre" }] [{ "type": "thumb-up", "id": "easyToUnderstand", "label":"Facile à comprendre" },{ "type": "thumb-up", "id": "solvedMyProblem", "label":"J'ai pu résoudre mon problème" },{ "type": "thumb-up", "id": "otherUp", "label":"Autre" }]

Pourquoi bloquer le référencement d'une page ?

Créer des sites web seulement ne suffit pas. A priori quand on a rédigé un contenu et des pages on veut améliorer le positionnement de son site sur Google et autres moteurs de recherche. Vous avez envie que toutes les urls de votre site soient bien indexées et bien classées sur les pages de résultats de recherche (les SERPs). 

Cependant il existe de nombreux cas où vous devez absolument bloquer l'indexation de certains contenus de sites. Il s'agit des cas suivants:

  • Textes à caractère confidentiel et accessible uniquement à un public privé (intranet, extranet...) qu'on ne veut absolument pas voir trainer sur le net
  • Soumissions de formulaires
  • Contenus obsolètes ou préjudiciables à l'image de votre activité

S'il s'agit de bloquer certaines pages de votre site le responsable du référencement du site internet a toute latitude pour contrôler l'indexation de votre contenu sur les moteurs de recherche. Les moyens à votre disposition sont:

  • le robots.txt
  • la balise méta robot
  • le contrôle d'accès de vos contenus

A quoi sert ce fichier txt pour le seo ?

Où se trouve la ligne indiquant aux moteurs de recherche de ne pas référencer la page Wikipédia ?
Ce document robots.txt, placé à la racine de votre site web Joomla! (ou toute autre technologie), est un puissant outil pour l'optimisation on-site. Il indique aux bots des outils de recherche quelles sont les pages qui peuvent être indéxées ou non.
Dès que le robot (le spider) d'un moteur arrive sur un site (ici http://www.monsite.com/), il va rechercher le document sur http://www.monsite.com/robots.txt avant d'effectuer la moindre "aspiration de document". S'il existe, il le lit et suit les indications qui y sont inscrites. S'il ne le trouve pas, il commence son travail de lecture et de sauvegarde de la page qu'il est venu visiter, considérant qu'a priori rien ne lui est interdit.

Il faut ajouter qu'une mauvaise configuration peut conduire à ruiner tous vos efforts sur le référencement naturel de votre site. Pire encore vous pouvez vous retrouver avec des contenus confidentiels indexés au grand dam des internautes qui pensaient remplir des formulaires en toute confidentialité!

La syntaxe à suivre pour le seo

Il ne peut exister qu'un seul document de ce type sur un site, et il doit se trouver au niveau de la racine. Le nom doit toujours être créé en minuscules et sa structure est la suivante :

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /cache/
Disallow: /administrator/
Disallow: /listing/clients.html

 On voit ici :

  • User-agent: * signifie que l'accès est accordé à tous les agents (tous les spiders), quels qu'ils soient.
  • Le robot n'ira pas explorer les répertoires /cgi-bin/, /tmp/, /cache/ et /administrator/ du serveur ni /listing/clients. Le répertoire /tmp/,  correspond à l'adresse http://www.monsite.com/tmp/. Chaque répertoire à exclure de l'aspiration du spider doit faire l'objet d'une ligne Disallow: spécifique. La commande Disallow: permet d'indiquer que "tout ce qui commence par" l'expression indiquée ne doit pas être indexé.

Ainsi :
Disallow: /cache ne permettra l'enregistrement ni de http://www.monsite.com/cache/index.php, ni de http://www.monsite.com/cache.php 
Disallow: /cache/ n'indexera pas http://www.monsite.com/cache/index.php, mais ne s'appliquera pas à l'adresse http://www.monsite.com/cache.php

 D'autre part, il ne doit pas contenir de lignes vierges (blanches). 
L'étoile (*) n'est acceptée que dans le champ User-agent
Elle ne peut servir de joker (ou d'opérateur de troncature) comme : Disallow: /entravaux/*
Il n'existe pas de champ correspondant à la permission, de type Allow:.
Enfin, le champ de description (User-agent, Disallow) peut être indifféremment saisi en minuscules ou en majuscules.
Les lignes qui commencent par un signe dièse (#), ou plus exactement tout ce qui se trouve à droite de ce signe sur une ligne, est considéré comme étant un commentaire.

 Voici quelques commandes et très classiques importantes à suivre:

Disallow:/ Permet d'exclure toutes les pages du serveur (aucune aspiration possible).
Disallow: Permet de n'exclure aucune page du serveur (aucune contrainte). 
Un document vide ou inexistant aura une conséquence identique.
User-Agent : googlebot Permet d'identifier un robot particulier (ici, celui du moteur Google).
User-agent: googlebot
Disallow:
User-agent: * 
Disallow:/
Permet au spider de Google de tout aspirer, mais refuse les autres bots.

Le fichier exemple pour le contrôle seo de Joomla!

Lors de l'installation d'un projet Joomla! un fichier type est livré par défaut. Il contient les lignes minimum pour la protection de votre site:

User-agent: *
Disallow: /administrator/
Disallow: /bin/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /layouts/
Disallow: /libraries/
Disallow: /logs/
Disallow: /modules/
Disallow: /plugins/
Disallow: /tmp/

Il faudra alors penser à ajouter toutes les familles d'url que vous ne voulez pas voir indexées par les solutions de recherche.

Il s'agit d'une balise meta pour informer sur la nature et le texte d’une page web, ajoutée dans l’en-tête de la page au moyen de marqueurs HTML. A la manière du fichier de contrôle des bots présenté ici, la balise meta est utilisée pour donner des directives aux solutions de recherche sur la manière d'explorer, indexer et parcourir les liens sur une page.

Exemple de balise meta robots :

<html> <head> <title>Titre de la page</title> <meta name="robots" content="noindex, nofollow"> </head>

La valeur noindex empêche la page d'être indexée et la valeur nofollow empêche les liens d'être suivis par les robots et de transmettre de la popularité.

Si vous souhaitez simplement bloquer l'enregistrement de la page mais laisser la possibilité aux bots de suivre les liens, il suffit de ne laisser que la valeur noindex :

<meta name="robots" content="noindex">

Les autres valeurs existantes

<meta name="robots" content="noarchive">

Cette balise permet de prévenir les outils de recherche que vous ne souhaitez pas qu'ils gardent une archive de la page. Sur Google, cela se traduit par l'impossibilité d'affichier le lien "En cache" associé à une page dans les résultats.

<meta name="robots" content="nosnippet">

La valeur "nosnippet" permet d'empêcher l'affichage d'un extrait (meta description) dans les résultats de recherche.

<meta name="robots" content="noodp">

Le "noodp" empêche les moteurs d'utiliser en remplacement le titre et/ou la description du site tirés du répertoire DMOZ.

Les attributs spécifiques à certains moteurs de recherche

Pour cibler Google :

<meta name="google" content="xxxx">

Lorsque le contenu d'une page web n'est pas dans la langue choisie par l'utilisateur, Google peut fournir dans les résultats de recherche un lien permettant d'accéder à une traduction. Avec cette balise meta "nostranslate", vous interdisez à Google de fournir une traduction de votre page.

<meta name="google" content="notranslate">

La valeur "unavailable_after" permet de préciser l'heure et la date exactes auxquelles l'exploration et l'indexation de la page doivent cesser :

<meta name="google" content="unavailable_after:[date]">

noimageindex permet d'indiquer que vous ne souhaitez pas faire apparaître votre page comme source d'une image apparaissant dans les résultats de recherche :

<meta name="google" content="noimageindex">

Pour cibler Yahoo! :

<meta name="Slurp" content="xxxx">

Comme la valeur "noodp", la valeur "noydir" empêche Yahoo! d'utiliser le titre et la description provenant de l'annuaire Yahoo! Directory.

<meta name="robots" content="noydir">

Pour cibler Bing / MSN :

<meta name="msnbot" content="xxxx"> <meta name="bingbot" content="xxxx">

Depuis votre compte Google Web Master Tools vous avez la possibilité de tester l'intégrité de votre fichier robots.txt et vérifier si telle ou telle page est bien bloquée par le robot.

Où se trouve la ligne indiquant aux moteurs de recherche de ne pas référencer la page Wikipédia ?

Vous aimerez aussi :

A quoi sert le référencement : pourquoi faut il optimiser les liens et le contenu de vos sites ?

Combien coûte un référencement naturel : est-lié au nombre de pages ou de liens , la longueur de votre contenu ? 

Combien coûte le référencement d'un site internet : Google indexe t-il bien gratuitement les pages de vos sites ?

Retrouvez tous nos articles sur :

Table

Comment trouver la ligne de code indiquant aux moteurs de recherche de ne pas référencer la page ?

Si les moteurs de recherche ont déjà indexé votre contenu, vous pouvez ajouter une balise méta « noindex » à l'en-tête HTML du contenu. Cela indiquera aux moteurs de recherche de ne plus l'afficher dans les résultats de recherche.

Comment trouver la ligne indiquant aux moteurs de recherche de ne pas référencer la page sur Wikipédia ?

Une balise méta « Pas d'index » est un morceau de code intégré dans la section des en-têtes du code HTML d'une page, pour indiquer aux moteurs de recherche de ne pas indexer cette page.

Où se trouve le code source d'une page Wikipédia ?

Accès à la page de modification du code source Modifier une page entière : Pour modifier une page de Wikipédia, rendez-vous sur ladite page, puis cliquez sur l'onglet Modifier le code situé en haut de la page.

Comment savoir qu'une page n'est pas référencée ?

Votre page est-elle bien indexée ? Une technique très simple consiste à taper dans le moteur de recherche info : »l'url de votre page ». Si Google voit votre page, c'est qu'elle est indexée et donc référencée.