Une astuce pour connaître la date de publication d’une page web
Lorsque l’on navigue sur le Web et que l’on découvre de nouvelles ressources, on se pose fréquemment des questions sur la date de mise en ligne des informations.
Si ces questions trouvent aisément des réponses sur les blogs – la date de publication de chaque billet est généralement indiquée –, il est en revanche plus difficile de savoir quand a été lancé un site web, si la date n’est pas précisée.
Nous vous proposons dans cet article une méthode qui, si elle ne fonctionne malheureusement pas pour tous les sites, s’avère néanmoins efficace dans de nombreux cas. Cette méthode consiste à tirer parti de la fonction « Recherche par date », proposée notamment par Google et Exalead.
Nous avons déjà parlé dans ce blog de la possibilité qu’offrent ces moteurs d’affiner les résultats selon la date de publication des pages. Cette date de publication – qui a longtemps été la date de mise à jour par les robots – est, d’après Google, estimée à partir de diverses informations, telles que la date à laquelle la page a été indexée pour la première fois par Google.
Cette date n’est donc pas totalement exacte et il peut y avoir selon les sites un certain décalage – voire un décalage certain ! – entre la date de mise en ligne du site sur le Web et la date de la première indexation par les robots du moteur, surtout lorsqu’il s’agit d’un « petit » site lancé discrètement et sans optimisation du référencement.
Cette fonctionnalité s’avère néanmoins précieuse pour identifier les résultats récents d’une recherche récurrente – Google propose ainsi de restreindre la sélection aux pages publiées depuis moins d’une heure, moins de 24h, moins d’une semaine, moins d’un mois, moins d’un an…–, ou encore pour savoir ce qui s’est dit sur le Web à une période précise : sur Google, l’option « Période personnalisée » permet en effet de limiter la recherche aux pages web publiées entre deux dates données, ou à une date précise. On accède à cette fonctionnalité, sur Google, en cliquant sur le choix « Plus d’outils » de la colonne de gauche et en choisissant l’option de son choix, dans le module « Date ».
Sur Exalead, il suffit d’utiliser, en complément des termes de sa requête, les opérateurs after:jj/mm/aaaa et/ou before:jj/mm/aaaa.
La recherche par date pour identifier la date de mise en ligne d’un site
Si cette fonctionnalité a pour usage premier de restreindre la sélection aux pages publiées à un moment donné, cet usage peut être « détourné » pour découvrir dans certains cas la date de publication d’une page ou d’un site précis.
Il suffit pour cela de saisir comme requête l’adresse de la page en question, puis d’utiliser la fonction de recherche par date, en indiquant par exemple after:01/01/2001 sur Exalead, ou en choisissant sur Google « Période personnalisée » Début : 01/01/2001 (ou toute autre date de son choix).
Nous avons testé cette méthode pour vérifier la date de mise en ligne du site « www.recherche-eveillee.com » ; nous connaissons (à peu près) la réponse et pouvons donc avoir un jugement sur ce qu’indiquent les moteurs !
La recherche par date de Google
En lançant sur Google une requête sur « www.recherche-eveillee.com », puis en limitant les résultats aux pages publiées après le 1er janvier 2001, nous obtenons plus de 400 000 réponses, la première étant celle de la page d’accueil du site de Recherche-eveillee.com (les autres résultats citent l’adresse ou contiennent les mots de la recherche), La date de publication indiquée par Google est le 23 mars 2011, ce qui est très proche de la réalité, le site ayant été mis en ligne juste avant la sortie de l’ouvrage papier, en avril 2011.
Date de publications de Recherche-eveillee.com |
Pour obtenir uniquement des résultats issus du site Recherche-eveillee.com, nous aurions pu utiliser la requête site:recherche-eveillee.com (pour avoir les dates des différents billets du blog, accessible à l’adresse http://blog.recherche-eveillee.com) ou site:www.recherche-eveillee.com, pour se limiter aux pages présentant l’ouvrage.
On remarque que sur Google, la date indiquée est bien celle de l’indexation de la page. La page « On en parle » du site Recherche-eveillee.com, qui a été ajoutée par la suite, a ainsi comme date de publication « 8 août 2011 ».
Date de publication de la page « On en parle » |
La fonction date de publication d’Exalead
Sur Exalead en revanche, la requête www.recherche-eveillee.com after:01/01/2001 affiche comme résultat le 15 juin 2011 ; par défaut, seul le résultat concernant la page d’accueil est affiché.
Date de publication du site Recherche-eveillee.com |
La date de première indexation du site www.recherche-eveillee.com est donc plus tardive, les robots du moteur ayant été plus longs dans leur découverte du nouveau site ! La requête site:www.recherche-eveillee.com after:01/01/2001 fonctionne également sur Exalead, et affiche les pages du site indexées par le moteur, avec pour chacune leur date d’indexation.
La réactivité du moteur pour indexer la page « On en parle » a également été plus lente, puisque celle-ci a été prise en compte le 11 octobre 2011. Nous avons effectué un certain nombre de tests pour analyser les dates prises en compte par les moteurs sur différents sites, et constaté à cette occasion que :
- Google a souvent une très bonne réactivité, et pour de nombreux sites, la date indiquée correspond – à quelques jours près – à la date de création du nom de domaine, telle qu’elle est mentionnée sur des sites comme http://whois.domaintools.com/
- lorsque le site a connu une refonte majeure, la date indiquée est celle de la mise en ligne de la nouvelle interface ; il peut donc y avoir des écarts très grands avec la date de première mise en ligne du site ; le site de www.fla-consultants.com par exemple existe depuis octobre 2001, mais la date indiquée par Google est celle du 22 novembre 2011, date du lancement de la nouvelle version ;
- pour certains types de sites, et notamment pour ceux qui proposent des actualités, la méthode s’avère inefficace pour une bonne partie du site, mais peut rester valable pour d’autres.
Une requête avec site:abondance.com et date de publication postérieure à janvier 2000 indique par exemple :
- la date du 12 juillet 2012 pour la page d’accueil du site – ce qui est totalement inexacte, puisque le site existe depuis de longues années ;
- mais des dates très différentes pour d’autres parties, comme le 31 janvier 2001 pour l’Annuaire des outils de recherche régionaux en France.
A condition de rester vigilant et de recouper les informations (en interrogeant les base Whois…), on peut donc utiliser cette méthode de façon efficace, pour connaître la date de mise en ligne d’une page ou d’un site. On signalera enfin que cette recherche de date de publication peut être demandée à Google directement depuis la page de résultats, sans utiliser la colonne d’outils, en saisissant directement à la fin de l’URL la commande « &as_qdr=y15 » (le 15 signifiant « depuis 15 ans »).
C’est dommage que Google ne propose pas ce type de commande. J’utilise le moteur de recherche personnalisé et la Période personnalisée n’est pas dispo. l’astuce quand on recherche sur des forums c’est d’utiliser d’autre commande du type mot-clé +poste le *
Le soucis, c’est ce les dates que l’on trouve ne sont pas forcément les bonnes. On peut se faire une idée assez précise, mais mieux vaut ne pas prendre ce que l’on obtient au pied de la lettre !
Bonjour, En terminant l’article, je me disais : ma requête ne correspond pas tout à fait à cet article mais il n’est pas non plus Hors de propos. En outre, il vient à point dans une de mes réflexions du moment. La date mais surtout la date de mise à jour des articles. En effet ma recherche était la suivante : faire apparaître date mise a jour article dans
Très bon article, mais attention il faut différencier la date de publication et la date d’indexation, google peut mettre parfois plusieurs semaine a découvrir une page….
archive.org peut etre un autre moyen…