Google, indexation et vie privée : 3 questions à Olivier Duffez

Au cours de notre enquête, nous avons découvert un grand nombre de documents et de dossiers confidentiels. Outre les données médicales, un grand nombre de documents privés sont indexés par Google. Sauvegarde de bases de données de mutuelles, d'agences immobilières, documents administratifs hébergées sur des "Box" personnelles... Comment Google indexe-t-il ces données ? Comment s'en prémunir ?

Les réponses d'Olivier Duffez, consultant SEO indépendant, créateur du site WebRankInfo, le plus gros portail francophone sur le référencement.

Google, indexation et vie privée : 3 questions à Olivier DuffezActuSoins : Comment explique-t-on le fait de retrouver dans les résultats de recherche des pages ou des dossiers qui ne sont pas destinés à être publics ?

Comme tous les principaux moteurs de recherche, Google cherche à indexer tous les documents librement consultables sur le web. On pourrait dire que le principe suivant est appliqué : "Si ce n'est pas interdit, alors c'est que j'ai le droit".

Peu importe comment Google a pu connaître l'existence du document (par un lien depuis un autre document déjà connu, par un fichier sitemap, par un partage sur Google+, etc.), ce qui compte c'est la consigne donnée par le webmaster du site concerné. S'il n'indique pas clairement que Google n'a pas le droit d'indexer le document, alors il risque d'être indexé.

Ainsi, il peut arriver que des documents se retrouvent indexés dans Google alors que le webmaster n'avait pas imaginé que cela puisse se produire. Il s'agit alors forcément d'un oubli de sa part ou d'une erreur de configuration.Pour se protéger contre cette situation, la meilleure solution est sans doute de protéger les documents sensibles en exigeant un login et un mot de passe pour les consulter. Dans ce cas bien entendu ils ne pourront pas être indexés.

Si l'on souhaite se protéger mais sans obliger les internautes à saisir un mot de passe, il faut bien comprendre la distinction entre le crawl et l'indexation.

Il est possible de paramétrer un blocage en amont : le webmaster peut interdire à Google (et/ou aux autres moteurs) de consulter un document, en utilisant le fichier robots.txt. C'est comme si l'on placardait un panneau "Défense d'entrer" sur une porte pourtant non fermée à clé. Les moteurs "sérieux" (comme Google ou Bing) respecteront cette consigne et n'iront pas voir ("crawler") les documents concernés. Ces derniers ne seront donc pas indexés (à condition d'avoir défini l'interdiction dès la mise en ligne des documents).

Il est également possible de paramétrer un blocage en aval, via la balise meta robots, en interdisant l'indexation (valeur noindex). Dans ce cas, le moteur est venu consulter le document, mais manque de chance pour lui, il est venu pour rien car on lui demande de bien vouloir ne pas l'indexer.

Même après suppression de ces documents, on retrouve leurs trace dans le cache de Google. Comment fonctionne ce cache ? Quelle est sa durée ?

Pour constituer son index, Google garde en permanence sur ses serveurs une copie de chaque document indexé. C’est sur cette version qu’il se base pour déterminer la pertinence par rapport aux requêtes des internautes.
Quand un document est supprimé d'un site web, les internautes ne peuvent plus le consulter. Mais si sa version en cache (par exemple chez Google) n'a pas été supprimée, ils peuvent encore le consulter. C'est au webmaster de faire en sorte de désindexer les documents qu’il souhaite.

Cela ne suffit pas de supprimer le document du site, car cela génère une erreur 404 : le document pourra malgré tout rester dans l’index pendant de longs mois.

Pour faire désindexer un document, le mieux est d’aller faire la demande dans Google Webmaster Tools. Il faudra que le document ait été supprimé, ou qu’il contienne une balise meta robots noindex, ou qu’il soit interdit de crawl (fichier robots.txt).

Google semble disposer une fonction de reconnaissance de caractères qui lui permet d'analyser et d'indexer le contenu d'un fichier pdf. Pouvez-vous nous donner plus d'informations à ce sujet ? Cette technologie va-t-elle encore se développer à l'avenir ? Sous quelle forme ? Quelles conséquences potentielles pour nos informations personnelles ?

Google a annoncé en octobre 2008 qu’une reconnaissance de caractères (OCR) était pratiquée sur les fichiers images ou PDF indexés. En plus de savoir parfaitement indexer des documents PDF, Word, Excel, etc. Google sait donc aussi reconnaître les textes présents dans des images, sous certaines réserves de qualité du document.

Google sait également faire d’autres types de reconnaissance, par exemple de visages (c’est utilisé notamment dans Picasa et Google+).
On comprend bien qu'il faut faire attention à tous types d'information, car tôt ou tard Google saura l'indexer. Le principe de précaution doit s'appliquer plus que jamais !

Propos recueillis par Thomas Duvernoy

Abonnez-vous à la newsletter des soignants :

Faire un don

Vous avez aimé cet article ? Faites un don pour nous aider à vous fournir du contenu de qualité !

faire un don

Il faut être connecté pour écrire un commentaire Se connecter

retour haut de page
203 rq / 1,435 sec