Hace unas semanas leía el siguiente tweet de Tom Critchlow en el que incluía un link a un post en el foro de Webmasters de Google en el que se decía que incluir el botón +1 de Google en una página bloqueada en el robots.txt podía anular dicho bloqueo y causar que la página se indexase:
Al día siguiente por la mañana volvía a leer la noticia en Twitter, de la mano de Fernando Maciá y Aleyda:
A pesar de que la explicación que da John Mueller en el post tiene cierto sentido y coherencia, no me parece lógico por parte de Google ignorar una regla restrictiva por la presencia de un simple botón.
Básicamente, alguien comenta en el post que ha visto una página en searchengineland.com que, estando bloqueada por el robots.txt, incluye el botón +1 y que este funciona (que se esperaba que no funcionase por estar la URL bloqueada), y dice que además se está indexando esa URL (y las que cuelgan de ella, estando todo el subdominio bloqueado). La respuesta es:
Si incluyes el botón +1 en tus páginas, asumimos que estás de acuerdo en que nosotros tengamos acceso a esas páginas, incluso si están bloqueadas en el fichero robots.txt. En general, los usuarios no saben nada acerca de los ficheros robots.txt, por lo que ellos podrán hacer +1 o re-compartir cualquier URL que encuentren lo suficientemente interesante. Necesitamos poder acceder a la página para conseguir el título y el snippet y, dependiendo de lo que haga el usuario, podrá resultar en que el contenido de la página sea rastreable e indexable para las búsquedas (por ejemplo, si ellos comparten públicamente esa URL)
(..)
Esto da a entender lo que se comentaba en los tweets anteriores: que incluyendo el botón +1 de Google en páginas bloqueadas por el robots.txt puede causar que esas páginas se indexen.
Bien, discusiones a parte de si es lógico o no incluir un +1 en una URL bloqueada(como siempre, no todo es 1 ó 0), lo que creo que nos interesa a todos es saber si esto es así realmente o no, por lo que hice una prueba, que consistió en:
- Crear 5 URLs en este blog, con las siguientes características:
- Una bloqueada en el robots.txt y con el botón +1
- Una bloqueada en el robots.txt y sin el botón +1
- Una con la etiqueta <meta name=”robots” content=”noindex, nofollow” /> y con el botón +1
- Una con la etiqueta <meta name=”robots” content=”noindex, nofollow” />, con el botón +1 y eliminada manualmente en GWT
- Una sin ningún tipo de restricción/bloqueo y con el botón +1
- La URL 5 se ha indexado correctamente, como debería ser al no tener ningún tipo de restricción:
- Las URLs bloqueadas por el robots.txt (URLs 1 y 2) se “indexaron”; esto es, sólo la URL y el título de la página. No hay descripción, no hay preview, no hay caché. Sólo salen buscando las palabras clave del título en específico o haciendo un site y mostrando resultados omitidos:
- En cuanto a las otras dos URLs (URLs 3 y 4), que son las que incluyen la etiqueta <meta name=”robots” content=”noindex, nofollow” />, no se han indexado ni hay rastro de ellas:
¿Afecta el botón +1 de Google a las restricciones del robots.txt en cuanto a indexado?
Las dos URLs bloqueadas por el robots.txt teniendo y sin tener el botón +1 de Google, han mostrado el mismo comportamiento que cualquier URL bloqueada por un robots.txt ha tenido en al menos el último año: si hay enlaces apuntando a esa URL, se indexa sólo la URL. Lo de que se indexe también el título es la primera vez que lo veo. En este caso, los +1s (si la persona que los hace los tiene públicos en su perfil de Google+, como es mi caso) se convierten en enlaces, cuyo anchor text en este caso se supone que es el contenido de la etiqueta del opengraph og:title (el título del post)
Yo en cualquier caso sigo con mis preguntas en el post; las últimas que hice de respuesta sí/no fueron (traduzco):
a) ¿Puede una URL bloqueada con cualquier método (con el fichero robots.txt o con la etiqueta meta robots) a los rastreadores de Google ser indexada (de una forma normal, como si no estuviese bloqueada) sólo porque aparece el botón +1 en ella y alguien lo ha clicado?
b) Si es así, se aplica lo mismo si no se incluye el botón +1 pero alguien utiliza la extensión para Chrome para hacer +1 en esa URL?
Y las respuestas (traduzco):
a) Esta es una situación extraña, por un lado hay señales que indican que el contenido no debería ser rastreado o indexado, por otro, hay señales que indican que el webmaster quiere que el contenido sea promovido y recomendado públicamente. Mi recomendación sería asegurarse de que este tipo de conflito no aparece y que elijas explícitamente uno o otro.
b) No, eso es diferente. En un caso como ese, el webmaster no está dando señales explícitas de que quiere que su contenido sea promovido / recomendado.
Vamos, que por parte de Google sigo sin tener una respuesta concreta a la primera pregunta. Puedes leer el hilo completo y aportar lo que desees en: http://www.google.com/support/forum/p/Webmasters/thread?tid=5cbb1b56ed0b08da&hl=en.
Por cierto, en el caso que se exponía en el foro, que es http://search.searchengineland.com/, cuyo robots.txt bloquea todo el contenido de ese subdominio, el botón +1 referencia a la home de searchengineland, no a la página en la que está ubicado; haciendo un site:searchengineland.com salen un montón de URLs con preview, título y descripción pero sin link a la caché:
Haciendo el site con una ‘/’ al final la situación es un poco distinta. De entrada sólo aparece la URL del subdominio y los demás resultados omitidos. Al mostrarlos todos, sólo salen las URLs (algunas con título):
El hecho de que muestre cosas distintas utilizando la ‘/’ al final que sin usarla me desconcierta. ¿Alguien sabe por qué sucede esto?
¿Qué piensas al respecto? ¿Se me está escapando algo en el test y lo estoy haciendo mal? Por otro lado, si pensamos friamente que Google puede ignorar reglas restrictivas de acceso por otras señales (hoy es el +1, mañana que la gente twittea mucho esa URL), ¿de qué sirven estas reglas? Al final el robots.txt y la etiqueta noindex serían inútiles y directamente tenemos que poner todo público excepto lo que no queremos que se indexe.