Analizar los rastros de Googlebot para el SEO

¿Qué es Googlebot?

Googlebot es el crawler de Google, es decir, el robot de carga. Un crawler también puede llamarse Bot o araña. Este robot es capaz, a partir de un punto de entrada de tu sitio (la URL de la página de inicio de tu sitio, por ejemplo) de aspirar todo o al menos una gran parte del contenido de tu sitio (páginas HTML, imágenes...).

El crawling Googlebot es la etapa previa e indispensable que llevan a cabo los famosos algoritmos de Google para la indexación.

De forma simplificada, se puede considerar que Googlebot es un navegador de Internet al igual que Internet Explorer, Firefox o Chrome; al pinchar en los enlaces que se encuentran en el sitio, automáticamente se protege su contenido.

Es importante entender la función y el comportamiento de Googlebot para tener una base sólida en el SEO / Posicionamiento natural.

Ver tus páginas como Googlebot

Yakaferci ofrece una herramienta para ver el contenido de texto de tus páginas como Googlebot.


Ver tu página como Googlebot:
Analizar mi página


Para iniciar el análisis con Yakaferci, basta con introducir el enlace hacia tu página en el espacio de abajo y pinchar en el botón Analizar.

¿Por qué analizar los rastros dejados por Googlebot?

Casi todos los sitios web tienen instaladas herramientas de análisis de tráfico como Google Analytics, Xiti u Omniture para analizar el comportamiento de sus visitantes con objeto de optimizar el sitio.

Lo mismo ocurre con el análisis del paso de Googlebot. Conocer la frecuencia de paso, las páginas visitadas, los dispositivos para los cuales se analiza tu sitio... te permitirán comprender mejor su funcionamiento y optimizar tu sitio para una mejor comunicación con Googlebot.

Una mejor comunicación con Googlebot permite una optimización eficiente de tu SEO.

Al facilitar la accesibilidad y la comprensión de tu sitio mediante Googlebot, optimizas el SEO de tu sitio.

Análisis de los rastros dejados por Googlebot

Gracias a las técnicas descritas al final de este artículo, se pueden recuperar los rastros que deja Googlebot cuando analiza tu sitio, lo que puede resultar muy instructivo desde el punto de vista del SEO. Estas son algunas conclusiones:

Googlebot simula la conexión de varios dispositivos a tu sitio

Hay que tener en cuenta que Googlebot carga 4 veces las mismas URL, para ello utiliza un nombre de aplicación de Internet distinto (campos HTTP «User-Agents»). Estos son 4 valores que utiliza Googlebot:

  • Mozilla/5.0: Corresponde a un navegador Firefox en un ordenador de trabajo o portátil clásico.
  • SAMSUNG-SGH-E250: Es un antiguo teléfono móvil de 2006: Google prueba de este modo una configuración antigua pero todavía en uso.
  • DoCoMo/2.0 N905i(c100;TB;W24H16): Era el equivalente al WAP japonés. El HTML de algunos sitios web se optimiza o se ha optimizado para estos dispositivos.
  • Mozilla/5.0 (iPhone; CPU iPhone OS 6_0 like Mac OS X): Estos son, por supuesto, los iPhones.

Esta información, en cualquier caso, no es secreta (consulta la página oficial de Google sobre el tema), pero no muchos la conocen.

De este modo, Google es capaz de detectar si un sitio web se ha optimizado en relación con unos dispositivos determinados. No olvidemos el objetivo principal de Google: presentar a los internautas los sitios más pertinentes en relación con sus solicitudes. Esta pertinencia pasa asimismo por la accesibilidad y la navegabilidad de tu sitio. Por tanto, cuando optimices el SEO de tu sitio, piensa también en la «navegación» y la «compatibilidad».

Se puede observar que en la actualidad no simula a los dispositivos tipo tablet (iPad...).

Googlebot también carga los CSS

La misión de origen de un motor de búsqueda consiste en extraer el contenido en texto de los sitios web y crear un índice a partir de este texto con el fin de poder buscar dentro fácilmente y presentar a los internautas los sitios más pertinentes. En este contexto, el motor de búsqueda de Google no necesita a priori archivos CSS, es decir, las hojas de estilo de tu sitio que controla la visualización.

Y no obstante, Googlebot carga los archivos CSS. ¿Por qué?

Solo Google conoce la respuesta a esta pregunta, pero podemos imaginar algunas buenas razones:

  • Los archivos CSS pueden contener URL de imágenes que Googlebot quiere cargar.
  • Los archivos CSS contienen directrices para gestionar el «Responsive Design», es decir, adaptar visualmente el mismo contenido de página en función del tamaño de la pantalla. Se sabe que Google tenderá a favorecer los sitios con Responsive Design para las búsquedas realizadas desde un smartphone.
  • Algunas técnicas inadecuadas de optimización SEO fomentan que los usuarios escriban en negro sobre fondo blanco por ejemplo. Esto permite añadir contenido específico en los motores de búsqueda. Este tipo de técnica está prohibido por Google y necesitan CSS para controlarlo.

Googlebot carga el archivo robots.txt

No es una sorpresa, pues cualquier robot de indexación bien entrenado debe verificar las normas del archivo Robots.txt. Esto define cuáles son las zonas que tienen derecho a crawler, o no.

Para más información sobre este punto consulta nuestro artículo sobre el archivo Robots.txt

Googlebot optimiza sus cargas remotas

Teniendo en cuenta el trabajo titánico de Googlebot, que debe cargar todas las páginas de todos los sitios web del mundo, es natural que intente encontrar técnicas para optimizar el tamaño y la velocidad de sus cargas.

Emplea algunas técnicas como estas:

  • Compresión de los flujos HTTP cuando el servidor web del sitio arrastrado lo acepta. Esto se realiza gracias a la línea «Accept-encoding: gzip,deflate» del encabezado HTTP enviado por Googlebot.
  • Recuperación de varias páginas con la misma conexión TCP/IP cuando el servidor web del sitio arrastrado lo acepta. Esto se realiza gracias a la línea «Connection: Keep-Alive» del encabezado HTTP enviado por Googlebot.
  • Utilización del campo HTTP «If-Modified-Since» para evitar cargar un archivo que no hubiera cambiado desde esta última visita. El envío de este campo, no obstante, no es sistemático.

Para más información sobre este punto consulta nuestro artículo sobre el protocolo HTTP

Googlebot presta atención a no inundar tu sitio de solicitudes

No hay dudas de que con los medios técnicos de Google, Googlebot sería capaz de aspirar un sitio entero en pocos minutos. Sin embargo, están pendientes de utilizar un ritmo de carga más bien lento. Esto les permite no sobrecargar los servidores de los sitios analizados ni entorpecer su buen funcionamiento.

Googlebot carga una serie de URL que no proceden ni del mapa del sitio ni de los enlaces internos de tu sitio

Tal vez te sorprendan las URL que Googlebot puede enviar sobre tu sitio. A veces, estas URL no están presentes ni en tus enlaces internos, ni en tu mapa del sitio, pero están arrastradas de todas formas.

Los motivos pueden ser distintos. Por ejemplo, si alguien ha instalado un enlace incorrecto o antiguo hacia tu sitio a partir del suyo. Para más información sobre este punto consulta nuestros artículos sobre la estrategia de link building y enlaces externos

Googlebot también carga las imágenes

Utiliza en este caso el User-Agent «Googlebot-Image»

Por supuesto, estas imágenes le permiten a Google crear la zona de búsqueda «Google Image» en su interfaz de búsqueda.

Googlebot descubre con rapidez las nuevas páginas

Frente a los líderes del tiempo real como Twitter, Google ha realizado numerosos esfuerzos estos últimos años con el fin de indexar las páginas nuevas lo más rápido posible.

Y al analizar los registros, se observa que a menudo se cargan de forma remota páginas nuevas en las horas siguientes a su publicación, e incluso si no se hubieran integrado aún en un archivo tipo mapa del sitio. Para ello, basta con que las páginas nuevas aparezcan en los enlaces internos de las páginas existentes, que Google va a detectar al verificarlas.

Sin embargo, no hay que confundir la fecha de paso de Googlebot por la nueva página con la fecha de la puesta a disposición de la nueva página en los resultados de búsqueda. Este segundo tiempo es significativamente más largo que el primero (salvo por determinados sitios con muchas noticias). Por ejemplo, la página que lees ha sido visitada por Googlebot 4 horas después de su publicación y ha empezado a aparecer en los resultados de búsqueda al cabo de 24 horas.

Métodos para recuperar los rastros de Googlebot

¿Qué rastros deja Googlebot?

Lo interesante de Googlebot es que los servidores de Google interactúan directamente con el servidor o servidores web que albergan tu sitio. Esto tiene dos consecuencias:

  • al igual que para cualquier otra interacción con otro navegador, tu servidor web posee historiales de los rastros dejados por Googlebot (a través de los archivos de registro HTTP)
  • que sus rastros sean claros e indiscutibles, al contrario que todos los intentos de análisis de buena calidad o no de los algoritmos de indexación de Google

Por estas razones es interesante analizar de cerca estos archivos de registro cada cierto tiempo. Los resultados de análisis del paso de Googlebot te ayudarán a orientar tu estrategia SEO.

Método 1: analizar los registros HTTP del servidor web de tu sitio

A día de hoy el tráfico de un sitio web es analizado por herramientas modernas de alto nivel, las más conocidas son Google Analytics, Xiti... Estas herramientas se basan en un código Javascript situado en el navegador del visitante por el sitio visitado. Este código Javascript envía al analizador toda la información que necesita. No obstante, los robots / crawlers como Googlebot no se comportan como un navegador clásico, y en concreto no activan el Javascript de estas herramientas. Por este motivo todas las visitas de Googlebot son invisibles en Google Analytics por ejemplo.

En cambio, los registros HTTP creados por los servidores web que albergan los sitios web guardan el historial de las interacciones con Googlebot al igual que todos los demás clientes web.

Si no sabes cómo recuperar estos archivos de registro HTTP, puedes ponerte en contacto con tu alojador. Atención, estos archivos pueden ser bastante grandes para sitios con mucho tráfico.

Estos archivos contienen sencillamente una línea para cada URL cargada de forma remota de tu sitio web (ya sea una página HTML, un CSS, un Javascript, un archivo de imagen...).

Como cualquier cliente web que que interactúa con un servidor web, GoogleBot tiene que declarar su nombre en el campo HTTP llamado «User-Agent». Google informa de los posibles errores de sus User-Agent en  este lugar.

Se observa por tanto que el user-agent que ha empleado Googlebot es:

Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Un determinado número de herramientas (en especial grep en un entorno Linux) permiten extraer entonces todas las líneas de tus archivos de registro que contienen por ejemplo la clave «http://www.google.com/bot.html».

# grep "http://www.google.com/bot.html" www.default-access.log
66.249.75.104 - - [11/Dec/2013:11:15:31 +0100] "GET /balises-h1-h2 HTTP/1.1" 200 8848 0 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

Ahora hace falta verificar que la dirección IP del cliente web pertenezca a Google. Esto se realiza gracias al comando nslookup, por ejemplo:

# nslookup 66.249.75.104
Authoritative answers can be found from:
75.249.66.in-addr.arpa	nameserver = ns1.google.com.

¡Esta vez podemos estar seguros de que se trata de Googlebot!

Método 2: detectar las solicitudes de Googlebot a través de programación

Esta técnica requiere algo de desarrollo: consiste simplemente en detectar a través de programación las solicitudes que provienen de Googlebot (empleando, por ejemplo, el User-Agent y un «reverse lookup») y en guardar los campos más interesantes de la solicitud HTTP que ha realizado Googlebot. Este método puede proporcionar información adicional al método 1 descrito previamente.