El robots.txt para el posicionamiento natural

¿Qué es un robots.txt?

Robots.txt es un archivo de texto que utiliza un formato preciso para permitir a un webmaster controlar qué zonas de su sitio está autorizado a analizar un robot de indexación. Este archivo de texto estará disponible en una URL muy precisa para un sitio determinado, por ejemplo: http://www.misitio.com/robots.txt.

Para entender bien para qué sirve un robots.txt, es necesario entender la manera en la que funcionan los robots de indexación de los motores de búsqueda (llamados también web spiders, web crawlers o Bots) como Google, Yahoo o Bing. Estas son sus acciones cuando analizan un sitio como www.misitio.com:

  • Comienzan por descargar y analizar el archivo http://www.misitio.com/robots.txt.
  • Analizan las reglas de este archivo para saber qué URL están autorizados a descargar.
  • Si el robots.txt lo autoriza, descargan la raíz del sitio, es decir, la URL http://www.misitio.com/.
  • Analizan el contenido de esta página y extraen en particular la lista de los enlaces internos que contiene.
  • A su vez, todos estos enlaces internos se descargan (si las reglas del archivo robots.txt no los filtran), y sus enlaces internos se extraen.
  • De forma recursiva todos estos enlaces se descargan y analizan (si son nuevos), hasta que el robot no vuelva a encontrar más.

Es importante entender bien que el robots.txt no es en ningún caso una manera de proteger su sitio. Un robot «bien entrenado» tendrá en cuenta este archivo para no descargar las URL no deseadas por el webmaster, pero un robot «mal entrenado» -por ejemplo un competidor que quiere aspirar tu sitio, no tiene ninguna obligación técnica de tenerlo en cuenta. Evidentemente, la totalidad de los robots de los principales motores de búsqueda (Google, Yahoo, Vista) están bien entrenados. ¡También Yakaferci!

¿Necesito un robots.txt para mi sitio?

No es totalmente obligatorio para un sitio web tener un robots.txt. Si no se tiene, se analizarán todas las URL que el robot pueda encontrar.

Para saber si necesitas un archivo robots.txt en tu sitio, plantéate esta simple pregunta: ¿hay zonas no seguras en tu sitio que no deseas ver en los resultados de búsqueda como Google, Yahoo, Bing...? Si la respuesta es sí, entonces necesitas un robots.txt. Si no, no te resultará útil.

¿Cómo se genera un archivo robots.txt?

Para crear un archivo robots.txt, es preferible utilizar un editor de texto muy simple como el bloc de notas, Textedit o Notepad.

Un archivo robots.txt contiene un conjunto de reglas. Hay 3 valores que definen una regla:

  • El User-Agent: ¿a quién se dirigen las reglas? (Todos los robots, solo Google, solo Bing...).
  • Allow / Disallow: ¿es una regla que autoriza o por el contrario filtra determinadas URL?
  • La expresión regular de URL: ¿a qué URL del sitio se dirige la regla?

Para crear un archivo robots.txt, puedes crear el archivo manualmente o bien utilizar una herramienta para generarlo automáticamente. Si necesitas un robots.txt, Yakaferci te recomienda crearlo manualmente.

A no ser que tengas un buen nivel técnico, te desaconsejamos crear robots.txt demasiado sofisticados. Hay dos motivos para esto:

  • Cuanto más complicado sea el robots.txt, más riesgo de error hay. Y un error puede tener consecuencias catastróficas: ¡Google no posicionará tus páginas públicas!
  • Si deseas utilizar expresiones regulares complicadas para las URL, debes saber que solo determinados robots (Googlebot en particular) saben interpretarlos correctamente. Por lo tanto, corres un riesgo de mala interpretación para los demás.

Ejemplo de archivo robots.txt

Aquí se muestra un ejemplo de archivo robots.txt:

# bloquee la indexación de las imágenes para los robots
User-agent: *
Disallow: /*.jpg$
Disallow: /*.png$
Disallow: /*.gif$
Disallow: /images/
Allow: /

Este ejemplo impide que los robots descarguen todas las imágenes de tu sitio (todo el dosier de imágenes, todo lo que termina en .jpg, .pgn, .gif). El resto está autorizado.

Google y robots.txt

No hay especificaciones oficiales para el formato de archivo robots.txt. Este formato surgió a partir de discusiones entre informáticos en los años 1990 y nunca se ha formalizado.

En las reglas de origen, las reglas de Disallow / Allow se leen de arriba a abajo. La primera regla que coincidía se tenía en cuenta.

Sin embargo, en la práctica, numerosos webmasters redactaban mal los robots.txt, por ejemplo de esta forma:

User-agent: *
Allow: /
Disallow: /images/

En teoría, en este ejemplo las URL que comienzan por /images/ están autorizadas, pues la directriz «Allow: /» está por encima de «Disallow: /images/». Sin embargo, se observa que la intención del webmaster era prohibir la indexación de /images/.

Por esa razón Google ha adaptado su gestión de robots.txt, para otorgar prioridad a la regla correspondiente más precisa en relación con la URL. Por lo tanto, por ejemplo, la URL /images/logo.png es más cercana a /images/ que a /. Por lo tanto, Google tomará en cuenta la regla «Disallow: /images/».

El motor de análisis de Yakaferci tiene en cuenta estas características.

Analizador de archivo robots.txt

Yakaferci ofrece una herramienta para detectar las URL bloqueadas por un archivo robots.txt.


Audita tu sitio web gratis:
Analizar mi página


Para iniciar el análisis de Yakaferci, basta con introducir el enlace hacia tu página en el cuadro de aquí arriba y pinchar en el botón Analizar. De este modo podrás acceder a las distintas páginas del informe, en especial la de robots.txt.

Para saber más

Si este artículo te ha despertado interés por saber más sobre el tema de los Robots.txt, aquí tienes algunos enlaces útiles: