La importancia del fichero robots.txt

última actualización el 6 de noviembre de 2009, 20:10 por Carlos-vialfa
Publicado por Carlos-vialfa

El fichero robots.txt en tu sitio Web




Por lo general, siempre intentamos que nuestras páginas Web sea indexadas lo mejor posible por lo robots de los motores de búsqueda. Pero puede suceder que ciertas de nuestras paginas sean confidenciales (o estén en trabajo), o simplemente que nuestro objetivo no sea difundirlas en estos motores. Por lo tanto, debemos impedir que estos robots las indexen.

Esto se puede conseguir utilizando un fichero texto llamado robots.txt que se encuentra en la raíz de nuestro sitio Web. Este fichero indica al robot del motor de búsqueda que explorará nuestro sitio Web, acerca de lo que puede y no puede hacer en nuestro sitio. Cuando el robot de un motor de búsqueda llega a un sitio Web (por ejemplo http://www.misitio.info/), éste buscará el fichero presente en la dirección http://www.misitio.info/robots.txt. Si este fichero existe, el robot lo lee y sigue las indicaciones existentes. Si no lo encuentra, realiza la lectura y registro de la página que ha venido a visitar así como de las que pueden estar asociadas, ya que no hay ninguna prohibición.

Estructura


En un sitio Web únicamente debe existir un fichero robots.txt, y debe encontrase en la raíz del mismo. El nombre del fichero (robots.txt) siempre debe ser creado en minúsculas. Su estructura es la siguiente:

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /personal/
Disallow: /entrabajos/
Disallow: /suscriptores/precio.html

En este ejemplo:
  • User-agent: * significa que el acceso es acordado a todos los agentes (todos los robots).
  • El robot no explorará los directorios /cgi-bin/, /tmp/, /personal/ y /entrabajos/ del servidor ni el fichero /suscriptores/precio.html


El directorio /tmp/, por ejemplo, corresponde a la dirección http://www.misitio.info/tmp/. Cada directorio a excluir de la indexación del robot debe tener una línea Disallow: especifica. El comando Disallow: permite indicar que todo lo que comience con la expresión indicada no debe ser indexado.

De este modo:
Disallow: /personal no permitirá la indexación de http://www.misitio.info/personal/index.html, ni de http://www.misitio.info/personal.html.

Disallow: /personal/ no indexará http://www.misitio.info/personal/index.html, sino se aplicará a la dirección http://www.misitio.info/personal.html

Por otro lado el fichero robots.txt no debe contener líneas en blanco.
El signo (*) únicamente es aceptado en el campo User-agent.
No puede servir de comodín como en el ejemplo:
Disallow: /entrabajos/*.
Lo contrario no existe, es decir un campo permitir, como Allow:.
Finalmente, el campo de descripción (User-agent, Disallow) puede ser escrito en mayúsculas o en minúsculas.
Las líneas que comienzan con un signo " # ", es decir todo lo que se encuentra a derecha de este signo en una línea, es considerado como un comentario.

Algunos comandos clásicos e importantes del fichero robots.txt:


Disallow:/ Permite excluir todas las páginas del servidor.
Disallow: Permite no excluir ninguna página del servidor.
Un fichero robots.txt vacío o inexistente dará el mismo resultado.
User-Agent : googlebot Permite identificar un robot particular (aquí, el de google).
User-agent: googlebot
Disallow:
User-agent: *
Disallow:/ Permite al robot de google indexar todo, pero rechaza a los otros robots.

Sitemap y robots.txt


Para ayudar a Google, Yahoo y otros, y sobretodo a los motores que no tienen una interfaz con la posibilidad de indicarles el fichero sitemap de un sitio Web, podemos agregar esta indicación en el fichero, utilizando la siguiente sintaxis:
Sitemap: http://www.misitio.info/sitemap.xml

Generador de fichero robots.txt


Si deseas crear un fichero robots.txt fácilmente, y estar seguro que sea valido, puedes utilizar un generador de robots.txt.

Tener en cuenta también esta indicación encontrada en la Web


Un internauta ha descubierto que Google tomaba en cuenta una instrucción llamada “noindex” cuando era insertada en el fichero robots.txt de un sitio Web, como por ejemplo:
User-agent:Googlebot
Disallow:/personal/
Disallow:/entrabajos/
Noindex:/clientes/

Mientras que la instrucción “Disallow” indica a los robots que no tomen en cuenta el contenido de un directorio (es decir que no lo indexen, y no tome en cuenta los enlaces), “Noindex” se limitaría a la no indexación de páginas, pero identificando los enlaces que contienen. Un equivalente de la etiqueta meta “Robots” que contendría de algún modo la información "Noindex, Follow". Google habría indicado que esto estaría en prueba, y que únicamente es soportado por Google. Por lo tanto, a utilizar y probar con precaución…


El artículo original fue escrito por bg62, contribuidor de CommentCaMarche
Mejores respuestas para « La importancia del fichero robots.txt » en :
Robots.txt Ver Presentación del archivo robots.txt robots.txt es un archivo que contiene comandos para los robots que indizan motores de búsqueda y especifican qué páginas pueden o no pueden indizarse. Cuando un motor de búsqueda explora un sitio web lo primero que...
Descargar Driver MP3 Player 3503 Imation Ver Ahora tienes el driver MP3 Player 3503 Imation. Para Windows 98. Descárgalo, es GRATIS. Por favor, extraiga el contenido en una carpeta o diskette. Lea el fichero README.TXT antes de proceder a la instalación. Guarda tu driver en una carpeta...
Entradas/Salidas: Los flujos en C++ Ver Entradas/Salidas: Los flujos en C++ 1. Abrir un fichero para lectura 1.1 Apertura del fichero “datos.txt” para lectura 1.2 Lectura del contenido de “datos.txt” 2. Apertura de un fichero para escritura 2.1 Apertura del fichero “datos.txt”...
MySQL – Cargar un fichero de texto en una tabla VerPara cargar un fichero de texto definido como: $ tail /home/user1/test.txt 'nombre1',1,9 'nombre2',2,3 'nombre3',3,54 'nombre4',4,2 'nombre5',5,9 En una tabla definida como: CREATE TABLE cargartest ( ...
Sed – Eliminar una o varias líneas de un fichero VerEliminar una o varias líneas de un fichero Sintaxis sed '{[/]||[/]}d' sed '{[/][,][/]d'
Abrir un fichero RAR VerRAR es un formato de archivo, con un algoritmo de compresión sin pérdida, utilizado para la compresión de datos y es muy utilizado. Existen varios software que le permiten descomprimir un fichero RAR: IZArc (gratuito) IZArc 7-Zip (gratuito) 7zip
Descargar Driver Imation SuperDisk 240 USB VerAhora tienes el driver Imation SuperDisk 240 USB. Para Windows 2000/Me/98. Descárgalo, es GRATIS. Por favor, extraiga el contenido en una carpeta o diskette. Lea el fichero README.TXT antes de proceder a la instalación. Guarda tu driver en una...
¿Qué es un archivo? Ver¿Qué es un archivo? Un archivo es un conjunto de información binaria; es decir, un conjunto que va de 0 a 1. Este archivo puede almacenarse para mantener un registro de esta información. Un archivo de texto es un archivo que contiene caracteres...
Comandos de Linux VerTabla de los comandos principales de Linux Comando Descripción Equivalente a DOS ls listas del contenido de un directorio dir cd cambio de directorio cd cd .. directorio principal cd.. mkdir crea un...
Linux - Shell VerIntroducción a la shell El intérprete de comandos es la interfaz entre el usuario y el sistema operativo. Por esta razón, se le da el nombre inglés "shell", que significa "caparazón". Por lo tanto, la shell actúa como un intermediario entre el...