Guía SEO de Google para Principiantes: Crear robots.txt
El archivo “robots.txt” les dice a los motores de búsqueda a qué partes de tu sitio pueden acceder y consecuentemente rastrear. Este archivo se debe llamar “robots.txt”, y tiene que estar en el directorio raíz de tu sitio.

Los robots de cualquier motor de búsqueda (señalados con el carácter comodín *) que siguen las normas no deberían acceder ni rastrear el contenido bajo el directorio /imagenes/ ni cualquier URL que empiece con /busqueda.
Puede que haya algunas páginas de tu sitio que no quieras que sean rastreadas si no van a ser útiles para los usuarios cuando las encuentren en los resultados de búsqueda. Si quieres evitar que los motores de búsqueda rastreen tus páginas, las Herramientas para webmasters de Google tienen un sencillo generador de robots.txt para ayudarte a crear el archivo. Hay que tener en cuenta que si tu sitio usa subdominios y quieres que algunas páginas no sean rastreadas para ese subdominio, tendrás que crear un archivo robots.txt específico de ese subdominio.
Hay unas cuantas maneras más de impedir que tu contenido aparezca en los resultados de búsqueda, como por ejemplo añadir la metaetiqueta “NOINDEX”, usar .htaccess para proteger directorios con contraseña o usar las Herramientas para webmasters de Google para quitar contenido que ya ha sido rastreado.
Buenas prácticas para el archivo robots.txt
- Usa métodos más seguros para el contenido delicado. Bloquear material delicado o confidencial con robots.txt no debería dejarte tranquilo. Una de las razones es que los motores de búsqueda aún podrían hacer referencia a esas URL que están bloqueadas (mostrando solamente la URL, sin título ni descripción) si hay enlaces a esas URL en alguna parte de Internet. Además, los motores de búsqueda que no siguen las normas de Robots Exclusion Standard podrían desobedecer las instrucciones de tu robots.txt. Por último, un usuario curioso podría estudiar los directorios y subdominios en tu robots.txt y adivinar la URL del contenido que no quieres que sea visto. Hay alternativas más seguras como encriptar el contenido o protegerlo con una contraseña en .htaccess.
Evita:
- permitir rastrear páginas de resultados de búsqueda muy parecidas (a los usuarios no les gusta salir de una página de resultados de búsqueda para llegar a otra que no añade ningún valor)
- permitir rastrear un gran número de páginas autogeneradas con contenido similar o ligeramente modificado: “¿Deberían estar en el índice de un motor de búsqueda 100.000 páginas casi idénticas?”
- permitir rastrear URL creadas como resultado de servicios de proxy
Por supuesto, aquellos interesados en descargarse la guía SEO de Google para principiantes en PDF pueden hacerlo desde el siguiente botón de descarga (al final de cada entrada agregaremos el botón de descarga para que todos puedan acceder al documento en PDF):
Al pulsar en el botón se abrirá la guía SEO y solo tendrás que pulsar en el segundo ícono del menú superior del documento PDF (con forma de diskette) para guardarlo en tu PC.

