¿Qué es Robots.txt?

¿Que es robots.txt?

Un archivo robots.txt es un conjunto de instrucciones que indican a los motores de búsqueda qué páginas deben rastrearse en un sitio web y cuáles no. Este archivo guía el acceso de los rastreadores, pero no debe utilizarse para mantener páginas fuera del índice de Google.

Los archivos robots.txt pueden parecer complicados, pero la sintaxis (lenguaje informático) es sencilla.

Antes de entrar en detalles, vamos a aclarar en qué se diferencia robots.txt de algunos términos que suenan similares.

septiembre 26, 2024
3:11 pm

¿Cómo funciona un archivo Robots.txt?

Los archivos robots.txt indican a los robots de los motores de búsqueda qué URL deben rastrear y (lo que es más importante) cuáles ignorar.

A medida que rastrean páginas web, los robots de los motores de búsqueda descubren y siguen enlaces. Este proceso los lleva del sitio A al sitio B y al sitio C a través de enlaces, páginas y sitios web.

Pero si un bot encuentra un archivo robots.txt, lo leerá antes de hacer cualquier otra cosa.

La sintaxis es sencilla.

Las reglas se asignan identificando el “agente de usuario” (robot del motor de búsqueda) y especificando las directivas (reglas).

También puede utilizar un asterisco (*) para asignar directivas a cada agente de usuario, lo que aplica la regla para todos los bots.

Cómo encontrar un archivo robots.txt

Su archivo robots.txt está alojado en su servidor, al igual que cualquier otro archivo en su sitio web.

Puede ver el archivo robots.txt de cualquier sitio web escribiendo la URL completa de la página de inicio y agregando “/robots.txt” al final.

Así: “https://jrcweb.es/robots.txt”.

Explicación de la sintaxis de Robots.txt

Un archivo robots.txt se compone de:

Uno o más bloques de “directivas” (reglas)
Cada uno con un “agente de usuario” específico (robot de motor de búsqueda)
Y una instrucción de “permitir” o “no permitir”
La directiva User-Agent
La primera línea de cada bloque de directiva es el agente de usuario, que identifica al rastreador.
Si desea indicarle a Googlebot que no rastree su página de administración de WordPress, por ejemplo, su directiva comenzará con:
User-agent: Googlebot
Disallow: /wp-admin/
La directiva Disallow Robots.txt (Dispersión de robots.txt)
La segunda línea de una directiva robots.txt es la línea “disallow”.
Puede tener varias directivas de prohibición que especifiquen a qué partes de su sitio no puede acceder el rastreador.
Una línea de prohibición vacía significa que no está prohibiendo nada: un rastreador puede acceder a todas las secciones de su sitio.
Por ejemplo, si quisieras permitir que todos los motores de búsqueda rastreen todo tu sitio, tu bloque se vería así:
User-agent: *
Allow: /

La directiva Allow

La directiva “permitir” permite a los motores de búsqueda rastrear un subdirectorio o una página específica, incluso en un directorio que de otro modo no estaría permitido.

Por ejemplo, si quieres evitar que Googlebot acceda a todas las publicaciones de tu blog excepto una, tu directiva podría verse así:

User-agent: Googlebot
Disallow: /blog
Allow: /blog/example-post

La Directiva del Mapa del Sitio

La directiva Sitemap le dice a los motores de búsqueda, específicamente Bing, Yandex y Google, dónde encontrar su mapa del sitio XML .

Los mapas del sitio generalmente incluyen las páginas que desea que los motores de búsqueda rastreen e indexen.

Esta directiva se encuentra en la parte superior o inferior de un archivo robots.txt y tiene este aspecto:

Cómo crear un archivo robots.txt

Comience abriendo un documento .txt dentro de un editor de texto o un navegador web.

A continuación, nombre el documento “robots.txt”.

Ahora estás listo para comenzar a escribir directivas.

Un archivo robots.txt consta de uno o más grupos de directivas y cada grupo consta de varias líneas de instrucciones.

Cada grupo comienza con un agente de usuario y tiene la siguiente información:

A quién se aplica el grupo (el agente de usuario)
¿A qué directorios (páginas) o archivos debe acceder el agente?
¿A qué directorios (páginas) o archivos no debe acceder el agente?
Un mapa del sitio (opcional) para indicar a los motores de búsqueda qué páginas y archivos considera importantes

Los rastreadores ignoran las líneas que no coinciden con estas directivas.

Digamos que no quieres que Google rastree tu directorio “/clients/” porque es solo para uso interno.

El primer grupo se vería así:

User-agent: Googlebot
Disallow: /nogooglebot/

User-agent: *
Allow: /

Sitemap: https://www.example.com/sitemap.xml

Sube el archivo Robots.txt

Después de haber guardado el archivo robots.txt en su computadora, cárguelo en su sitio y póngalo a disposición de los motores de búsqueda para que lo rastreen.

Desafortunadamente no existe una herramienta universal para este paso.

La carga del archivo robots.txt depende de la estructura de archivos de su sitio y del alojamiento web.

Busque en línea o comuníquese con su proveedor de alojamiento para obtener ayuda para cargar su archivo robots.txt.

Por ejemplo, puedes buscar «cargar archivo robots.txt a WordPress».

Después de cargar el archivo, verifique si alguien puede verlo y si Google puede leerlo.

Aqui te mostramos algunos articulos que t explican como hacerlo: