Un archivo robots.txt es un conjunto de instrucciones que indican a los motores de búsqueda qué páginas deben rastrearse en un sitio web y cuáles no. Este archivo guía el acceso de los rastreadores, pero no debe utilizarse para mantener páginas fuera del índice de Google.
Los archivos robots.txt pueden parecer complicados, pero la sintaxis (lenguaje informático) es sencilla.
Antes de entrar en detalles, vamos a aclarar en qué se diferencia robots.txt de algunos términos que suenan similares.
Los archivos robots.txt indican a los robots de los motores de búsqueda qué URL deben rastrear y (lo que es más importante) cuáles ignorar.
A medida que rastrean páginas web, los robots de los motores de búsqueda descubren y siguen enlaces. Este proceso los lleva del sitio A al sitio B y al sitio C a través de enlaces, páginas y sitios web.
Pero si un bot encuentra un archivo robots.txt, lo leerá antes de hacer cualquier otra cosa.
La sintaxis es sencilla.
Las reglas se asignan identificando el “agente de usuario” (robot del motor de búsqueda) y especificando las directivas (reglas).
También puede utilizar un asterisco (*) para asignar directivas a cada agente de usuario, lo que aplica la regla para todos los bots.
Su archivo robots.txt está alojado en su servidor, al igual que cualquier otro archivo en su sitio web.
Puede ver el archivo robots.txt de cualquier sitio web escribiendo la URL completa de la página de inicio y agregando “/robots.txt” al final.
Así: “https://jrcweb.es/robots.txt”.
Un archivo robots.txt se compone de:
La primera línea de cada bloque de directiva es el agente de usuario, que identifica al rastreador.
Si desea indicarle a Googlebot que no rastree su página de administración de WordPress, por ejemplo, su directiva comenzará con:
La segunda línea de una directiva robots.txt es la línea “disallow”.
Puede tener varias directivas de prohibición que especifiquen a qué partes de su sitio no puede acceder el rastreador.
Una línea de prohibición vacía significa que no está prohibiendo nada: un rastreador puede acceder a todas las secciones de su sitio.
Por ejemplo, si quisieras permitir que todos los motores de búsqueda rastreen todo tu sitio, tu bloque se vería así:
La directiva “permitir” permite a los motores de búsqueda rastrear un subdirectorio o una página específica, incluso en un directorio que de otro modo no estaría permitido.
Por ejemplo, si quieres evitar que Googlebot acceda a todas las publicaciones de tu blog excepto una, tu directiva podría verse así:
User-agent: Googlebot
Disallow: /blog
Allow: /blog/example-post
La directiva Sitemap le dice a los motores de búsqueda, específicamente Bing, Yandex y Google, dónde encontrar su mapa del sitio XML .
Los mapas del sitio generalmente incluyen las páginas que desea que los motores de búsqueda rastreen e indexen.
Esta directiva se encuentra en la parte superior o inferior de un archivo robots.txt y tiene este aspecto:
Comience abriendo un documento .txt dentro de un editor de texto o un navegador web.
A continuación, nombre el documento “robots.txt”.
Ahora estás listo para comenzar a escribir directivas.
Un archivo robots.txt consta de uno o más grupos de directivas y cada grupo consta de varias líneas de instrucciones.
Cada grupo comienza con un agente de usuario y tiene la siguiente información:
Los rastreadores ignoran las líneas que no coinciden con estas directivas.
Digamos que no quieres que Google rastree tu directorio “/clients/” porque es solo para uso interno.
El primer grupo se vería así:
User-agent: Googlebot Disallow: /nogooglebot/ User-agent: * Allow: / Sitemap: https://www.example.com/sitemap.xml
Después de haber guardado el archivo robots.txt en su computadora, cárguelo en su sitio y póngalo a disposición de los motores de búsqueda para que lo rastreen.
Desafortunadamente no existe una herramienta universal para este paso.
La carga del archivo robots.txt depende de la estructura de archivos de su sitio y del alojamiento web.
Busque en línea o comuníquese con su proveedor de alojamiento para obtener ayuda para cargar su archivo robots.txt.
Por ejemplo, puedes buscar «cargar archivo robots.txt a WordPress».
Después de cargar el archivo, verifique si alguien puede verlo y si Google puede leerlo.
Aqui te mostramos algunos articulos que t explican como hacerlo:
Atención al cliente
Servicios de marketing
Síguenos en las redes