Los agentes de Robots.txt que usan ChatGPT para acceder a tu contenido

Los agentes de Robots.txt que usan ChatGPT para acceder a tu contenido


Categorías: Destacada, Internet
Etiquetas:

OpenAI emplea una variedad de bots para interacciones específicas en sitios web, recopilando datos que alimentan sus modelos de IA, incluido ChatGPT.

GPTBot y ChatGPT Search son parte de esta suite de herramientas, según los documentos oficiales de la empresa liderada por Sam Altman.

Los bots para Robots.txt son los siguientes:

Cada bot opera de forma independiente, permitiendo a los gestores web controlar su interacción con cada uno a través de ajustes específicos.

Cuando OpenAI introdujo su buscador generativo con tecnología de BING, renombrado a ChatGPT SearchGPT, varios medios, incluido THE NEW YORK TIMES, bloquearon a OAI-SearchBot, protegiendo su contenido de uso no autorizado y preocupados por la posible afectación a sus ingresos. Esta acción llevó a litigios contra OpenAI y MICROSOFT por parte de algunos de estos medios.

Por otro lado, algunos medios han optado por formar alianzas con OpenAI, participando en su programa de licencias de noticias, lo que les permite tener enlaces destacados en las búsquedas de SearchGPT.

En España, grupos como PRISA con publicaciones como EL PAÍS y AS, entre otros, forman parte de este tipo de acuerdos.

Cómo impedir que OpenAI ChatGPT utilice el contenido de su sitio web

Si como SEO no quieres aparece en las búsquedada IA de ChatGPT debes bloquearlo en tu archivo robots.txt. Estas son la líneas

User-agent: ChatGPT-User 
Disallow: /
User-agent: OAI-SearchBot 
Disallow: /
User-agent: GPTBot 
Disallow: /

Para confirmar que el archivo robots.txt funciona correctamente, puede visitar « https://yourwebsite.com/robots.txt » en su navegador. Robots.txt es un estándar que utilizan los sitios web para indicar a los robots de rastreo y de extracción de datos qué páginas o archivos pueden o no solicitar de su sitio. No todos los robots cumplen con este estándar, pero ChatGPT de OpenAI lo respeta. Si realiza modificaciones simples en el archivo `robots.txt` de su sitio, puede administrar el acceso de varios robots de rastreo, incluido ChatGPT.

Bloqueo avanzado de ChatGPT por directorios. Este ejemplo seria por los tres bots si lo quieres hacer bien

  • Para bloquear todas las páginas de un directorio, pero permitir un archivo específico:

User-agent: ChatGPT-User
Disallow: /privatePage/ 
Allow: /privatePage/publicFile.jpg
User-agent: OAI-SearchBot 
Disallow: /privatePage/ 
Allow: /privatePage/publicFile.jpg
User-agent: GPTBot 
Disallow: /privatePage/ 
Allow: /privatePage/publicFile.jpg
  • Para bloquear una página específica

User-agent: ChatGPT-User 
Disallow: /privatePage/
User-agent: OAI-SearchBot
Disallow: /privatePage/
User-agent: GPTBot 
Disallow: /privatePage/
  • Para bloquear un archivo específico

User-agent: ChatGPT-User 
Disallow: /privatePage/privateFile.html
User-agent: OAI-SearchBot 
Disallow: /privatePage/privateFile.html
User-agent: GPTBot 
Disallow: /privatePage/privateFile.html
. Leer artículo completo en Frikipandi Los agentes de Robots.txt que usan ChatGPT para acceder a tu contenido.

Entradas recientes para Los agentes de Robots.txt que usan ChatGPT para acceder a tu contenido

  1. State of Play regresa el 12 de febrero a las 23:00 
  2. Sid Meier's Civilization VII nueva entrega de unos de los videojuegos más famosos ya disponible
  3. Avast refuerza su solución de protección de identidad para frenar el auge de los robos de identidad
  4. La nueva actualización World of Tanks Blitz: Reforged llega con toda la potencia de Unreal Engine 5
  5. HONOR Magic7 PORSCHE DESIGN RSR: el smartphone que lleva el lujo y el rendimiento al siguiente nivel
Salir de la versión móvil