GPTBot, un rastreador web automático de OpenAI

OpenAI es una empresa ya reconocida mundialmente por su inteligencia artificial ChatGPT, pero no quiere quedarse solo ahí y ahora ha desarrollado un rastreador web automático llamado GPTBot.

Pero, ¿qué objetivo tiene este rastreador web? Se encarga de recopilar los datos públicos para entrenar modelos de inteligencia artificial. Gracias a esto, se mejoraría los modelos futuros al ser más precisos y mejoren sus capacidades generales y su seguridad. Asimismo, se eliminan las fuentes que requieren acceso de pago. OpenAI dio el token de agente de usuario y cadena de agente de usuario completa para los propietarios de sitios web que desean agregarlo:

User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

Mientras que si los propietarios de sitios web desean restringirlo pueden agregar su archivo robot.txt:

User-agent: GPTBot
Disallow: /

También se puede personalizar partes del sitio web:

User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

Inteligencia Artificial

Sin embargo, esta nueva inteligencia artificial es para muchos un problema ético, ya que gira en torno a la copia de datos de sitios web de terceros. Puesto que, este rastreador web no citaría la fuente original. Finalmente, la compañía insinuó que también está entrenando la próxima versión de GPT-4, y es posible utilizar este rastreador para entrenar este modelo.