OpenAI anuncia su nuevo GPT-4omni de forma gratutita en ChatGPT

Por Andrea Pecho el 14 May 2024

OpenAI acaba de anunciar su nuevo modelo de lenguaje GPT-4o, una versión mucho más rápida que su conocido GPT-4 e incluso que GPT-4.5 para ChatGPT.

Ayer, la compañía tecnológica sorprendió con una publicación en su blog y una retransmisión de un mini evento enseñando todo lo que es capaz el nuevo GPT-4o («o» de omni). De esta manera, se pudo ver que la interacción persona-computadora es más natural. Asimismo, acepta cualquier como entrada (o prompt) cualquier combinación de texto, audio e imagen y genera cualquier salida de texto, audio e imagen. Ahora será capaz de responder entradas de audio en tan solo 232 milisegundos, similar al tiempo de respuesta humano en una conversación. Es así cómo podemos encontrar en el LLM:

Razonamiento mejorado
Rendimiento de audio ASR
Rendimiento de traducción de audio
Punto de referencia M3Exam
Evaluaciones de comprensión de la visión
Tokenización del idioma en 20 familias de idiomas elegidos

En la presentación se mostró cómo ChatGPT con GPT-4o puede reconocer la respiración de una persona, se mostró cómo se escribía un problema de matemáticas en una hoja y se le decía a la IA que no le diga el resultado, sino cómo se resolvía, incluso se escribió en una hoja «I <3 ChatGPT» y la IA lo interpretó del modo correcto, así como las expresiones de una persona a través de selfies. Además, en la versión web se podrá compartir pantalla para que el chatbot de OpenAI pueda escanear y resolver gráficos e incluso programas de código. Al mismo estilo de los nuevos smartphones que integran IA para traducir en tiempo real, GPT-4o tendrá la misma función.

Finalmente, tendrá seguridad incorporada a través de la filtración de datos de entrenamiento y refinar el comportamiento del modelo mediante el entrenamiento posterior. Se mencionó que GPT-4o estará disponible en ChatGPT en las próximas semanas para un grupo pequeño de socios confiables. Y tendrá ciertas mejoras en la versión de pago.