Según el medio, Heise Online, GPT-4 llegará la próxima semana y tendría un modelo Multimodal. Al parecer, el CTO de Microsoft en Alemania, Andrea Braun, confirmó esta información al medio.
De esta manera, se espera que GPT-4 cuente con un mayor tamaño que su antecesor con parámetros de hasta 100 trillones, que, en cuestiones reales, podría considerarse exagerado. Sin embargo, sí, se espera que sea más grande para tener mayor capacidad de respuesta ante situaciones difíciles y realizar respuestas más «humanas». Además, tendrá un modelo multimodal, es decir, que mantendrá el mismo sistema actual para poder tener diversas imágenes, videos, fuentes, voz hablada y más.
Del mismo modo, se explica que GPT-4 sería capaz de ver y escuchar un video y así entender la conversación e incluso se dice que podría entender las emociones de las personas que hablan. Entre otras funciones, podrá reconocer objetos y personas para extraer información que está alrededor. De esta forma, podría tener un mejor resumen de un video de YouTube, una película o un video personal como una reunión. Mientras que otra función que podrá hacer es la de transcribir llamadas y resumirlas. Finalmente, se menciona que las personas no tengan las expectativas tan altas, ya que está en constante evaluación, es probable que aún presente, errores.