El nuevo ChatGPT-4o
La empresa desarrolladora de herramientas de Inteligencia Artificial anunció el lanzamiento de la última versión de su chatbot. El modelo puede procesar texto, audio y video.
Open AI presentó una nueva versión gratuita de su chatbot, que puede recibir y responder a comandos de voz, imágenes y videos. Esta nueva tecnología es lo que se conoce como IA Multimodal, esencialmente es combinar chatbots con generadores de imágenes, audio y videos de inteligencia artificial.
La innovación de la empresa californiana es juntar esos procesos, que hasta ahora funcionaban como islotes separados, fusionarlos en un solo modelo que optimiza el rendimiento y disminuye la latencia de respuestas.
Desde la empresa explicaron que el objetivo detrás del desarrollo de esta tecnología fue dar "un paso hacia una interacción persona-computadora mucho más natural". En este sentido, explicaron que GPT-4o es capaz de interpretar cualquier combinación de texto, audio e imagen y generar una respuesta combinando esos tres canales. Asimismo, destacaron que el modelo es superior en "en lo que es visión y comprensión de audio en comparación con los modelos existentes".
A su vez, detallaron que puede responder a entradas de audio en tan solo 232 milisegundos, con un promedio de 320 milisegundos, que es similar al tiempo de respuesta humano en una conversación.