Crédito: Freepick
Black Mirror es real: reconocimiento de emociones, traducción simultánea e interacción con video gracias a ChatGPT
- Noticia relacionada:
- Tecnología
- Entretenimiento
Ya está al aire la nueva actualización de ChatGPT y estas son sus nuevas posibilidades.
Por: Redacción Cambio
Mira Murati, ingeniera nacida en Albania y directora de tecnología (CTO, por su sigla en inglés) de OpenAI, moderó un video en vivo de 26 minutos para resaltar las bondades de la actualización de ChatGPT.
Antes de mostrar en vivo y en directo las impresionantes posibilidades de interacción con voz, video y audio de GPT-4o, la ejecutiva fue reiterativa en que el avance más importante de la compañía sigue siendo la democratización de su tecnología.
Por eso, orgullosa y sonriente, al presentar la nueva interfaz, dejó claro que esta es mucho más rápida, intuitiva y accesible que GPT Turbo, la versión anterior. Para eliminar la “fricción” a la hora de interactuar con el sistema, Murati anunció que para acceder a sus herramientas no hace falta siquiera loguearse como usuario. Además, elogió la experiencia del usuario en la aplicación para escritorio de GPT-4o y anunció que hubo una mejoría abismal en respuesta y velocidad en más de 50 idiomas que el modelo entiende.
Para concluir con el mensaje de universalización de la herramienta, Murati anunció que las nuevas capacidades y bondades de esta estarán disponibles para los desarrolladores vía OpenAI's API, con la buena nueva de que GPT-4o es dos veces más barata y cuatro veces más rápida que su versión anterior GPT Turbo.
Más creatividad
Para nadie es un secreto que ChatGPT se ha vuelto un aliado, en muchos casos imprescindible, para creadores de contenido, escritores, estudiantes, diseñadores y artistas. Por eso no es casualidad que la nueva versión tenga como una de sus principales virtudes haber refinado su capacidad para crear imágenes y textos a partir de las “instrucciones” de los usuarios.
Una de las capacidades más valoradas del nuevo sistema es su cada vez mayor entendimiento del estilo de escritura del usuario, así como la disminución en sus “alucinaciones” –respuestas desfasadas– y el mayor filtro con respecto a respuestas con sesgos de raza o de género.
En el video en vivo con el que se lanzó la actualización, se puso en evidencia la evolución del modelo para resolver problemas sencillos y complejos: primero logró con éxito darle consejos en viva voz a un ejecutivo de la compañía para resolver una ecuación lineal; después interpretó en voz alta una gráfica que daba cuenta de la fluctuación de la temperatura en un año calendario y por último analizó las variables de un código que otro ejecutivo puso en su poder.
Lo anterior es una confirmación de las posibilidades –y desviaciones– pedagógicas del modelo, tan hábil para la clarificación como para el plagio.
Modo de voz –¿y empatía?–
Si bien el modelo anterior ya recibía instrucciones por voz, la nueva actualización tiene la ambición de que la respuesta de la máquina no tarde más de 232 milisegundos (es decir, el tiempo promedio que tardan los seres humanos para responder en una conversación). Además, para acercarse aún más a una interacción orgánica, a diferencia de la versión anterior, GPT-4o puede ser interrumpida si el usuario considera que la respuesta no es satisfactoria o está siendo demasiado larga.
Lo más impresionante –y miedoso– es que el nuevo modelo puede interpretar el estado emocional del usuario a partir del tono de su voz. Y, así mismo, generar audios (buenas noticias para los podcasters) con un amplio espectro de emociones: desde la excitación y el melodrama hasta el canto melódico. Esto, inevitablemente, abre el debate sobre el futuro de los seres humanos que trabajan en sectores como el servicio al cliente.
El modo de voz funcionará con los nuevos estándares de respuesta y velocidad en los 50 idiomas que entiende el modelo. Esto es especialmente interesante al tener en cuenta que GPT-4o sirve desde ahora como traductor simultáneo y en tiempo real, como lo dejaron ver en el lanzamiento al pedirle que tradujera del italiano al inglés y del inglés al italiano.
Interacción textual y visual
Otra novedad importante de este modelo es su refinada capacidad para interactuar con imágenes. Ahora, los usuarios van a poder descargar imágenes en la plataforma de GPT-4o y pedirle acciones y hallazgos sobre estas. En el video de lanzamiento, al procesar una imagen que decía “Yo amo GPT-4o”, la plataforma le agradeció al usuario el halago y le confesó sentir vergüenza.
En cuanto a la interacción con texto, desde ahora será posible copiar links de páginas de navegación para que el modelo interactúe con ellas, superando así la limitación que le exigía al usuario escribir manualmente los textos. También incrementó, a 25.000, el número de palabras por usuario para interactuar con la máquina.
Las proyecciones de la industria
Según Bloomberg, en 2032 la industria de la inteligencia artificial generativa va a tener ganancias de 1,3 billones de dólares. En el 2023 se invirtieron en la industria 29,1 billones de dólares, 260 por ciento más que en 2022.
En cuanto a ChatGPT, el modelo sigue con el récord de la aplicación en tecnología con mayor crecimiento en la historia y hoy reporta más de 100 millones de usuarios activos semanalmente.
Según OpenAI, el 92 por ciento de las empresas pertenecientes al prestigioso ranking Fortune 500 usan su herramienta.
Cinco minutos después del inicio del anuncio de OpenAI, las acciones de Duolingo colapsaban. Y obvio. ¿Cuál será el incentivo de aprender un idioma nuevo cuando ChatGPT puede traducir lo que dice un hablante en 232 milisegundos? pic.twitter.com/mQDAMzbYSf