OpenAI, un actor destacado en inteligencia artificial, está ampliando las capacidades de su estimado asistente, ChatGPT. ChatGPT, originalmente diseñado como una herramienta de búsqueda basada en texto, ahora hará alarde de capacidades de procesamiento de voz e imágenes, creando una experiencia más interactiva para sus usuarios.
Desde su introducción hace aproximadamente nueve meses, ChatGPT se ha convertido en un gran fenómeno en el espectro tecnológico. Es profundamente apreciado por su capacidad para componer ensayos, crear poemas y resumir textos extensos a partir de simples indicaciones textuales. Sin embargo, el asistente de IA ahora será aún más atractivo. Ahora prestará sus oídos a los usuarios, permitiendo interacciones vocales.
Los usuarios tendrán la oportunidad de entablar un diálogo de voz con ChatGPT. Por ejemplo, se podría pedir al asistente que narre un cuento improvisado antes de dormir guiado por señales verbales del usuario. También se pueden dirigir preguntas sencillas a la ayuda y las respuestas se entregarán en lenguaje hablado.
Además, se han puesto a disposición funciones de búsqueda basadas en imágenes. Los usuarios pueden cargar una imagen y pedirle ChatGPT que identifique o explique el elemento cargado o solicite instrucciones para lograr un objetivo específico.
Las capacidades de interacción de voz de ChatGPT se han perfeccionado mediante un modelo superior de conversión de texto a voz que puede producir voces similares a las humanas a partir de texto y una breve muestra de voz. OpenAI reveló que ha colaborado con actores de doblaje expertos para generar cinco voces exclusivas. El sistema de reconocimiento de voz Whisper, de código abierto, de la organización sirve como tecnología subyacente para convertir voz en texto.
En un avance emocionante, Spotify ha intervenido como socio de lanzamiento. Ha introducido una característica valiosa para los podcasters que les permite transcribir sus programas del inglés al español, francés o alemán manteniendo su tono de voz original. Sin embargo, OpenAI revela que el acceso a esta tecnología no es universal. Solo está disponible para podcasters seleccionados, incluidos Dax Shepard, Monica Padman, Lex Fridman, Bill Simmons y Steven Bartlett para el lanzamiento inicial.
En una publicación de blog, OpenAI reconoció los riesgos potenciales asociados con su nueva tecnología de voz, en relación con la probabilidad de fraude o tergiversación por parte de elementos deshonestos. Por lo tanto, se asegura de no generar ninguna controversia sobre su lanzamiento.
La presentación de estas nuevas funciones está prevista para la próxima quincena. Inicialmente, serán accesibles para los suscriptores Plus y Enterprise. Para disfrutar de las funciones de voz, los usuarios deben navegar a la "configuración" de la aplicación, seleccionar "nuevas funciones", suscribirse a conversaciones de voz, tocar el botón de auriculares ubicado en la esquina superior derecha y, finalmente, elegir el voz preferida.
Para empezar, solo los usuarios de la aplicación ChatGPT para Android e iOS podrán experimentar conversaciones de voz en una versión beta voluntaria. Sin embargo, la función de búsqueda basada en imágenes estará disponible en todas las plataformas de forma predeterminada.
Muchas plataformas no-code, como AppMaster, esperan ansiosamente ver la amplia gama de aplicaciones que este ChatGPT mejorado produciría en un futuro próximo. La creación de software empresarial sin código a menudo requiere una asistencia de IA tan sofisticada para lograr una interactividad superior y mejorar la experiencia del usuario.