ChatGPT ahora puede ver, oír y hablar

Una nueva era de interacción con inteligencia artificial comienza con la implementación de capacidades de voz e imagen en ChatGPT.

Tecnología26 de septiembre de 2023Carlos MondinoCarlos Mondino
Chat GPT escucha y ve
Nuevas funciones del Chat GPT

La inteligencia artificial (IA) ha recorrido un largo camino desde sus primeras interacciones. La capacidad de comprender y procesar el lenguaje natural ha sido un hito importante en el desarrollo de sistemas de IA, y ChatGPT ha sido uno de los pioneros en este campo.

Sin embargo, OpenAI no se detiene aquí y continúa avanzando hacia un futuro en el que la IA no solo comprenda el texto, sino que también sea capaz de ver, oír y hablar.

Una nueva dimensión de interacción

La última actualización de ChatGPT trae consigo una revolución en la forma en que interactuamos con la inteligencia artificial. Ahora, además de comunicarnos a través del texto, podemos hablar con ChatGPT como si fuera un interlocutor humano.

También podemos mostrarle imágenes para obtener respuestas basadas en el contenido visual. Estas nuevas capacidades de voz e imagen abren un mundo de posibilidades y utilización más allá de lo que hubiéramos imaginado.

Hablando con ChatGPT

La integración de la voz como una forma de comunicación con ChatGPT es un avance emocionante. Ahora puedes mantener conversaciones de voz con tu asistente en situaciones en las que escribir no es práctico.

Imagina estar en un viaje y querer obtener información sobre un monumento que has encontrado. Simplemente habla con ChatGPT y obtén respuestas en tiempo real. Incluso puedes usar la voz para contar historias a tus seres queridos antes de dormir o resolver debates en la mesa.

La tecnología de voz utilizada en ChatGPT es impresionante. Un nuevo modelo de conversión de texto a voz genera audio que suena sorprendentemente humano a partir de solo texto y una breve muestra de voz.

OpenAI ha trabajado con actores de doblaje profesionales para crear diversas voces, lo que garantiza una experiencia de conversación de alta calidad. Además, el sistema de reconocimiento de voz de código abierto de OpenAI, conocido como Whisper, transcribe tus palabras habladas en texto de manera precisa.

Mensaje de WhatsappWhatsApp me envió un mensaje ¿Es una estafa?

Interacción basada en imágenes

La capacidad de mostrar imágenes a ChatGPT es otro hito en la evolución de la IA. Esto permite una amplia gama de aplicaciones.

Por ejemplo, si te encuentras con un problema en tu parrilla mientras asas una deliciosa cena al aire libre, puedes tomar una foto y obtener consejos instantáneos sobre cómo solucionarlo.

¿Te preguntas qué puedes cocinar con los ingredientes disponibles en tu nevera? Captura una imagen de tu refrigerador y deja que ChatGPT te sugiera recetas en función de lo que ve.

Además, la capacidad de analizar gráficos complejos puede ser útil en el ámbito laboral. Si trabajas con datos y necesitas comprender la información detrás de un gráfico, ChatGPT puede proporcionarte una explicación detallada.

Implementación gradual para un futuro seguro

OpenAI tiene como objetivo principal la creación de la inteligencia artificial general (AGI) segura y beneficiosa. Por esta razón, la implementación de estas nuevas capacidades se realizará gradualmente.

Esto permitirá a OpenAI realizar mejoras continuas y mitigar los riesgos asociados con sistemas más avanzados en el futuro.

La voz y la visión presentan desafíos y riesgos nuevos, como la posibilidad de que se utilicen con fines maliciosos.

Por esta razón, OpenAI ha enfocado inicialmente estas capacidades en aplicaciones específicas, como el chat de voz. La colaboración con actores de voz profesionales y otras empresas, como Spotify, para la traducción de voz, demuestra cómo estas capacidades pueden utilizarse de manera responsable y creativa.

Usando la visión de manera útil y segura

Cuando se trata de la capacidad de interpretar imágenes, OpenAI ha aprendido valiosas lecciones de su colaboración con Be My Eyes, una aplicación para personas con discapacidades visuales.

Los usuarios han encontrado útil la posibilidad de discutir imágenes en tiempo real, como programas de televisión o la configuración del control remoto.

OpenAI también ha implementado medidas técnicas para limitar la capacidad de ChatGPT para hacer declaraciones directas sobre las personas y respetar la privacidad. La empresa está comprometida en mantener un equilibrio entre utilidad y seguridad en su enfoque de la visión.

Transparencia y limitaciones del modelo

OpenAI es transparente sobre las limitaciones de su modelo y desaconseja el uso en casos de alto riesgo sin una verificación adecuada. Además, el rendimiento del modelo varía según el idioma, siendo más competente en la transcripción de textos en inglés. Se insta a los usuarios que no hablan inglés a tener esto en cuenta al utilizar ChatGPT.

Ampliando el acceso

Los usuarios Plus y Enterprise tendrán acceso a estas emocionantes capacidades de voz e imagen en las próximas dos semanas. OpenAI está ansioso por implementar estas funciones para un público más amplio, incluidos los desarrolladores.

Esto marca un paso significativo en la evolución de la inteligencia artificial y ofrece un vistazo al emocionante futuro de la interacción entre humanos y máquinas.

Fuente: https://openai.com/

Te puede interesar
Lo más visto

Recibe las noticias más importantes en tu email