Noticias de Hoy
Los mejores medios en uno solo

OpenAI lleva su asistente de voz a cualquier app

125

En el marco de un DevDay bastante menos suntuoso que los de años anteriores, OpenAI ha lanzado Realtime API. Se trata de una nueva herramienta que permite integrar su nuevo asistente de voz, similar al Advanced Voice Mode de ChatGPT, en cualquier app desarrollada por terceros.

Lo que hace Realtime API es brindar la posibilidad de integrar conversaciones de voz en todo tipo de aplicaciones y hasta disparar acciones específicas de forma rápida y con baja latencia.

Pero la historia no termina allí. Si bien Realtime API hoy soporta la voz como método de entrada y salida, el objetivo a futuro es ampliarla para que también soporte las modalidades de vídeo y visión. Claro que la compañía ha optado por no ponerse plazos específicos para estas implementaciones.

“Anteriormente, para crear una experiencia de asistente de voz similar, los desarrolladores tenían que transcribir el audio con un modelo de reconocimiento automático de voz como Whisper, pasar el texto a un modelo de texto para inferencia o razonamiento y luego reproducir el resultado del modelo utilizando un modelo de texto a voz. Este enfoque a menudo resultó en pérdida de emoción, énfasis y acentos, además de una latencia notable. […] Realtime API mejora esto al transmitir entradas y salidas de audio directamente, lo que permite experiencias de conversación más naturales”.

OpenAI, sobre Realtime API.

Con Realtime API, OpenAI busca simplificar la creación de asistentes de voz

Con Realtime API, OpenAI busca simplificar la creación de asistentes de voz

El objetivo principal de OpenAI con Realtime API es simplificar la creación de asistentes de voz integrados en apps de terceros. Al igual que el Advanced Voice Mode de ChatGPT, esta herramienta brinda a los desarrolladores la opción de elegir entre múltiples tipos de voz, así como el soporte para interrumpir una respuesta sin que el chatbot pierda el hilo de la conversación.

Aunque tal vez lo más novedoso sea la integración con function calling, que, como indicamos previamente, permite disparar acciones dentro de una app. Esto puede ser de especial utilidad si los asistentes de voz se usan para labores de atención al cliente o en implementaciones educativas que requieren de una experiencia más fluida. Uno de los ejemplos que OpenAI presentó sobre el uso de Realtime API fue a través de Speak, una app para aprender idiomas que aprovecha el asistente de voz para hacer correcciones de pronunciación con ejercicios interactivos.

En lo que respecta a seguridad y privacidad, OpenAI indica que Realtime API se ha creado usando la misma infraestructura de seguridad de audio del Advanced Voice Mode de ChatGPT. Además, usa la misma versión de GPT-4o que la citada función del chatbot de inteligencia artificial. Los de Sam Altman indican que sus términos prohíben el uso de esta tecnología para engañar a personas o para fines de spam. De hecho, los desarrolladores que implementen esta API en sus aplicaciones están obligados a informar a los usuarios que están conversando con una IA y no con una persona real.

DERECHOS DE AUTOR
Esta información pertenece a su autor original y fue recopilada del sitio https://hipertextual.com/2024/10/realtime-api-asistentes-de-voz-openai