En el marco de un DevDay bastante menos suntuoso que los de años anteriores, OpenAI ha lanzado Realtime API. Se trata de una nueva herramienta que permite integrar su nuevo asistente de voz, similar al Advanced Voice Mode de ChatGPT, en cualquier app desarrollada por terceros.
Lo que hace Realtime API es brindar la posibilidad de integrar conversaciones de voz en todo tipo de aplicaciones y hasta disparar acciones específicas de forma rápida y con baja latencia.
Pero la historia no termina allí. Si bien Realtime API hoy soporta la voz como método de entrada y salida, el objetivo a futuro es ampliarla para que también soporte las modalidades de vídeo y visión. Claro que la compañía ha optado por no ponerse plazos específicos para estas implementaciones.
“Anteriormente, para crear una experiencia de asistente de voz similar, los desarrolladores tenían que transcribir el audio con un modelo de reconocimiento automático de voz como Whisper, pasar el texto a un modelo de texto para inferencia o razonamiento y luego reproducir el resultado del modelo utilizando un modelo de texto a voz. Este enfoque a menudo resultó en pérdida de emoción, énfasis y acentos, además de una latencia notable. […] Realtime API mejora esto al transmitir entradas y salidas de audio directamente, lo que permite experiencias de conversación más naturales”.
OpenAI, sobre Realtime API.
Con Realtime API, OpenAI busca simplificar la creación de asistentes de voz
El objetivo principal de OpenAI con Realtime API es simplificar la creación de asistentes de voz integrados en apps de terceros. Al igual que el Advanced Voice Mode de ChatGPT, esta herramienta brinda a los desarrolladores la opción de elegir entre múltiples tipos de voz, así como el soporte para interrumpir una respuesta sin que el chatbot pierda el hilo de la conversación.
Aunque tal vez lo más novedoso sea la integración con function calling, que, como indicamos previamente, permite disparar acciones dentro de una app. Esto puede ser de especial utilidad si los asistentes de voz se usan para labores de atención al cliente o en implementaciones educativas que requieren de una experiencia más fluida. Uno de los ejemplos que OpenAI presentó sobre el uso de Realtime API fue a través de Speak, una app para aprender idiomas que aprovecha el asistente de voz para hacer correcciones de pronunciación con ejercicios interactivos.
En lo que respecta a seguridad y privacidad, OpenAI indica que Realtime API se ha creado usando la misma infraestructura de seguridad de audio del Advanced Voice Mode de ChatGPT. Además, usa la misma versión de GPT-4o que la citada función del chatbot de inteligencia artificial. Los de Sam Altman indican que sus términos prohíben el uso de esta tecnología para engañar a personas o para fines de spam. De hecho, los desarrolladores que implementen esta API en sus aplicaciones están obligados a informar a los usuarios que están conversando con una IA y no con una persona real.
Si eres desarrollador, prepara la cartera
Los desarrolladores que deseen integrar asistentes de voz usando Realtime API ya pueden comenzar a probar la beta pública, siempre y cuando estén comprendidos en los niveles de pago. A esto le deben sumar los costes de los tokens de entrada y salida, que la API utiliza tanto en formato de audio como de texto.
En cuanto a números, OpenAI indica que el uso de Realtime API cuesta 5 dólares por cada millón de tokens de entrada de texto y 20 dólares por cada millón de tokens de salida de texto. Los de audio son bastante más caros: 100 dólares por cada millón de tokens de entrada y 200 dólares por cada millón de tokens de salida.
DERECHOS DE AUTOR
Esta información pertenece a su autor original y fue recopilada del sitio https://hipertextual.com/2024/10/realtime-api-asistentes-de-voz-openai