A OpenAI apresentou na terça-feira (1º) uma série de atualizações de API que possibilitam otimizar o trabalho dos desenvolvedores que utilizam a tecnologia da startup na criação de recursos de inteligência artificial. As novidades surgiram durante o DevDay 2024, realizado em São Francisco, nos Estados Unidos.
Entre elas, há a API Realtime, destinada à criação de apps alimentados por IA que falam com o usuário, aproveitando o modo de voz avançado anunciado pela dona do ChatGPT recentemente. Anteriormente, era necessário transcrever o áudio, executar o texto em um modelo de linguagem e usar outro na conversão de texto para fala.
Com a ferramenta em tempo real, os desenvolvedores agora podem criar apps de voz sem a integração de outros softwares, realizando o processamento do áudio imediatamente e com um só conjunto de instruções. A nova API deve evitar a perda de emoção e sotaques, além da latência perceptível na versão anterior.
Outro destaque é a funcionalidade de ajuste fino de visão, permitindo adicionar as capacidades de entender e reconhecer imagens em produtos de IA. Segundo a OpenAI, isso trará melhorias para soluções que utilizam pesquisa visual aprimorada e detecção de objetos para veículos autônomos, entre outras.
Fonte: TecMundo