Com a rápida adoção da telemedicina, consutlas remotas e digitação digital, profissionais da saúde estão se comunicano mais do que nunca por voz. Pacientes em conversas virtuais geram uma vasta quantidade de dados sonoros não estruturados, então como clínicos e administradores pesquisam e extraem informações d horas de gravações de voz?
Apresentamos o IRIS Audio Query – um aplicativo full-stack que transforma áudio em uma base de conhecimento pesquisável. Com ele, você pode:
- Fazer upload e armazenar conversas clínicas, gravações de consultas ou digitações.
- Realizar consultas em linguagem natural (por exemplo, "O que o paciente relatou sobre os sintomas de fadiga?").
- Receber uma resposta concisa gerada usando Large Language Models (Modelos de Linguagem Grande).
Em sua essência, este aplicativo é alimentado pelo InterSystems IRIS para tratamento robusto de dados e busca vetorial, e construído sobre a framework de Interoperabilidade da InterSystems, tudo desenvolvido usando o Python Native SDK.
Interface do Usuário
Fazendo upload de um arquivo de áudio:
Realizando uma consulta:

Tech Stack
- InterSystems IRIS – Armazenamento de objetos persistentes e base para busca vetorial.
- Python (FastAPI) – APIs de Backend e lógica de negócio.
- React – Interface de usuário (UI) para upload e consulta.
- TwelveLabs API –Geração de embeddings a partir de áudio e texto.
- OpenAI API – Geração de respostas textuais usando o conteúdo do áudio como contexto.
- Docker – Containerização
Arquitetura
Os arquivos de áudio carregados são armazenados no IRIS como objetos persistentes e também são transformados em embeddings e, em seguida, armazenados como vetores. Para realizar uma consulta, o texto da consulta é primeiro transformado em embedding, depois uma busca vetorial é realizada para encontrar os embeddings de áudio mais relevantes, os arquivos de áudio correspondentes são recuperados e, finalmente, a resposta é gerada a partir do texto da consulta com os arquivos de áudio como contexto.
As operações de upload e consulta são construídas como Operações de Negócio usando o IRIS Native Python SDK. O backend FastAPI fornece uma API REST para que aplicações externas interajam com este sistema, enquanto o frontend React fornece uma UI para interagir com o backend.
[ React Frontend ]
↓
[ FastAPI Backend (REST API) ]
↓
[ IRIS Business Operations (Python SDK) ]
↓ ↘
[ GuardarAudio no IRIS ] [ Embed via TwelveLabs → Guardar vetores ]
↓
[ Vector Search no Query Text ]
↓
[ Retornar Audio Relevante → Resposta usando OpenAI ]
.jpg)