Escrito por

Desenvolvedor at QI Tech

Artigo Heloisa Paiva · Out. 7, 2025 2m read

IRIS Audio Query - Consulte Áudio com texto usando InterSystems IRIS

#InterSystems IRIS #Artificial Intelligence (AI) #Embedded Python #Vector Search

Com a rápida adoção da telemedicina, consutlas remotas e digitação digital, profissionais da saúde estão se comunicano mais do que nunca por voz. Pacientes em conversas virtuais geram uma vasta quantidade de dados sonoros não estruturados, então como clínicos e administradores pesquisam e extraem informações d horas de gravações de voz?

Apresentamos o IRIS Audio Query – um aplicativo full-stack que transforma áudio em uma base de conhecimento pesquisável. Com ele, você pode:

Fazer upload e armazenar conversas clínicas, gravações de consultas ou digitações.
Realizar consultas em linguagem natural (por exemplo, "O que o paciente relatou sobre os sintomas de fadiga?").
Receber uma resposta concisa gerada usando Large Language Models (Modelos de Linguagem Grande).

Em sua essência, este aplicativo é alimentado pelo InterSystems IRIS para tratamento robusto de dados e busca vetorial, e construído sobre a framework de Interoperabilidade da InterSystems, tudo desenvolvido usando o Python Native SDK.

Interface do Usuário

Fazendo upload de um arquivo de áudio:

Realizando uma consulta:

Tech Stack

InterSystems IRIS – Armazenamento de objetos persistentes e base para busca vetorial.
Python (FastAPI) – APIs de Backend e lógica de negócio.
React – Interface de usuário (UI) para upload e consulta.
TwelveLabs API –Geração de embeddings a partir de áudio e texto.
OpenAI API – Geração de respostas textuais usando o conteúdo do áudio como contexto.
Docker – Containerização

Arquitetura

Os arquivos de áudio carregados são armazenados no IRIS como objetos persistentes e também são transformados em embeddings e, em seguida, armazenados como vetores. Para realizar uma consulta, o texto da consulta é primeiro transformado em embedding, depois uma busca vetorial é realizada para encontrar os embeddings de áudio mais relevantes, os arquivos de áudio correspondentes são recuperados e, finalmente, a resposta é gerada a partir do texto da consulta com os arquivos de áudio como contexto.

As operações de upload e consulta são construídas como Operações de Negócio usando o IRIS Native Python SDK. O backend FastAPI fornece uma API REST para que aplicações externas interajam com este sistema, enquanto o frontend React fornece uma UI para interagir com o backend.

[ React Frontend ]
        ↓
[ FastAPI Backend (REST API) ]
        ↓
[ IRIS Business Operations (Python SDK) ]
        ↓                      ↘
[ GuardarAudio no IRIS ]     [ Embed via TwelveLabs → Guardar vetores ]
                                ↓
                      [ Vector Search no Query Text ]
                                ↓
          [ Retornar Audio Relevante → Resposta usando OpenAI ]

Discussão (0)1

Entre ou crie uma conta para continuar

Acrescentar resposta