Artigo
· Out. 7 2min de leitura

IRIS Audio Query - Consulte Áudio com texto usando InterSystems IRIS

Com a rápida adoção da telemedicina, consutlas remotas e digitação digital, profissionais da saúde estão se comunicano mais do que nunca por voz. Pacientes em conversas virtuais geram uma vasta quantidade de dados sonoros não estruturados, então como clínicos e administradores pesquisam e extraem informações d horas de gravações de voz? 

Apresentamos o IRIS Audio Query – um aplicativo full-stack que transforma áudio em uma base de conhecimento pesquisável. Com ele, você pode:

  • Fazer upload e armazenar conversas clínicas, gravações de consultas ou digitações.
  • Realizar consultas em linguagem natural (por exemplo, "O que o paciente relatou sobre os sintomas de fadiga?").
  • Receber uma resposta concisa gerada usando Large Language Models (Modelos de Linguagem Grande).

Em sua essência, este aplicativo é alimentado pelo InterSystems IRIS para tratamento robusto de dados e busca vetorial, e construído sobre a framework de Interoperabilidade da InterSystems, tudo desenvolvido usando o Python Native SDK.

 

Interface do Usuário

Fazendo upload de um arquivo de áudio:

Realizando uma consulta:

 

Tech Stack

  • InterSystems IRIS – Armazenamento de objetos persistentes e base para busca vetorial.
  • Python (FastAPI) – APIs de Backend e lógica de negócio.
  • React – Interface de usuário (UI) para upload e consulta.
  • TwelveLabs API –Geração de embeddings a partir de áudio e texto.
  • OpenAI API – Geração de respostas textuais usando o conteúdo do áudio como contexto.
  • Docker – Containerização

 

Arquitetura

Os arquivos de áudio carregados são armazenados no IRIS como objetos persistentes e também são transformados em embeddings e, em seguida, armazenados como vetores. Para realizar uma consulta, o texto da consulta é primeiro transformado em embedding, depois uma busca vetorial é realizada para encontrar os embeddings de áudio mais relevantes, os arquivos de áudio correspondentes são recuperados e, finalmente, a resposta é gerada a partir do texto da consulta com os arquivos de áudio como contexto.

As operações de upload e consulta são construídas como Operações de Negócio usando o IRIS Native Python SDK. O backend FastAPI fornece uma API REST para que aplicações externas interajam com este sistema, enquanto o frontend React fornece uma UI para interagir com o backend.

[ React Frontend ]
        ↓
[ FastAPI Backend (REST API) ]
        ↓
[ IRIS Business Operations (Python SDK) ]
        ↓                      ↘
[ GuardarAudio no IRIS ]     [ Embed via TwelveLabs → Guardar vetores ]
                                ↓
                      [ Vector Search no Query Text ]
                                ↓
          [ Retornar Audio Relevante → Resposta usando OpenAI ]
Discussão (0)1
Entre ou crie uma conta para continuar