As arquiteturas de dados modernas utilizam soluções de captura, transformação, movimentação e carregamento de dados em tempo real para construir data lakes, data warehouses analíticos e repositórios de big data. Isso permite a análise de dados de diversas fontes sem impactar as operações que os utilizam. Para alcançar esse objetivo, é essencial estabelecer um fluxo de dados contínuo, escalável, elástico e robusto. O método mais comum para isso é a técnica de CDC (Change Data Capture). O CDC monitora a produção de pequenos conjuntos de dados, captura esses dados automaticamente e os entrega a um ou mais destinatários, incluindo repositórios de dados analíticos. O principal benefício é a eliminação do atraso D+1 na análise, já que os dados são detectados na origem assim que são produzidos e, posteriormente, replicados para o destino.

Este artigo demonstrará as duas fontes de dados mais comuns para cenários de CDC, tanto como origem quanto como destino. Para a origem dos dados, exploraremos o CDC em bancos de dados SQL e arquivos CSV. Para o destino dos dados, utilizaremos um banco de dados colunar (um cenário típico de banco de dados analítico de alto desempenho) e um tópico do Kafka (uma abordagem padrão para transmitir dados para a nuvem e/ou para vários consumidores de dados em tempo real).

Visão Breve

Este artigo fornecerá um exemplo para o seguinte cenário de interoperabilidade:

1 0
0 16

Armazenamento em coluna é um dos mais novos oferecimentos do InterSystems IRIS. Diferente do armazenamento tradicional baseado em linhas, ele otimiza o processamento das queries ao guardados os dados em colunas ao invés de linhas, permitindo acesso mais rápido e retorno de informações relevantes.

Alguns artigos já foram escritos a respeito de quando ele deve ser usado para dar o melhor impulso ao sistema, como criar tabelas dessa maneira usando SQL.

CREATE TABLE table (column1 type1, column2 type2, column3 type3) WITH STORAGETYPE = COLUMNAR  -- ex 1
CREATE TABLE table (column1 type1, column2 type2, column3 type3 WITH STORAGETYPE = COLUMNAR)  -- ex 2

e até testes de performance.

Como tudo o que sabemos, o InterSystems IRIS é uma DBMS (DataBase Management System - sistema de gerencialmento de base de dados) multi-modelo e dá acesso descomplicado ao mesmo registro usando acesso relacional e por objeto. Então a primeira parte está coberta por outros artigos, mas e a última?

2 1
0 137