#Big Data

0 Seguidores · 12 Postagens

Big data é um campo que trata as formas de analisar e extrair informações sistematicamente. Os desafios do Big Data incluem captura de dados, armazenamento de dados, análise de dados, pesquisa, compartilhamento, transferência, visualização, consulta, atualização, privacidade de informações e fonte de dados. 

Saber mais.

Artigo Yuri Marx · Nov. 18, 2025 12m read

As arquiteturas de dados modernas utilizam soluções de captura, transformação, movimentação e carregamento de dados em tempo real para construir data lakes, data warehouses analíticos e repositórios de big data. Isso permite a análise de dados de diversas fontes sem impactar as operações que os utilizam. Para alcançar esse objetivo, é essencial estabelecer um fluxo de dados contínuo, escalável, elástico e robusto. O método mais comum para isso é a técnica de CDC (Change Data Capture). O CDC monitora a produção de pequenos conjuntos de dados, captura esses dados automaticamente e os entrega a um ou mais destinatários, incluindo repositórios de dados analíticos. O principal benefício é a eliminação do atraso D+1 na análise, já que os dados são detectados na origem assim que são produzidos e, posteriormente, replicados para o destino.

Este artigo demonstrará as duas fontes de dados mais comuns para cenários de CDC, tanto como origem quanto como destino. Para a origem dos dados, exploraremos o CDC em bancos de dados SQL e arquivos CSV. Para o destino dos dados, utilizaremos um banco de dados colunar (um cenário típico de banco de dados analítico de alto desempenho) e um tópico do Kafka (uma abordagem padrão para transmitir dados para a nuvem e/ou para vários consumidores de dados em tempo real).

Visão Breve

Este artigo fornecerá um exemplo para o seguinte cenário de interoperabilidade:

 

0
0 56
Artigo Danusa Calixto · jan 26, 2024 3m read

De acordo com o Databricks, Apache Parquet é um formato de dados de código aberto orientado por colunas que é projetado para o armazenamento e recuperação de dados eficiente. Ele fornece esquemas eficientes de compactação e codificação de dados com um desempenho aprimorado para lidar com dados complexos em massa. O Apache Parquet foi criado para ser um formato de troca comum para ambas as cargas de trabalho em lote e interativas. É semelhante a outros formatos de arquivo de armazenamento colunar disponíveis no Hadoop, especificamente, RCFile e ORC. (fonte: https://www.databricks.

0
0 384
Artigo Daniel Noronha da Silva · Jun. 9, 2023 2m read

Pesquisando sobre InterSystems IRIS e como ela pode transformar o negócio de uma organização me deparei com uma possibilidade: Como uma grande empresa pode melhorar sua eficiência operacional e oferecer uma experiência de compra mais personalizada para seus clientes?

0
0 119
Artigo Marcelo Jerônimo Antônio · Maio 13, 2023 1m read

A plataforma InterSystems IRIS solucionou um problema importante em um plano de negócio da empresa de distribuição de alimentos Fresh Market. A empresa estava enfrentando um problema de estoque, que muitas vezes levava à perda de vendas e insatisfação do cliente. A empresa estava sofrendo com a falta de informações precisas e atualizadas em seu sistema de gerenciamento de estoque, o que levava a erros na previsão de demanda.

Para resolver este problema, a Fresh Market implementou a plataforma InterSystems IRIS como sua solução de gerenciamento de dados.

0
0 89
Artigo Larissa Prussak · Out. 21, 2021 2m read

Olá comunidade,

O InterSystems IRIS tem um bom conector para fazer Hadoop usando Spark. Mas o mercado oferece outra alternativa excelente para o acesso ao Big Data Hadoop, o Apache Hive. Veja as diferenças:

Hive vs. Spark
Fonte: https://dzone.com/articles/comparing-apache-hive-vs-spark

Eu criei um serviço de interoperabilidade PEX para permitir que você use o Apache Hive dentro de seus aplicativos IRIS da InterSystems. Para experimentar, siga estas etapas:

1. Faça um git clone para o projeto iris-hive-adapter:

$ git clone https://github.com/yurimarx/iris-hive-adapter.git

2.

0
0 279
Artigo Alexey Maslov · Fev. 1, 2021 12m read

Como todos nós sabemos, o InterSystems IRIS possui uma ampla gama de ferramentas para melhorar a escalabilidade dos sistemas de aplicação. Em particular, muito foi feito para facilitar o processamento paralelo de dados, incluindo o uso de paralelismo no processamento de consultas SQL e o recurso mais chamativo do IRIS: o sharding. No entanto, muitos desenvolvimentos maduros que começaram no Caché e foram transportados para o IRIS usam ativamente os recursos de multimodelos deste DBMS, que são entendidos como permitindo a coexistência de diferentes modelos de dados dentro de um único banco de dados. Por exemplo, o banco de dados HIS qMS contém modelos de dados semânticos relacionais (registros médicos eletrônicos), relacionais tradicionais (interação com PACS) e hierárquicos (dados de laboratório e integração com outros sistemas). A maioria dos modelos listados é implementada usando a ferramenta qWORD do SP.ARM (um mini-DBMS que é baseado no acesso direto a globais). Portanto, infelizmente, não é possível usar os novos recursos de processamento de consulta paralela para escalonamento, uma vez que essas consultas não usam o acesso IRIS SQL.

Enquanto isso, conforme o tamanho do banco de dados cresce, a maioria dos problemas inerentes a grandes bancos de dados relacionais tornam-se adequados para os não relacionais. Portanto, esse é o principal motivo pelo qual estamos interessados ​​no processamento paralelo de dados como uma das ferramentas que podem ser usadas para escalonamento.

Neste artigo, gostaria de discutir os aspectos do processamento paralelo de dados com os quais tenho lidado ao longo dos anos ao resolver tarefas que raramente são mencionadas em discussões sobre Big Data. Vou me concentrar na transformação tecnológica de bancos de dados, ou melhor, em tecnologias de transformação de bancos de dados.

0
0 159
Anúncio Angelo Bruno Braga · jan 4, 2021

Olá Comunidade,

Estamos felizes em convidá-los para o encontro online com os ganhadores do Concurso Analítico da InterSystems!

Dia e Horário: Segunda-Feira, 4 de Janeiro de 2021 – 12:00 horário de Brasília

O que lhe aguarda neste Encontro virtual? 

  • A biografia de nossos ganhadores.
  • Pequenas demonstrações de suas aplicações.
  • Uma discussão aberta sobre as tecnologias utilizadas, os bônus, espaço para esclarecimento de dúvidas e planos para os próximos concursos.

0
0 78
Anúncio Angelo Bruno Braga · Dez. 30, 2020

Olá Desenvolvedores,

Concurso Analítico InterSystems terminou. Obrigado a todos vocês que participaram de mais esta edição da nossa maratona de codificação !

E agora é hora de anunciarmos os ganhadores ! 

Nossos aplausos e congratulações vão para os seguintes desenvolvedores e suas aplicações:

🏆 Nominação de Experts  - os ganhadores são determinados por um juri especialmente selecionado:

🥇 1° lugar e US$2,000 vai para o projeto iris-analytics-notebook de @José Pereira

🥈 2° lugar e US$1,000 vai para o projeto website-analyzer de @Yuri.

0
0 101
Anúncio Angelo Bruno Braga · Dez. 21, 2020

Olá Desenvolvedores,

Esta semana é a semana de votação para o  Concurso Analítico InterSystems! Então, é a hora de você dar seu voto para as melhores soluções construídas utilizando a plataforma de dados InterSystems IRIS.

🔥 Você decide: VOTE AQUI 🔥

0
0 87
Anúncio Angelo Bruno Braga · Dez. 7, 2020

Olá Comunidade!

Estamos gratos em convidar todos os desenvolvedores para o Webinar Inicial do Concurso Analítico da InterSystems! O tópico deste webinar será dedicado ao Concurso Analítico.

Neste webinar, nós iremos demonstrar o modelo-iris-analítico e responder as perguntas de como desenvolver, empacotar e publicar aplicações analíticas usando o InterSystems IRIS.

Dia & Horário: Segunda-feira, 7 de Dezembro — 14:00 Horário de Brasília

Palestrantes:  
🗣 @Carmen Logue, InterSystems Product Manager - Analytics and AI
🗣 @Evgeny Shvarov, InterSystems Developer Ecosystem Manager


<--break->

0
0 105