Artigo
· jan 26 3min de leitura

Leia um arquivo parquet para um arquivo JSON e carregue no seu repositório do IRIS

De acordo com o Databricks, Apache Parquet é um formato de dados de código aberto orientado por colunas que é projetado para o armazenamento e recuperação de dados eficiente. Ele fornece esquemas eficientes de compactação e codificação de dados com um desempenho aprimorado para lidar com dados complexos em massa. O Apache Parquet foi criado para ser um formato de troca comum para ambas as cargas de trabalho em lote e interativas. É semelhante a outros formatos de arquivo de armazenamento colunar disponíveis no Hadoop, especificamente, RCFile e ORC. (fonte: https://www.databricks.com/glossary/what-is-parquet). Confira abaixo as características e os benefícios do Parquet de acordo com o Databricks:

Características do Parquet

  • Formato de arquivo gratuito e de código aberto.
  • Agnóstico a linguagens.
  • Formato baseado em colunas: os arquivos são organizados por coluna, e não por linha, o que economiza armazenamento e acelera as consultas de análise.
  • Usado para casos de uso de análise (OLAP), geralmente, em conjunto com bancos de dados OLTP tradicionais.
  • Compressão e descompressão de dados altamente eficiente.
  • É compatível com tipos de dados complexos e estruturas de dados aninhadas avançadas.

Benefícios do Parquet

  • É bom para armazenar big data de qualquer tipo (imagens, vídeos, documentos e tabelas de dados estruturados).
  • Economiza armazenamento na nuvem ao usar uma compressão de colunas altamente eficiente e esquemas de codificação flexíveis para colunas com diferentes tipos de dados.
  • Taxa de transferência de dados mais alta e melhor desempenho usando técnicas como data skipping, onde as consultas que buscam valores específicos de colunas não precisam ler toda a linha de dados.

Um padrão tão importante quanto esse não poderia ser deixado de fora do InterSystems IRIS, o melhor Data Fabric no mercado. Portanto, agora é possível usar o aplicativo iris parquet (https://openexchange.intersystems.com/package/iris-parquet) para ler e escrever dados parquet.

Procedimentos para instalação

Instalação com Docker

1. Faça o git pull/clone do repositório em qualquer diretório local:

$ git clone https://github.com/yurimarx/iris-parquet.git

2. Abra o terminal nesse diretório e chame o comando para compilar e executar o InterSystems IRIS no contêiner:

$ docker-compose build
$ docker-compose up -d

Instalação com ZPM

1. Execute no terminal:

USER> zpm install iris-parquet

2. Instale os arquivos do hadoop e defina a variável ENV como HADOOP_HOME:

wget https://dlcdn.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz && \
    tar -xzf hadoop-3.3.6.tar.gz && \
    echo "export HADOOP_HOME=//hadoop-3.3.6"

Escreva Parquet a partir do SQL

Há duas opções, a partir do ObjectScript ou da API REST:

1. Do ObjectScript (sample: mude pelos seus valores):

Set result = ##class(dc.irisparquet.IrisParquet).SQLToParquet(
        "personSchema",
        "persons",
        "jdbc:IRIS://localhost:1972/IRISAPP",
        "SELECT * FROM dc_irisparquet.SamplePerson",
        "/tmp/sample.parquet"
    )

2. Da API REST:

Ler Parquet para JSON

Há duas opções, a partir do ObjectScript ou da API REST:

1. Do ObjectScript (sample: mude pelos seus valores):

Set result = ##class(dc.irisparquet.IrisParquet).ParquetToJSON(
        "/tmp/"_source.FileName,
        "/tmp/content.json"
        )

2. Da API REST:

Discussão (0)0
Entre ou crie uma conta para continuar