Artigo
· Abr. 4, 2022 3min de leitura

Introdução à análise de dados com IRIS e Pandas

pandas

Não há dúvidas que as possibilidades são ilimitadas com o que se pode fazer com o IRIS 2021.2 com Embedded Python, desde visão computacional, automações, blockchain e principalmente a inteligência artificial.

Python é umas das linguagens que mais tem crescido nos últimos anos e existe uma infinidade de bibliotecas para facilitar a vida dos desenvolvedores.

Meu objetivo é escrever de forma simples, uma introdução ao Pandas para desenvolvedores de ObjectScript.

kungfupanda

Mas o que é Pandas?

Pandas é uma biblioteca criada para análise, manipulação e tratamento de dados.

A título de curiosidade, Pandas vem de "panel data" (dados em painel), um termo usado em estatística e econometria para conjunto de dados que incluem várias unidades amostrais (indivíduos, empresas, etc) acompanhadas ao longo do tempo. (fonte: Wikipedia)

No IRIS 2021.2 para utilizar o Pandas, primeiro é necessário importar.

import pandas as pd

import

Existem dois tipos principais de estruturas de dados no Pandas, que são Series e DataFrames.

Uma Serie nada mais é que um vetor, um array unidimensional.

selecaoPenta = pd.Series([“Lúcio”, “Edmílson”, “Roque Junior”, “Gilberto Silva”, “Marcos”, “Kaká”, “Vampeta”, “Anderson Polga”, “Dida”, “Rogério Ceni”, “Belletti”, “Ronaldinho”, “Ronaldo”, “Roberto Carlos”, “Kléberson”, “Rivaldo”, “Cafu”, “Júnior”, “Ricardinho”, “Luizão”, “Edílson”, “Denílson”, “Juninho Paulista”])

Já o DataFrame é uma estrutura de dados bidimensional. Um DataFrame é constituído de Series.

Vamos criar uma variável chamada artilheiros, com conjuntos de chaves e valores, com nome e quantidades de gols

artilheiros = {'Jogador':['Miroslav Klose', 'Ronaldo', 'Gerd Muller', 'Just Fontaine', 'Pele', 'Sandor Kocsis'],
'Gols': [16, 15, 14, 13, 12, 11]}
df = pd.DataFrame(artilheiros)

dataFrame

O método info() podemos obter um resumo do DataFrame

info

Com o método head() é possível visualizar as 5 primeiras linhas de um DataFrame e com tail() as 5 últimas.
Podemos utilizar sort_values() para ordernar um DataFrame

sort

No Pandas podemos utilizar condicionais como índice para filtrar dados de maneira simples.

conditional

Com isnull() filtra apenas os que são nulos e notnull() é o oposto, apenas os que não são nulos.

O mais incrível é que é possível executar Queries SQL no IRIS e retornar diretamente em um DataFrame.

import iris
import pandas as pd
rs = iris.sql.exec("select Name, Super, TimeCreated from %Dictionary.ClassDefinition WHERE Name %STARTSWITH %Net.")
mydataframe = rs.dataframe()

É possível importar e exportar dados nos mais diversos formatos, podemos exportar um DataFrame para csv, xml, json ou html simplesmente executando to_csv(), to_xml(), to_json() ou to_html()

export

Para saber mais do Pandas aqui está a documentação oficial

Como sempre, se tiver dúvidas, comentários ou sugestões não hesite em me escrever! Obrigado por ler.

Discussão (0)1
Entre ou crie uma conta para continuar