Artigo
Yuri Marx · Jan. 13 5min de leitura

Dez conjuntos de dados abertos em saúde em apenas uma aplicação do IRIS

 

 

Oi comunidade,

Em um trabalho intenso de curadoria e qualidade de dados, a aplicação "health dataset" entrega os conjuntos de dados acima.

Esses conjuntos de dados podem ser utilizados no seu modelo ou aplicação de Machine Learning, AutoML e de aplicações analíticas. Veja mais detalhes aqui:

Instalação

1. Clone/git pull no repositório em qualquer diretório local

$ git clone https://github.com/yurimarx/automl-heart.git

2. Abra o terminal no diretório da aplicação e execute:

$ docker-compose build

3. Execute o IRIS container:

$ docker-compose up -d

4. Faça um select no HeartDisease dataset:

SELECT
age, bp, chestPainType, cholesterol, ekgResults, exerciseAngina, fbsOver120, heartDisease, maxHr, numberOfVesselsFluro, sex, slopeOfSt, stDepression, thallium
FROM dc_data_health.HeartDisease

5. Faça um select no Kidney Disease dataset:

SELECT
age, al, ane, appet, ba, bgr, bp, bu, cad, classification, dm, hemo, htn, pc, pcc, pcv, pe, pot, rbc, rc, sc, sg, sod, su, wc
FROM dc_data_health.KidneyDisease

6. Faça um select no Diabetes dataset:

SELECT
Outcome, age, bloodpressure, bmi, diabetespedigree, glucose, insulin, pregnancies, skinthickness
FROM dc_data_health.Diabetes

7. Faça um select no Breast Cancer dataset:

SELECT
areamean, arease, areaworst, compactnessmean, compactnessse, compactnessworst, concavepointsmean, concavepointsse, concavepointsworst, concavitymean, concavityse, concavityworst, diagnosis, fractaldimensionmean, fractaldimensionse, fractaldimensionworst, perimetermean, perimeterse, perimeterworst, radiusmean, radiusse, radiusworst, smoothnessmean, smoothnessse, smoothnessworst, symmetrymean, symmetryse, symmetryworst, texturemean, texturese, textureworst
FROM dc_data_health.BreastCancer

8. Faça um select no Maternal Health Risk dataset:

SELECT
BS, BodyTemp, DiastolicBP, HeartRate, RiskLevel, SystolicBP, age
FROM dc_data_health.MaternalHealthRisk

9. Faça um select no Hospital Mortality dataset:

SELECT
age, aniongap, atrialfibrillation, basophils, bicarbote, bloodcalcium, bloodpotassium, bloodsodium, bmi, chdwithnomi, chloride, copd, creatinekise, creatinine, deficiencyanemias, depression, diabetes, diastolicbloodpressure, ef, gendera, glucose, "group", heartrate, hematocrit, hyperlipemia, hypertensive, inr, lacticaacid, leucocyte, lymphocyte, magnesiumion, mch, mchc, mcv, neutrophils, ntprobnp, outcome, pco2, ph, platelets, pt, rbc, rdw, relfailure, respiratoryrate, spo2, systolicbloodpressure, temperature, ureanitrogen, urineoutput
FROM dc_data_health.HospitalMortality

10. Faça um select no Life Expectancy dataset:

SELECT
AdultMortality, Alcohol, BMI, Country, Diphtheria, GDP, HIVAIDS, HepatitisB, IncomeCompositionOfResources, InfantDeaths, LifeExpectancy, Measles, PercentageExpenditure, Polio, Population, Schooling, Status, Thinness1To19Years, Thinness5To9Years, TotalExpenditure, UnderFiveDeaths, Year
FROM dc_data_health.LifeExpectancy

11. Faça um select no Pollution Deaths dataset:

SELECT
Country, CountryCode, DeathYear, ExcessMortality
FROM dc_data_health.PollutionDeaths

12. Faça um select no Dementia dataset:

SELECT
ASF, Age, CDR, EDUC, Genre, Hand, MMSE, MRDelay, Outcome, SES, Visit, eTIV, nWBV
FROM dc_data_health.Dementia

13. Faça um select no Hepatitis Death risk dataset:

SELECT
age, albumin, alkphosphate, anorexia, antivirals, ascites, bilirubin, fatigue, histology, liverbig, liverfirm, malaise, outcome, protime, sex, sgot, spiders, spleenpalpable, steroid, varices
FROM dc_data_health.Hepatitis

Para instalar no ZPM

A aplicação também pode ser instalada com o ZPM:

zpm "install dataset-health"

Licenças/Créditos dos Datasets

  • MIT License para esta aplicação
  • CC BY-NC-SA 4.0 License para o o Conjunto de Dados de Câncer do Coração
  • CC0: Public Domain para o o Conjunto de Dados de Diabetes
  • CC0: Public Domain para o o Conjunto de Dados de Doença do Coração
  • CC0: Public Domain para o o Conjunto de Dados de Risco Maternal
  • CC0: Public Domain para o o Conjunto de Dados de Expectativa de Vida
    • Fonte de dados: https://www.kaggle.com/kumarajarshi/life-expectancy-who - The data was collected from WHO and United Nations website with the help of Deeksha Russell and Duan Wang.
    • Arquivo dentro do app: /opt/irisapp/data/life_expectancy.csv
    • Classe Persistente: dc.data.health.LifeExpectancy
  • CC0 1.0 Universal (CC0 1.0) Public Domain Dedication para o o Conjunto de Mortalidade em Hospital
  • CC0 1.0 Universal (CC0 1.0) Public Domain para o Conjunto de Dados de Mortes por Poluição
  • Attribution-NonCommercial-ShareAlike 3.0 IGO (CC BY-NC-SA 3.0 IGO) para o Conjunto de Dados de Demência
  • CC0 1.0 Universal (CC0 1.0) Public Domain para o Conjunto de Dados de Hepatite
  • CC0: Public Domain para o Conjunto de Dados de Rim
    • Fonte de dados:
      • @misc{Dua:2019 , author = "Dua, Dheeru and Graff, Casey", year = "2017", title = "{UCI} Machine Learning Repository", url = "http://archive.ics.uci.edu/ml", institution = "University of California, Irvine, School of Information and Computer Sciences" }
    • Arquivo dentro do app: /opt/irisapp/data/kidney_disease.csv
    • Classe Persistente: dc.data.health.KidneyDisease
2
0 20
Discussão (0)1
Entre ou crie uma conta para continuar