class: center, middle, title-slide .title[ # Aula 13 - Análise de dados - Parte II ] .subtitle[ ## Jornalismo de Dados ] .author[ ### Leonardo Mancini ] .date[ ### 2025 ] --- # Análise Exploratória de Dados - A Análise Exploratória de Dados (AED) nos permite analisar conjuntos de dados e resumir suas principais características. - É uma espécie de sondagem do terreno, uma forma de tentar ouvir o que os dados podem nos contar. - Após a AED, podemos partir para análises mais complexas, como inferência, modelagem e predição. ??? https://statacumen.com/teach/S4R/PDS_book/graphing-one-variable-at-a-time.html --- # Rotina de Análise Exploratória de Dados Cada variável de seu _dataset_ de ser analisada individualmente para que possamos entender o que ela representa e quais são suas características. Depois, é importante analisar as relações entre as variáveis, para entender como elas se relacionam entre si, principlamente como elas se relacionam com a variável de interesse. - **Variável dependende**: é a variável que queremos explicar ou prever. - **Variáveis independentes** ou explicativas: são as variáveis que usaremos para explicar ou prever a variável dependente. --- # 1. Analisando cada variável - **Variáveis numéricas**: Devemos usar medidas de tendência central (média, mediana) e medidas de dispersão (desvio padrão, IQR). Para visualizar, boxplot, gráficos de densidade ou histogramas. - **Variáveis categóricas**: Usamos tabelas de frequência e percentuais. Para visualizar, gráficos de barras. É importante indicar o número de observações e o número de valores faltantes (_missing_) de cada variável. --- # Variáveis numéricas - Média e mediana buscam o centro da distribuição. - Para o cálculo da média, os valores dos pontos de dados importam. Na mediana, o que se busca é o valor que se posiciona ao centro, logo, a ordem dos dados é o que considera. - O problema da média são os _outliers_. Se a distribuição for normal, média e mediana se encontram. .center[ ] --- # Variáveis numéricas - Além do centro, é importante olhar para a dispersão dos dados. <br> .center[  ] - Em ambos os casos, o centro é aprox. 70, mas o primeiro gráfico tem uma dispersão maior, os dados estão mais espalhados. ??? Para ter uma visão completa, você também precisa medir sua dispersão (também chamada de variabilidade ou espalhamento). A dispersão nos diz o quão agrupados ou espalhados os valores dos dados estão. Vamos usar uma analogia. Imagine dois arqueiros, ambos mirando no centro do alvo. 🎯 As flechas do Arqueiro A atingem todo o alvo, mas a posição média delas é o centro. As flechas do Arqueiro B estão todas firmemente agrupadas bem ao redor do centro do alvo. Ambos os arqueiros têm o mesmo centro, mas o Arqueiro B é muito mais consistente. A distribuição de seus tiros tem uma dispersão muito menor. --- # Variáveis numéricas - **Amplitude/Intervalo (Range)**: Diferença entre o maior e o menor valor (máximo - mínimo). É fácil de calcular, mas pode ser enganosa se houver valores muito extremos (outliers). - **IQR (Intervalo inter-quartil)**: Descreve a dispersão dos 50% centrais dos dados. É calculada como a diferença entre o 75º percentil (Q3) e o 25º percentil (Q1). O IQR é muito mais resistente a outliers do que a amplitude. - **Desvio Padrão**: Informa a distância média de um ponto de dado em relação à média. - Um pequeno desvio padrão significa que os dados estão agrupados perto da média. - Um grande desvio padrão significa que os dados estão muito espalhados em relação à média. --- # Variáveis numéricas .center[  ] OBS: Falta Desvio-padrão e mediana --- # Variáveis categóricas Tabela de frequência: .center[  ] Fonte: [As novas direitas: uma tipologia a partir dos prefeitos eleitos](https://www.researchgate.net/publication/366200788_As_novas_direitas_uma_tipologia_a_partir_dos_prefeitos_eleitos) --- # 2. Analisar a relação entre duas variáveis - **Categórica com categórica**: tabelas de contingência (dupla entrada) e gráficos de barras. - **Numérica com categórica**: boxplots, gráficos de densidade, gráficos de barra. - **Numérica com numérica**: gráficos de dispersão (correlação/regressão). - **Variáveis temporais**: gráficos de linha e gráficos de barras. --- # Categóricas com categóricas Tabelas de contingência: .center[  ] Fonte: [Relação entre o estudo formal e a média salarial do músico: um estudo com músicos brasileiros](https://www.researchgate.net/publication/283800011_Relacao_entre_o_estudo_formal_e_a_media_salarial_do_musico_um_estudo_com_musicos_brasileiros) ??? Tabelas de frequência e tabelas de contingência são formas de resumir dados categóricos, mas se distinguem pelo número de variáveis que analisam . A tabela de frequência lida com uma única variável, enquanto a tabela de contingência cruza duas ou mais variáveis. --- # Exercício Vamos pegar o arquivo que vocês limparam no exercício do OpenRefine [neste link](./data/emissoes-fake-csv-limpo.xlsx).