Aula 12 - Análise de dados

class: center, middle, title-slide

.title[
# Aula 12 - Análise de dados
]
.subtitle[
## Jornalismo de Dados
]
.author[
### Leonardo Mancini
]
.date[
### 2025
]

---

# População (ou universo) e amostra

Dependendo do tipo de estudo que se pretende realizar, é importante saber se o conjunto de dados que temos refere-se à população ou a uma amostra.

- **População ou Universo**: conjunto de todos os objetos que possuem uma característica (ou variável) em comum. Pode ser resultado de uma medição ou de um atributo, como cor dos olhos.

Uma população pode ser finita ou infinita. 
- A população finita possui um número limitado de objetos (ou de dados). Exemplo: estudantes da ESPM Rio
- Em uma população infinita, o número de objetos (ou de dados) é considerado ilimitado. Também, quando é impossível, ou excessivamente caro, investigar todos os elementos de uma população.

???

Censos tendem a ser custosos, complexos e demorados.

Populações podem ser finitas ou infinitas.

---

# Amostra

Um levantamento completo a respeito de uma população é chamado de **censo**. Nesse tipo de levantamento, todos os elementos da população são investigados.

No entanto, quando uma população é muito grande, ou **infinita**, vamos trabalhar com uma **amostra**.

.center[
![:scale 60%](./imagens/amostra.png)
]

<small>

> **Amostra**: subconjunto **representativo** da população, ou seja, é um pequeno número de casos que devem conter as mesmas características da população analisada.

</small>

???

Para se definir uma amostra, é necessário que ela seja extraída de acordo com uma série de premissas bem definidas.

---

# Amostragem

Se a população for muito **homogênea**, o processo de amostragem é menos importante e seu tamanho tende a ser menor. Por exemplo: exames de sangue.

Quando a população é **heterogênea**, a amostragem é mais complexa e o tamanho da amostra tende a ser maior. Por exemplo: eleições.

> A representatividade da amostra precisa ser garantida para que os resultados sejam generalizáveis para a população.

Em outras palavras: **o tamanho da amostra não é suficiente para se definir o nível de confiança de uma pesquisa.**

---

# Erro estatístico

Sempre que trabalhamos com amostras, temos que lidar com os erros. Ao reduzir a complexidade e a nuance dos dados, aumentamos a chance de errarmos as predições.

.pull-left[
.center[
![](./imagens/amostra_erro.png)
]
]
.pull-right[
O resultado de uma eleição (o dado real) será certamente diferente do resultado de uma pesquisa de intenções de voto (que é uma estimativa).

Em estatística, podemos estimar essa incerteza através de **intervalos de confiança**. 
]
---

# _Surveys_ ou pesquisas de opinião

São uma das formas mais comuns de se fazer pesquisa, especialmente eleitorais. É fundamental ter cuidado para não darmos informações equivocadas sobre as probabilidades de um evento ocorrer.

<small>
> **Intervalo de confiança ( Entre % e % )** é um intervalo dentro do qual é provável que um fenômeno ocorra, calculado a partir da margem de erro.

> **Margem de erro ( % )** é a incerteza em torno do resultado principal da pesquisa.

> **Nível de confiança ( % ) **: probabilidade de que o intervalo de confiança contenha o valor real da população (refere-se ao método, e não ao resultado da pesquisa).

> **Nível de significância ( `\(\alpha\)` )**: probabilidade de erro, ou seja, probabilidade de que o intervalo de confiança não contenha o valor real da população.

---
# Como interpretar dados de _survey_

Em uma pesquisa eleitoral, um candidato tem 34% das intenções de voto. Essa pesquisa tem um nível de confiança de 90% e margem de erro de 2%.

Neste caso:

> Se realizássemos a pesquisa 100 vezes, com a mesma metodologia, em 90 delas o intervalo de confiança conteria o valor real.

> A nossa melhor estimativa é que o candidato terá entre 32% e 36% dos votos (intervalo de confiança).

> o **nível de significância**, ou o `\(\alpha\)`, seria de 10% (probabilidade de erro relacionado ao método)

---

# Como interpretar dados de _survey_

Imagine que 52% de uma amostra diz que vai votar no candidato da direita, 37% no da esquerda e 11% está indeciso. Podemos afirmar que o da direita está na frente?

**Depende da margem de erro**. Se a diferença entre os percentuais dos candidatos for maior do que o dobro da margem de erro, sim.

Neste caso, a diferença entre os candidatos é de 15 pontos percentuais (52-37=15). Se a margem de erro for de até 7% (2 x 7 = 14), podemos afirmar que o candidato da direita está na frente.

---

# Como interpretar dados de _survey_

Se o candidato da direita tiver 44% das intenções de voto, o da esquerda 41% e os indecisos 15%, com uma margem de erro de 4% e nível de confiança de 90%, podemos afirmar que a eleição está definida?

Neste caso, em 90 de 100 pesquisas, os intervalos de confiança se cruzam (40% a 48% para a direita, 45% e 37% para a esquerda). Ou seja, **não podemos afirmar quem está liderando**.

---

# Como interpretar dados de _survey_

Se o candidato da direita tiver 47% das intenções de voto, o da esquerda 38% e os indecisos 15%, com uma margem de erro de 4% e nível de confiança de 95%, podemos afirmar que a eleição está definida?

Neste caso, em 95 de 100 pesquisas, o IC do candidato da direita seria de 43% e 51% das intenções de voto; o da esquerda, entre 34% e 42%, ou seja, **o candidato da direita lidera, mas pode ser por uma diferença muito pequena**.

Nestes casos, é fundamental deixar claro o que significa margem de erro e explicar o contexto no qual a pesquisa foi elaborada.

---

# Cuidados com pesquisas de opinião

Além das margens de erro e intervalos de confiança, é importante considerar:

- Qual a confiabilidade do instituto que a está realizando? 
  - Como as questões foram escritas? 
  - Qual o tamanho da amostra e como as respostas foram coletadas?

- Nos últimos anos, a direita vem sendo subestimada
  - Desconfiança e viés de não-resposta (afeta a aleatoriedade)
  - Sabotagem e eleitor antissistema
  - Voto envergonhado
  
???

1. Desconfiança e Viés de Não-resposta

Este é talvez o fator mais importante.

O Problema: Uma parte significativa do eleitorado de direita desenvolveu uma profunda desconfiança em relação a instituições que percebem como parte do "establishment", o que inclui a grande mídia, as universidades e, por extensão, os institutos de pesquisa.

A Consequência: Ao serem contatados por um pesquisador, esses eleitores são muito mais propensos a se recusar a participar da pesquisa. Isso cria um viés de não-resposta. A amostra final deixa de ser representativa, pois nela há uma proporção menor de eleitores de direita do que na população real. A margem de erro não consegue corrigir isso, pois ela mede a incerteza de uma amostra aleatória, e a amostra deixou de ser efetivamente aleatória.

2. O Fenômeno do "Voto Envergonhado" (Shy Voter)

O Problema: Em um ambiente social ou midiático que rotula um candidato como "controverso", "radical" ou "politicamente incorreto", alguns de seus eleitores podem se sentir constrangidos em admitir seu voto para um entrevistador desconhecido.

A Consequência: Em vez de declarar seu voto real, o eleitor pode dizer que está "indeciso", que votará em outro candidato ou simplesmente se recusar a responder a essa pergunta específica. Isso "esconde" uma parte dos votos que só aparecerá na urna.

3. Sabotagem Ativa e o Eleitor Antissistema

Este é um fator mais recente e agressivo, ligado à polarização extrema.

O Problema: Alguns eleitores, movidos por uma crença de que as pesquisas são ferramentas de manipulação usadas pela mídia para desmobilizar seu lado, decidem ativamente sabotar o processo.

A Consequência: Eles respondem à pesquisa de forma deliberadamente falsa, declarando voto no candidato adversário com o objetivo de "inflar os números do outro lado" e tornar a pesquisa inútil ou desacreditada quando o resultado real for divulgado. Para esse eleitor, "errar a pesquisa" é uma forma de vitória contra o "sistema".

Como os Institutos de Pesquisa Estão Tentando Lidar com Isso?

Os pesquisadores estão cientes desses problemas e buscam novas estratégias para minimizá-los, embora nenhuma seja perfeita:

Ponderação por Educação e Renda: Os institutos perceberam que o nível de escolaridade se tornou um forte indicador do voto. Eleitores de direita sub-representados tendem a ter perfis educacionais e de renda específicos. Por isso, os institutos aplicam "pesos" aos dados, aumentando artificialmente a importância das respostas dos poucos eleitores com esse perfil que conseguiram entrevistar, para que a amostra final se assemelhe mais à demografia real do país.

Ajustes por Voto Passado: Perguntar em quem o eleitor votou na última eleição para ajustar os pesos da amostra atual.

Modelos de "Provável Eleitor": Tentar filtrar na amostra apenas as pessoas com maior probabilidade de realmente comparecer para votar, usando perguntas sobre interesse na eleição e histórico de votação.