class: center, middle, title-slide .title[ # Aula 12 - Análise de dados ] .subtitle[ ## Jornalismo de Dados ] .author[ ### Leonardo Mancini ] .date[ ### 2024 ] --- # População (ou universo) e amostra Dependendo do tipo de estudo que se pretende realizar, é importante saber se o conjunto de dados que temos refere-se à população (ou ao universo) ou a uma amostra. >**População ou Universo**: conjunto de todos os elementos que possuem uma característica em comum e que o pesquisador se interessa em analisar. Isso pode ser resultado de uma medição ou um atributo, como cor dos olhos, tempo de reação, local de nascimento. Um levantamento completo a respeito de uma população é chamado de **censo**. Nesse tipo de levantamento, todos os elementos da população são investigados. ??? Censos tendem a ser custosos, complexos e demorados. --- # Amostra Populações podem ser finitas ou infinitas. Quando uma população é muito grande, ou quando é impossível ou muito caro investigar todos os elementos, a tratamos como sendo infinitas. Nestes casos, vamos trabalhar com uma **amostra**. .center[  ] <small> > **Amostra**: subconjunto representativo da população, ou seja, é um pequeno número de casos que devem conter as mesmas características da população. </small> ??? Para se definir uma amostra, é necessário que ela seja extraída de acordo com uma série de premissas bem definidas. --- # Amostragem Se a população for muito **homogênea**, o processo de amostragem é menos importante e seu tamanho tende a ser menor. Por exemplo: exames de sangue. Quando a população é **heterogênea**, a amostragem é mais complexa e o tamanho da amostra tende a ser maior. Por exemplo: eleições. > A representatividade da amostra precisa ser garantida para que os resultados sejam generalizáveis para a população. Em outras palavras: **o tamanho da amostra não é suficiente para se definir o nível de confiança de uma pesquisa.** --- # Erro estatístico Sempre que trabalhamos com amostras, temos que lidar com os erros. Ao reduzir a complexidade e a nuance dos dados, aumentamos a chance de errarmos as predições. .center[  ] O resultado de um censo sobre intençoes de voto em um candidato certamente trará resultados diferentes de uma pesquisa de intenções de voto. Em estatística, podemos estimar esse erro através de **intervalos de confiança**. --- # Intervalo de confiança Intervalos de confiança estão associados ao nível de significância e ao nível de confiança de uma pesquisa estabelecido pelo pesquisador no início do estudo e é complementar ao nível de significância. > **Intervalo de confiança ( % )** é um intervalo dentro do qual é provável que um fenômeno ocorra. > **Nível de confiança ( % ) **: probabilidade de que o intervalo de confiança contenha o valor real da população. > **Nível de significância ( `\(\alpha\)` )**: probabilidade de que o intervalo de confiança não contenha o valor real da população. > **Margem de erro ( % )** é o intervalo dentro do qual sde espera que o valor real da população esteja contido, com base na variabilidade da amostra. --- # Intervalo de confiança Em uma pesquisa eleitoral, um candidato tem 34% das intenções de voto. Essa pesquisa tem um intervalo de confiança de 90% e margem de erro de 2%. Neste caso: > Se a eleição acontecesse 100 vezes, em 90 delas o candidato teria entre 32% e 36% das intenções de voto. > o nível de confiança é de 90% > o **nível de significância**, ou o `\(\alpha\)`, seria de 10%. --- # Como interpretar dados de _survey_ _Surveys_ ou pesquisas de opinião são uma das formas mais comuns de se fazer pesquisa, especialmente eleitorais. É fundamental saber as margens de erro para não darmos informações equivocadas sobre as probabilidades de um evento ocorrer. Imagine que 52% de uma amostra diz que vai votar no candidato da direita, 37% no da esquerda e 11% está indeciso. Podemos afirmar que o da direita está na frente? -- Depende da margem de erro. Se a diferença entre os percentuais dos candidatos for maior do que o dobro da margem de erro, sim. Neste caso, a diferença entre os candidatos é de 15 pontos percentuais. Se a margem de erro for de até 7% (2 x 7 = 14), podemos afirmar que o candidato da direita está na frente. --- # Como interpretar dados de _survey_ Se o candidato da direita tiver 44% das intenções de voto, o da esquerda 41% e os indecisos 15%, com uma margem de erro de 4% e nível de confiança de 90%, podemos afirmar que a eleição está definida? -- Neste caso, em 90 de 100 pesquisas, os intervalos de confiança se cruzam (40% a 48% para a direita, 45% e 37% para a esquerda). Ou seja, **não podemos afirmar quem está liderando**. --- # Como interpretar dados de _survey_ Se o candidato da direita tiver 47% das intenções de voto, o da esquerda 38% e os indecisos 15%, com uma margem de erro de 4% e nível de confiança de 95%, podemos afirmar que a eleição está definida? -- Neste caso, em 95 de 100 pesquisas, o IC do candidato da direita seria de 43% e 51% das intenções de voto; o da esquerda, entre 34% e 42%. Ou seja, **o candidato da direita lidera por uma diferença muito pequena**. Nestes casos, é fundamental deixar claro o que significa margem de erro e explicar o contexto no qual a pesquisa foi elaborada. --- # Cuidados com pesquisas de opinião Além das margens de erro e intervalos de confiança, é importante considerar: - Como as questões foram elaboradas? Dependendo da maneira como foram escritas, isso influencia a resposta dos entrevistados. - Qual o tamanho da amostra e como as opiniões foram coletadas? Por telefone, internet, na rua? - Qual a confiabilidade do instituto que a está realizando?