class: center, middle, title-slide .title[ # Aula 2 - Os dados ] .subtitle[ ## Jornalismo de Dados ] .author[ ### Leonardo Mancini ] .date[ ### 2024 ] --- class: inverse # Dados e objetividade .center[  ] ??? Dados hoje são percebidos como a Pedra de Rosetta que vai quebrar o código de todos os problemas complexos. São vistos como a realidade em forma de tabela, visões mais puras de uma realidade confusa por nunces simbólicas, ideológicas ou culturais. É como se a VERDADE estivesse nos dados. --- # Dados Dados são representações simbólicas de fenômenos naturais. Tentativa de quantificar, qualificar e classificar a realidade ao **reduzir** a complexidade do mundo. Dados não são neutros. Eles são construídos, por humanos, a partir de escolhas metodológicas e teóricas. Logo, têm natureza subjetiva. > "Dados não falam nada; Humanos falam coisas." (Andrea Jones-Rooy, 2019) ??? Data can’t say anything about an issue any more than a hammer can build a house or almond meal can make a macaron. Data is a necessary ingredient in discovery, but you need a human to select it, shape it, and then turn it into an insight. --- # Dados são imperfeitos Há algumas fontes de erros que podem afetar a qualidade dos dados. - Erros aleatórios - Erros sistemáticos - Erros de medida - Dados faltantes --- # Dados são imperfeitos **Erros aleatórios:** Quando decidimos medir algo, em geral utilizamos instrumentos de medida. Se esse instrumento estiver com problemas, ou o pesquisador não souber usá-lo corretamente, os dados podem ser imprecisos. Ex: termômetro e febre; testes de maternidade. São chamados aleatórios porque, em um número grande de observações, estão distribuídos de forma não sistemática. ??? The consequences of this error are very real, too. Studies show a false positive can lead to years of negative mental-health consequences, even though the patient turned out to be physically well. On the bright side, the fear of false positives can also lead to more vigilant screening (…which increases the chances of further false positives, but I digress). Generally speaking, as long as our equipment isn’t broken and we’re doing our best, we hope these errors are statistically random and thus cancel out over time—though that’s not a great consolation if your medical screening is one of the errors. --- # Dados são imperfeitos **Erros sistemáticos:** São aqueles que ocorrem de forma consistente, ou seja, sempre que medimos algo, o erro é sempre o mesmo. Isso pode ocorrer por diversos motivos, como a falta de calibração de um instrumento, a má escolha de uma amostra ou a falta de representatividade de um grupo. Exemplos: vieses de seleção. Usar o Twitter para medir a opinião pública provoca erros sistemáticos porque a população do Twitter não é representativa da população em geral. ??? The 2016 US presidential election is an example where a series of systematic biases may have led the polls to wrongly favor Hillary Clinton. It can be tempting to conclude that all polling is wrong—and it is, but not in the general way we might think. One possibility is that voters were less likely to report that they were going to vote for Trump due to perceptions that this was the unpopular choice. We call this social desirability bias. It’s useful to stop to think about this, because if we’d been more conscious of this bias ahead of time, we might have been able to build it into our models and better predict the election results. Medical studies are sadly riddled with systematic biases, too: They are often based on people who are already sick and who have the means to get to a doctor or enroll in a clinical trial. There’s some excitement about wearable technology as a way of overcoming this. If everyone who has an Apple Watch, for example, could just send their heart rates and steps per day to the cloud, then we would have tons more data with less bias. But this may introduce a whole new bias: The data will likely now be skewed to wealthy members of the Western world. --- # Dados são imperfeitos **Erros de medida:** São aqueles derivados das escolhas das variáveis que serão medidas. Nem sempre o que estamos medindo é o que queremos medir. Exemplo: como avaliar a qualidade de um professor? Pela nota dos alunos? Artigos publicados? Não confundir com Proxy: aproximação possível daquilo que queremos medir. Nível de educação (anos de estudo, titulação) como proxy de classe econômica, ou Consumo de energia elétrica como proxy de atividade econômica, por exemplo. ??? For example, if we are looking for top job candidates, we might prefer those who went to top universities. But rather than that being a measure of talent, it might just be a measure of membership in a social network that gave someone the “right” sequence of opportunities to get them into a good college in the first place. A person’s GPA is perhaps a great measure of someone’s ability to select classes they’re guaranteed to ace, and their SAT scores might be a lovely expression of the ability of their parents to pay for a private tutor. --- # Dados são imperfeitos **Dados faltantes:** São dados que não foram coletados ou que foram perdidos ao longo do processo de montagem de um conjunto de dados. Exemplo: mulheres hoje endem a morrer mais do que homens em casos de ataque cardíaco porque os sintomas são diferentes e, historicamente, a doença foi estudada em homens. _Missing data_ podem ser aleatórios ou sistemáticos. Sua origem pode ser devido a falhas no processo de coleta, problemas de armazenamento ou problemas de processamento. --- # Ainda assim, precisamos de dados Dados imperfeitos são melhores que nenhum dado. A ciência, assim como o jornalismo, partem do pressuposto que o conhecimento é imperfeito e incompleto. No entanto, ao invés de desconsiderá-los, devemos reconhecer suas limitações e questioná-los sempre. ??? Diferentemente de outros campos, o jornalismo e a ciência reconhece essas licitações e as considera em suas análises. Não é pq tem um número atribuido que algo se torna verdadeiro --- # Por isso, metodologia é fundamental Na maior parte das vezes, utilizaremos dados coletados por outras pessoas, que vão refletir seus vieses. Por isso, quando iniciamos a análise de dados, é importante entender como eles foram coletados, processados e organizados. - Quem coletou? - Como coletou? - Com que instrumentos? - Esses dados são adequados para responder as perguntas feitas? - Quais são os conceitos e teorias que embasam a coleta desses dados? - O que pode estar faltando? E, lembrem-se, jornalistas não costumam ser especialistas! ??? Sempre entrevistar ou conversar com diferentes pessoas que entendam mais que você sobre o tema em questão