class: center, middle, title-slide .title[ # Aula 3 - Tipos e obtenção de dados ] .author[ ### Leonardo Mancini ] .date[ ### 2024 ] --- # O Processo da Ciência de Dados .center[ ![:scale 80%](./imagens/data_sci_process.png) ] .footnote[ <small> Fonte: O'NEIL, Cathy; SCHUTT, Rachel. Doing data science: Straight talk from the frontline. O'Reilly Media, Inc., 2013. </small> ] ??? RAW DATA : dados brutos, sem tratamento Processamento dos dados / Limpeza: To do this we use tools such as Python, shell scripts, R, or SQL, or all of the above. --- class: inverse # O Cientista de dados <br> .pull-left[ .center[ ![:scale 100%](./imagens/data_sci_process2.png) ] ] .pull-right[ - Faz as perguntas. - Realiza uma pesquisa preliminar para decidir que dados coletar e como. - Constrói suas hipóteses. - Testa essas hipóteses através de experimentos. - Analisa os dados e tira conclusões. - Comunica os resultados. ] .footnote[ <small> Fonte: O'NEIL, Cathy; SCHUTT, Rachel. Doing data science: Straight talk from the frontline. O'Reilly Media, Inc., 2013. </small> ] --- class: inverse, middle, center # 1. Elaborando as perguntas --- # Perguntas Talvez a parte mais importante do processo. Orienta o processo de coleta e de análise de informações. Boas perguntas permitem a elaboração de de boas hipóteses. A partir delas, podemos definir que variáveis coletar, que tipo de análise fazer, que tipo de gráfico construir, etc. --- # Tipos de perguntas: Outro nome para tipos de pesquisa: <small> 1. **Descritiva:** resume ou descreve caracteristicas de um conjunto de dados<br> Exemplo: Qual a média de idade dos alunos da turma? 2. **Exploratória:** investiga padrões e relações em um conjunto de dados<br> Exemplo: Qual a relação entre a idade e o desempenho dos alunos? 3. **Inferencial:** tira conclusões sobre uma população a partir de uma amostra<br> Exemplo: Qual a média de idade dos alunos da escola? 4. **Preditiva:** faz previsões sobre um conjunto de dados, determinando quais variáveis são mais importantes.<br> Exemplo: Qual a probabilidade de um aluno ser aprovado? ??? 5. Causal: determina se uma variável causa outra<br> Exemplo: O que causa o desempenho dos alunos? 6. Mecanicista: explora o mecanismo por trás de uma relação entre variáveis<br> Exemplo: Como a idade afeta o desempenho dos alunos? --- class: inverse, middle, center # 2. EDA - Análise Exploratória de Dados --- # Análise Exploratória de Dados Processo de explorar e analisar os dados, examinando as suas estruturas, padrões, distrições e realções entre os dados. Seus objetivos: 1. Determinar se há problemas com os dados. 2. Determinar se as perguntas podem ser respondidas com os dados disponíveis. 3. Desenvolver um primeiro rascunho de respostas para as nossas questões. Para isso: precisamos entender os tipos de dados e de que maneiras eles podem ser descritos. --- # Tipos de dados Dados quantitativos podem ser de várias naturezas: - Numéricos (inteiros ou reais, contínuos ou discretos) - Categóricos (ordenados ou não) - Texto (strings) - Data (tempo, data e hora) - Lógicos (TRUE ou FALSE, 0 ou 1) Cada um tem caraterísticas e tratamentos específicos. --- # Dados numéricos São aqueles que representam valores quantitativos, como idade, peso, altura, salário, etc. Podem ser inteiros ou reais, contínuos ou discretos. - Inteiros / Discretos: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 - Reais / Contínuos: 1.5, 2.3, 3.7, 4.1, 5.0, 6.2, 7.8, 8.9, 9.4, 10.0 --- # Como analisar dados numéricos? Existem medidas que nos ajudam a entender a distribuição dos dados numéricos: - Média: a média aritmética - Mediana: o valor que divide os dados em duas partes iguais - Máximo e mínimo: os valores extremos - Desvio padrão: a dispersão dos dados em torno da média - Moda: o valor que mais se repete (ninguém se importa muito...) - Correlação: a relação entre duas variáveis numéricas E gráficos que nos ajudam a visualizar a distribuição dos dados: - Histograma - Boxplot ou gráfico de caixa - Gráfico de densidade - Gráfico de pontos ou scatterplot Fundamental entender a distruição dos dados! --- # Dados Categóricos São aqueles que representam categorias, como sexo, cor, estado civil, etc. Medidas: - Tabela de frequência Formas de visualização: - Gráfico de barras - Gráficos de pirulitos - Gráfico de pizza (NÃÃÃO!!!) --- # Texto São aqueles que representam palavras ou frases. Medidas: - Contagem de palavras - PLN (Processamento de Linguagem Natural) - Análise de sentimento Formas de visualização: - Nuvem de palavras Podemos usar técnicas de variáveis categóricas para analisar textos. --- # Data São aqueles que representam datas e horas. Geralmente utilizamos um conjunto de técnicas específico chamado análise de séries temporais. Podemos usar medidas de variáveis numéricas para analisar datas, como média, mediana, desvio padrão, etc. Em alguns contextos, datas são tratadas como variáveis categóricas. Representação visual mais comum é o gráfico de linha (com o tempo sempre no eixo x). --- #Lógicos São aqueles que representam valores lógicos, como verdadeiro ou falso, 0 ou 1. Medidas: - Proporção Visualização (as mesmas de variáveis categóricas): - Tabela de frequência - Gráfico de barras ... --- class: inverse, middle, center # Exemplo de análise exploratória