class: center, middle, title-slide .title[ # Aula 8 - Obtendo dados
XML e WebScraper
] .subtitle[ ## Jornalismo de Dados ] .author[ ### Leonardo Mancini ] .date[ ### 2024 ] --- # XML XML é uma linguagem de marcação, como o HTML, mas foi projetado para transportar e armazenar dados. A vantagem de se usar XML para raspar dados é que ele é mais estruturado e organizado do que o HTML. Cada tipo de conteúdo pode ser localizado com o XPath, uma linguagem de consulta para selecionar nós em um documento XML. É como se fosse o HTML estruturado em forma de árvore e o XPath seria o endereço. --- # Extraindo com Google Sheets Assim como o `IMPORTHTML`, podemos extrair dados utilizando a função `IMPORTXML`, ```r =IMPORTXML("url", "xpath_query") ``` XPaths comuns: - <code> "//h2" </code>: seleciona todos os elementos h2 - <code>"//title"</code>: seleciona os títulos da página - <code>"//@href"</code>: seleciona todos os links - <code> //tr" </code>: seleciona todas as linhas de uma tabela --- # Como achar o XPath 1. Inspecionando a página: - Clique com o botão direito do mouse na página que deseja extrair os dados e selecione "Inspecionar". - Clique com o botão direito do mouse no código HTML e selecione "Copy" > "Copy XPath". 2. Com o SelectorGadget no Google Chrome: - Instale a extensão SelectorGadget. - Clique no ícone da extensão. - Clique no elemento que deseja extrair. - Copie o XPath gerado. [Um bom tutorial sobre como usar XML no Google Sheets](https://blog.coupler.io/xml-to-google-sheets/) --- # Configrando um scraper com WebScraper 1. Instale a extensão WebScraper no Chrome 1. Abra o Inspetor de páginas do próprio Chrome 1. Crie um site map (vamos usar o site do IRE - https://www.ire.org/), usando o seletor link. 1. Defina seletores para os dados que deseja extrair 1. Raspe os dados --- class: inverse # Tutorial do WebScraper .center[ <iframe width="696" height="380" src="https://www.youtube.com/embed/n7fob_XVsbY" title="Web Scraper intro tutorial" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share" referrerpolicy="strict-origin-when-cross-origin" allowfullscreen></iframe> <br><br> [Tutoriais](https://webscraper.io/tutorials/) ]