Dados e Curiosidades
Nesta página encontram-se mais detalhes sobre o projeto, e links para acesso aos nossos dados completos.
Conjuntos de Dados
Alguns ficheiros são demasiado grandes para estarem disponíveis para download público direto, mas podem ser pedidos através do formulário indicado.
| Nome | Descrição | Tamanho | Formato | Download |
|---|---|---|---|---|
| Lista de Publicações periódicas - ERC | Lista completa de publicações periódicas registadas em Portugal, ativas e inativas entre 2000 e 2026. | 1 MB | CSV | Download |
| Jornais regionais neste projeto | Lista estruturada dos jornais regionais identificados para este projeto, com de distrito e municípios. | 260 KB | JSON | Download |
| Base de dados - Lite | Uma versão com todo a estrutura da nossa base de dados mas apenas um máximo de 10 notícias por jornal, útil para testes e compreender a estrutura. | 20 MB | SQLITE | Download |
| Base de dados - Completa | A base de dados usada para suportar este site, podemos gerar várias versões mediante pedido: máximo 1000/5000/10000/sem limite de notícias por jornal. | 5/40 GB | SQLITE | Pedir acesso |
| Notícias extraídas | Um conjunto de ficheiros JSON, um por jornal, contendo as notícias extraídas para cada jornal. Cada notícia tem o título, corpo, data de publicação e URL de origem. Dados são partilhados num ficheiro .zip. | 2 GB | JSON | Pedir acesso |
Contexto / Problema a resolver
Os autores identificaram primeiramente um problema que assola a nossa sociedade atual. O panorama noticioso nacional (e mundial) está a sofrer alterações a uma velocidade sem precedentes nos últimos anos. Nos dias correntes a principal fonte de notícias da população em geral reside na utilização de redes sociais, o que levanta preocupações a nível da credibilidade, imparcialidade e manipulação das mesmas.
Com este panorama surge então a necessidade de encontrar maneiras “fáceis” de chegar aos meios noticiosos tradicionais, que tendencialmente perdem para as redes sociais pelo facto de estas conseguirem centralizar a atenção dos utilizadores numa única plataforma.
Os autores identificaram também que os meios noticiosos mais afetados pela atual conjectura, são necessariamente os que têm menor financiamento e alcance - os meios noticiosos regionais.
Conhecendo o projecto do Arquivo.pt, encontrou-se no concurso de 2026 a oportunidade de criar uma plataforma que agrega e facilita o acesso a estes meios regionais e que consegue dar ferramentas, pelo uso do Arquivo.pt, para quem quiser fazer descoberta de meios noticiosos regionais, de notícias e análises sobre os dados relativos às notícias regionais nas últimas 3 décadas.
Objetivos
Implementar e disponibilizar publicamente um processo automatizado de recolha e extração de notícias em larga escala, a partir do Arquivo.pt.
Compilar, enriquecer e partilhar uma base de dados de jornais e notícias regionais em Portugal dos últimos 30 anos.
Facilitar um interface de pesquisa e análise sobre a base de dados construída.
Apresentar casos de estudo que incidam sobre os dados recolhidos e que sirvam de inspiração à reutilização e maior adoção do projeto por cidadãos e académicos.
Permitir a preservação de notícias regionais no Arquivo.pt, que ainda não se encontrem lá.
Metodologia
1. Identificação de fontes de dados para o trabalho
O trabalho baseia-se em dois datasets principais, os jornais e as notícias.
Identificou-se a Entidade Reguladora para a Comunicação Social (ERC) como a fonte primária para o dataset dos jornais.
Identificou-se a exposição Memória da Imprensa Portuguesa como uma fonte complementar para o dataset dos jornais.
Identificou-se o Arquivo.pt como a principal fonte de dados para a recolha de notícias e validação das características dos jornais.
Identificaram-se a wayback machine e os sites dos próprios jornais que estão ativos, como fontes complementares de dados para a recolha de notícias.
2. Recolha dos dados da ERC sobre os jornais e critérios de exclusão de meios noticiosos
Contactou-se a ERC, que prontamente disponibilizou um dataset contendo a lista completa de publicações periódicas registadas em Portugal, ativas e inativas entre 2000 e 2026.
A lista contém os seguintes campos por publicação e a metodologia de exclusão de publicações seguiu os seguintes critérios:
Todas as publicações de âmbito não regional foram excluídas.
Todas as publicações sem suporte online foram excluídas.
Todas as publicações de informação especializada foram excluídas.
Define-se neste ponto os jornais que sobreviveram aos critérios de exclusão como “jornais regionais”.
A aplicação destes critérios de exclusão resultou numa lista de 663 jornais regionais.
Em seguida procedeu-se a uma verificação individual de cada um dos registos no Arquivo.pt ou site ativo para validar que a publicação tem ou teve em qualquer espaço temporal, uma presença online verificável.
Verificou-se também o conteúdo das notícias e foram excluídos todos os registos que apresentaram um carácter diferente de notícias regionais (como desporto, doutrinário, especializado ou notícias nacionais ou internacionais).
A aplicação destes critérios de exclusão resultou numa lista de 462 jornais regionais.
Incrementou-se também a lista com registos provenientes do projecto Memória da Imprensa Portuguesa, o que permitiu resgatar registos que estavam declarados na lista da ERC como não tendo site online mas que acabaram por ter.
Procedeu-se à mesma verificação manual que no passo anterior o que permitiu fechar a lista com 573 jornais regionais.
Reconhecemos que a esta lista faltarão Órgãos de Comunicação Social com presença online não comunicada à ERC, que só uma revisão manual mais extensa poderá colmatar.
3. Enriquecimento dos dados sobre os jornais regionais
Identificou-se manualmente as regiões, distritos e municípios que cada jornal cobre, fazendo uso dos respectivos Estatutos Editoriais e análise das próprias notícias. Esta cobertura é distinta da localização da sede: um jornal sediado em Lisboa pode cobrir a região do Alentejo, por exemplo.
4. Recolha das notícias dos jornais regionais
Procedeu-se a realizar uma extração/scrapping de todas as notícias em todos os jornais regionais. Os scrappers começaram por recolher todas as notícias do Arquivo.pt, e para os casos em que não foi possível, recolheram as notícias dos sites ativos e Wayback Machine. O nosso scraper consegue-se adaptar a variações na organização dos websites mas ainda há vários jornais com notícias online para os quais só um código específico conseguirá extrair as notícias corretamente, a dimensão desse esforço não coube nesta primeira fase de desenvolvimento e enquadra-se nos principais objetivos futuros para a plataforma.
5. Processamento dos dados e categorização
Com base no texto disponível no título e corpo das notícias, encontraram-se os temas mais comuns que formaram as categorias usadas no processo de categorização das mesmas. A lista inicial de categorias foi feita manualmente e foi usada uma abordagem de descoberta automática de novas categorias que seleciona grupos significativos de notícias e identifica novas possíveis categorias, as quais foram manualmente verificadas.
6. Apresentação e disponibilização dos dados
Criou-se um site que funciona como plataforma de acesso aos datasets e que permite fazer exploração e análise sobre os mesmos. Disponibilizou-se também na plataforma links para acesso a todos os conjuntos de dados relevantes.
Código
Todo o código deste projeto é de fonte aberta e está disponível no GitHub.
O projeto inclui ferramentas de scraping, processamento de dados e esta aplicação web.
Licença
Este projeto está licenciado sob a Creative Commons Atribuição 4.0 Internacional (CC BY 4.0).
Qualquer um pode usar, copiar, modificar e distribuir livremente, desde que dê o crédito apropriado.
Os dados recolhidos estão sujeitos aos termos de uso das fontes originais.
Autores
João Carvalho e Miguel Ramalho
que numa tainada soalheira esboçaram este projeto