Dados e Curiosidades

Nesta página encontram-se mais detalhes sobre o projeto, e links para acesso aos nossos dados completos.

Conjuntos de Dados

Alguns ficheiros são demasiado grandes para estarem disponíveis para download público direto, mas podem ser pedidos através do formulário indicado.

Nome	Descrição	Tamanho	Formato	Download
Lista de Publicações periódicas - ERC	Lista completa de publicações periódicas registadas em Portugal, ativas e inativas entre 2000 e 2026.	1 MB	CSV	Download
Jornais regionais neste projeto	Lista estruturada dos jornais regionais identificados para este projeto, com de distrito e municípios.	260 KB	JSON	Download
Base de dados - Lite	Uma versão com todo a estrutura da nossa base de dados mas apenas um máximo de 10 notícias por jornal, útil para testes e compreender a estrutura.	20 MB	SQLITE	Download
Base de dados - Completa	A base de dados usada para suportar este site, podemos gerar várias versões mediante pedido: máximo 1000/5000/10000/sem limite de notícias por jornal.	5/40 GB	SQLITE	Pedir acesso
Notícias extraídas	Um conjunto de ficheiros JSON, um por jornal, contendo as notícias extraídas para cada jornal. Cada notícia tem o título, corpo, data de publicação e URL de origem. Dados são partilhados num ficheiro .zip.	2 GB	JSON	Pedir acesso

Contexto / Problema a resolver

Os autores identificaram primeiramente um problema que assola a nossa sociedade atual. O panorama noticioso nacional (e mundial) está a sofrer alterações a uma velocidade sem precedentes nos últimos anos. Nos dias correntes a principal fonte de notícias da população em geral reside na utilização de redes sociais, o que levanta preocupações a nível da credibilidade, imparcialidade e manipulação das mesmas.

Com este panorama surge então a necessidade de encontrar maneiras “fáceis” de chegar aos meios noticiosos tradicionais, que tendencialmente perdem para as redes sociais pelo facto de estas conseguirem centralizar a atenção dos utilizadores numa única plataforma.

Os autores identificaram também que os meios noticiosos mais afetados pela atual conjectura, são necessariamente os que têm menor financiamento e alcance - os meios noticiosos regionais.

Conhecendo o projecto do Arquivo.pt, encontrou-se no concurso de 2026 a oportunidade de criar uma plataforma que agrega e facilita o acesso a estes meios regionais e que consegue dar ferramentas, pelo uso do Arquivo.pt, para quem quiser fazer descoberta de meios noticiosos regionais, de notícias e análises sobre os dados relativos às notícias regionais nas últimas 3 décadas.

Objetivos

Implementar e disponibilizar publicamente um processo automatizado de recolha e extração de notícias em larga escala, a partir do Arquivo.pt.

Compilar, enriquecer e partilhar uma base de dados de jornais e notícias regionais em Portugal dos últimos 30 anos.

Facilitar um interface de pesquisa e análise sobre a base de dados construída.

Apresentar casos de estudo que incidam sobre os dados recolhidos e que sirvam de inspiração à reutilização e maior adoção do projeto por cidadãos e académicos.

Permitir a preservação de notícias regionais no Arquivo.pt, que ainda não se encontrem lá.

Metodologia

1. Identificação de fontes de dados para o trabalho

O trabalho baseia-se em dois datasets principais, os jornais e as notícias.
Identificou-se a Entidade Reguladora para a Comunicação Social (ERC) como a fonte primária para o dataset dos jornais.
Identificou-se a exposição Memória da Imprensa Portuguesa como uma fonte complementar para o dataset dos jornais.
Identificou-se o Arquivo.pt como a principal fonte de dados para a recolha de notícias e validação das características dos jornais.
Identificaram-se a wayback machine e os sites dos próprios jornais que estão ativos, como fontes complementares de dados para a recolha de notícias.

2. Recolha dos dados da ERC sobre os jornais e critérios de exclusão de meios noticiosos

Contactou-se a ERC, que prontamente disponibilizou um dataset contendo a lista completa de publicações periódicas registadas em Portugal, ativas e inativas entre 2000 e 2026.
A lista contém os seguintes campos por publicação e a metodologia de exclusão de publicações seguiu os seguintes critérios:
Todas as publicações de âmbito não regional foram excluídas.
Todas as publicações sem suporte online foram excluídas.
Todas as publicações de informação especializada foram excluídas.
Define-se neste ponto os jornais que sobreviveram aos critérios de exclusão como “jornais regionais”.
A aplicação destes critérios de exclusão resultou numa lista de 663 jornais regionais.

Em seguida procedeu-se a uma verificação individual de cada um dos registos no Arquivo.pt ou site ativo para validar que a publicação tem ou teve em qualquer espaço temporal, uma presença online verificável.
Verificou-se também o conteúdo das notícias e foram excluídos todos os registos que apresentaram um carácter diferente de notícias regionais (como desporto, doutrinário, especializado ou notícias nacionais ou internacionais).
A aplicação destes critérios de exclusão resultou numa lista de 462 jornais regionais.

Incrementou-se também a lista com registos provenientes do projecto Memória da Imprensa Portuguesa, o que permitiu resgatar registos que estavam declarados na lista da ERC como não tendo site online mas que acabaram por ter.
Procedeu-se à mesma verificação manual que no passo anterior o que permitiu fechar a lista com 573 jornais regionais.

Reconhecemos que a esta lista faltarão Órgãos de Comunicação Social com presença online não comunicada à ERC, que só uma revisão manual mais extensa poderá colmatar.

3. Enriquecimento dos dados sobre os jornais regionais

Identificou-se manualmente as regiões, distritos e municípios que cada jornal cobre, fazendo uso dos respectivos Estatutos Editoriais e análise das próprias notícias. Esta cobertura é distinta da localização da sede: um jornal sediado em Lisboa pode cobrir a região do Alentejo, por exemplo.

4. Recolha das notícias dos jornais regionais

Procedeu-se a realizar uma extração/scrapping de todas as notícias em todos os jornais regionais. Os scrappers começaram por recolher todas as notícias do Arquivo.pt, e para os casos em que não foi possível, recolheram as notícias dos sites ativos e Wayback Machine. O nosso scraper consegue-se adaptar a variações na organização dos websites mas ainda há vários jornais com notícias online para os quais só um código específico conseguirá extrair as notícias corretamente, a dimensão desse esforço não coube nesta primeira fase de desenvolvimento e enquadra-se nos principais objetivos futuros para a plataforma.

5. Processamento dos dados e categorização

Com base no texto disponível no título e corpo das notícias, encontraram-se os temas mais comuns que formaram as categorias usadas no processo de categorização das mesmas. A lista inicial de categorias foi feita manualmente e foi usada uma abordagem de descoberta automática de novas categorias que seleciona grupos significativos de notícias e identifica novas possíveis categorias, as quais foram manualmente verificadas.

6. Apresentação e disponibilização dos dados

Criou-se um site que funciona como plataforma de acesso aos datasets e que permite fazer exploração e análise sobre os mesmos. Disponibilizou-se também na plataforma links para acesso a todos os conjuntos de dados relevantes.

Código

Ver no GitHub

Todo o código deste projeto é de fonte aberta e está disponível no GitHub.
O projeto inclui ferramentas de scraping, processamento de dados e esta aplicação web.

Licença

Este projeto está licenciado sob a Creative Commons Atribuição 4.0 Internacional (CC BY 4.0).
Qualquer um pode usar, copiar, modificar e distribuir livremente, desde que dê o crédito apropriado.
Os dados recolhidos estão sujeitos aos termos de uso das fontes originais.

Autores

João Carvalho e Miguel Ramalho
que numa tainada soalheira esboçaram este projeto