Do papel ao buscador: como um jornal de 1910 vira texto que você pesquisa em segundos

Quando você digita uma palavra no Portal e recebe, num piscar de olhos, manchetes de cem anos atrás, parece mágica. Não é. Entre a página amarelada e a barra de busca existe um processo de quatro etapas — e cada uma resolve um problema diferente. Vamos abri-lo.

Por que jornal antigo é difícil de "ler" por computador

Um computador não enxerga texto numa foto de jornal: enxerga apenas manchas claras e escuras. Ensiná-lo a reconhecer letras já é um desafio — e papel centenário torna tudo pior:

Tipografia de outra época: fontes antigas e detalhes como o "s longo" (ſ), que parece um "f", confundem o reconhecimento.
Tinta que atravessa o papel: o texto do verso aparece de leve na frente, virando ruído.
Manchas e desgaste: dobras, furos e o amarelado do tempo escondem caracteres.
Colunas estreitas e hifenização: palavras quebradas no fim da linha ("histó-/ria") precisam ser remontadas.

São mais de 250 mil edições de 133 jornais com esses problemas. Por isso, nada de improviso.

Etapa 1 — Da página física à imagem

Tudo começa com a digitalização: cada página é escaneada ou fotografada em alta resolução. Esse arquivo de imagem preserva o documento original e é a matéria-prima de todo o resto.

Etapa 2 — OCR com software especializado (ABBYY FineReader)

A leitura automática da imagem se chama OCR — sigla, em inglês, para "reconhecimento óptico de caracteres". É o software que olha a imagem e tenta dizer quais letras estão ali.

Aqui não usamos um OCR genérico, e sim o ABBYY FineReader, uma referência para documentos difíceis. A diferença é prática: ferramentas comuns tropeçam em colunas, fontes antigas e imagens com ruído — trocam "rn" por "m", "c" por "e", perdem linhas inteiras. Um motor especializado entende melhor o layout em colunas e a ortografia de época, entregando um texto bruto muito mais fiel ao que estava impresso.

Etapa 3 — Curadoria com inteligência artificial

Nenhum OCR é perfeito em material de cem anos. O texto reconhecido passa, então, por uma curadoria apoiada por inteligência artificial, que faz o polimento: corrige erros que se repetem, junta as palavras quebradas pela hifenização, separa uma manchete da outra e organiza tudo numa estrutura coerente — sem alterar o conteúdo histórico, apenas devolvendo-lhe a legibilidade.

Etapa 4 — Indexação no banco de dados

Por fim, o texto tratado é guardado num banco de dados com um índice de texto completo. Pense no índice remissivo no fim de um livro: em vez de reler o livro inteiro para achar um assunto, você consulta o índice e vai direto à página. O banco faz isso para cada palavra de 2,5 milhões de manchetes — e é por isso que uma busca volta praticamente instantânea.

O resultado

Um arquivo de papel, acessível a poucos, vira um acervo vivo que qualquer pessoa pesquisa de qualquer lugar. E é justamente sobre esse texto indexado que a nossa inteligência artificial, a IAcema, encontra e cita as fontes.

Veja na prática: faça uma pesquisa no acervo e percorra a linha do tempo da história do Ceará.