Marco Rendina: Comecemos por desfazer o OCR. O que é e por que razão é relevante para a preservação do património cultural?
Tom Vanallemeersch: OCR (Optical Character Recognition) ou HTR (Handwritten Text Recognition) é uma tecnologia que produz uma transcrição digital de textos impressos ou manuscritos. As transcrições de documentos digitalizados são principalmente importantes para a pesquisabilidade, uma vez que permitem a utilização de palavras-chave para procurar um documento específico ou para procurar uma parte específica de um documento. Para melhorar ainda mais esta possibilidade de pesquisa, as transcrições podem ser traduzidas utilizando a tradução automática, permitindo aos utilizadores pesquisar palavras em documentos em diferentes línguas utilizando, por exemplo, apenas um termo de pesquisa em inglês.
MR: Quão eficaz é a atual tecnologia de OCR de última geração?
Televisão: Nos últimos anos, registaram-se progressos notáveis na tecnologia OCR e alguns modelos OCR apresentam um desempenho impressionante, especialmente em textos impressos modernos. Há também uma grande variedade de modelos cada vez mais especializados que atendem a diferentes necessidades, como textos do século XVIII ou cartas manuscritas da Segunda Guerra Mundial.
No entanto, apesar destes avanços, persistem desafios devido a fatores como diferentes estilos de caligrafia e esquemas de texto, as línguas envolvidas ou a presença de «ruído» (caracteres degradados ou sangrados em documentos de dupla impressão, em que a tinta do verso aparece na parte da frente). Problemas como o mau reconhecimento de caracteres podem afetar dramaticamente a precisão das transcrições OCR, um problema que se torna particularmente evidente quando essas saídas são usadas para fins de tradução.
Com base na nossa experiência na CrossLang com o desenvolvimento de sistemas para processamento de documentos multilingues e automação de tradução, abordámos estes desafios de frente para garantir que o resultado do OCR não é apenas preciso, mas também pronto para tradução.
MR: Pode explicar-nos como faz as transcrições OCR prontas para tradução?
Televisão: Certamente. Preparar as transcrições para tradução é um processo de várias etapas.
Em primeiro lugar, o documento ou a imagem é carregado e a tecnologia OCR é aplicada para gerar uma transcrição digital. Isso envolve a análise do layout da página e a identificação de caracteres nas áreas de texto. Sendo este processo automatizado, a saída resultante pode conter erros como o reconhecimento incorreto de caracteres e espaços em falta. Além disso, a saída OCR normalmente não tem segmentação, apresentando linhas de caracteres impressos ou manuscritos à medida que são exibidos na imagem, sem qualquer segmentação em frases. Embora tal possa ser bom, desde que o utilizador final possa ler o texto na língua original, a utilização direta da saída OCR, incluindo os seus erros ortográficos e a falta de segmentação, resultará muito provavelmente em traduções inexatas.
Utilizamos várias técnicas para resolver estas imprecisões. Menciono duas abordagens principais. Primeiro, técnicas de segmentação e desinfeção são empregadas para identificar e separar frases dentro do texto e remover hífenes de divisão de palavras no final das linhas. Em segundo lugar, para melhorar ainda mais a precisão da saída OCR, usamos ferramentas baseadas em léxico e modelos de linguagem grande (LLMs), incluindo chatbots de código aberto, para identificar e corrigir automaticamente erros em palavras para alinhar o texto o mais próximo possível com a imagem original.
Finalmente, com a saída OCR corrigida, MT pode ser aplicado para gerar traduções que são mais precisas. Esta etapa baseia-se na qualidade do texto de entrada, o que torna as duas etapas de correção automática anteriores cruciais para a obtenção de resultados úteis em matéria de TM.
MR: Como avalia se este processo de correção foi bem-sucedido?
Televisão: Utilizamos métricas automatizadas como a Taxa de Erro de Caracteres (CER) e a Taxa de Edição de Tradução (TER) para avaliar a precisão e a qualidade da saída de OCR corrigida e sua tradução. Estas métricas permitem-nos comparar a saída OCR corrigida com a verdade fundamental (a transcrição desejada), fornecendo informações valiosas sobre a eficácia dos nossos métodos. O Tribunal observou melhorias significativas a este respeito, uma vez que tanto a RCE como a TET geralmente diminuem após a correção da produção de RCO.
Também realizamos ocasionalmente inspeções manuais para garantir a precisão geral de um texto, uma vez que mesmo um pequeno erro pode alterar o significado da frase, possivelmente resultando em mal-entendidos ou imprecisões. Também pode haver casos em que alguém (como um historiador) deseja preservar certos elementos do texto, incluindo possíveis erros (como palavras mal escritas); nesses casos, um LLM pode «excessivamente corrigir» (da mesma forma, pode substituir as palavras escritas numa variante mais antiga de uma língua pelas suas versões mais recentes). Esses cenários orientados para a preservação («transcrição diplomática») exigem uma inspeção manual cuidadosa.
MR: Que conselhos daria às instituições responsáveis pelo património cultural que pretendam integrar tecnologias avançadas de RCO e de tradução nos seus esforços de preservação?
Televisão: O principal conselho que posso oferecer é acompanhar de perto os desenvolvimentos do projecto AI4Culture. Em outubro de 2024, ofereceremos um seminário em linha destinado a estudantes e peritos do património cultural, no qual explicaremos a aplicação do RCO e da MT aos documentos digitalizados de forma prática e forneceremos mais pormenores técnicos sobre aspetos como a correção automática dos resultados do RCO. Portanto, fique atento às contas das redes sociais da AI4Culture.
Mais informações
Em setembro de 2024, o projeto AI4Culture lançará uma plataforma onde serão disponibilizadas em linha ferramentas abertas, como as ferramentas de RCO acima apresentadas, juntamente com documentação e materiais de formação conexos. Fique de olho na página do projeto no Europeana Pro para obter mais detalhes e fique ligado na conta do projeto LinkedIn e X!
