Baixe A Fisiologia da Escrita e outras Notas de estudo em PDF para Fisiologia, somente na Docsity!
ALINE MARIA MALACHINI MIOTTO AMARAL
IDENTIFICAÇÃO DE AUTORIA DE
DOCUMENTOS MANUSCRITOS UTILIZANDO
CARACTERÍSTICAS GRAFOMÉTRICAS
CURITIBA
Tese apresentada ao Programa de Pós-Graduação em
Informática da Pontifícia Universidade Católica do
Paraná como requisito parcial para obtenção do título
de Doutor em Informática.
ALINE MARIA MALACHINI MIOTTO AMARAL
IDENTIFICAÇÃO DE AUTORIA DE
DOCUMENTOS MANUSCRITOS
UTILIZANDO CARACTERÍSTICAS
GRAFOMÉTRICAS
CURITIBA
Tese apresentada ao Programa de Pós-Graduação em
Informática da Pontifícia Universidade Católica do
Paraná como requisito parcial para obtenção do título
de Doutor em Informática.
Área de Concentração: Ciência da Computação
Orientadora: Profa. Dra. Cinthia Obladen de
Almendra Freitas
Coorientador: Prof. Dr. Flávio Bortolozzi
Co-orientador: Prof. Dr.Flávio Bortolozzi
i
Dedico este trabalho aos dois grandes amores da minha vida, minha filha Marcela e
meu marido Marcelo , sem os quais eu não teria nem força nem motivação para
continuar.
iii
Agradecimentos
Primeiramente a Deus, porque sem ele nada seria possível.
A minha grande incentivadora e orientadora Profa. Dra Cinthia Obladen de
Almendra Freitas, por todos os ensinamentos e pela orientação segura.
Ao prof. Dr. Flávio Bortolozzi pelas orientações e importantes contribuições
dadas à realização deste trabalho.
Aos meus pais Laert e Lourdinha pelo amor e confiança a mim dedicados.
Ao meu querido marido Marcelo Augusto pelo amor, pela força e pela
compreensão.
A minha pequena grande menina Marcela, por me mostrar o que realmente
importa na vida.
Ao meu amigo Arthur, pela amizade sincera e constantes incentivos.
Ao UniCesumar pelo apoio recebido durante a realização deste trabalho.
Ao PPGIa pela oportunidade e suporte oferecidos ao desenvolvimento deste
trabalho.
A CAPES pelo apoio financeiro.
A todos que direta ou indiretamente colaboraram na execução deste trabalho.
iv
vi
LISTA DE FIGURAS
FIGURA 2.1. ASSINATURA DE JOHN HANCOCK .............................................................. 32
FIGURA 2.2. SISTEMA DE PALMER ..................................................................................... 36
FIGURA 2.3. EXEMPLO DE CARACTERÍSTICAS INDIVIDUAIS ...................................... 42
FIGURA 2.4. CLASSIFICAÇÃO PARA ABORDAGENS DE IDENTIFICAÇÃO DE
AUTORIA................................................................................................................................... 56
FIGURA 2.5. ESQUEMA DE ABORDAGEM PARA IDENTIFICAÇÃO DE AUTORIA
ADOTADO NO MÉTODO PROPOSTO ................................................................................... 74
FIGURA 3.1. CARTA FORENSE DE LONDRES .................................................................... 77
FIGURA 3.2. CARTA FORENSE DO EGITO .......................................................................... 77
FIGURA 3.3. CARTA FORENSE DE IDAHO.......................................................................... 78
FIGURA 3.4. CARTA FORENSE DE CEDAR ......................................................................... 78
FIGURA 3.5. CARTA FORENSE PUCPR ................................................................................ 80
FIGURA 3.6. CARTA PUCPR CF00001_01 ............................................................................. 82
FIGURA 3.7. VISÃO GERAL DO MÉTODO PROPOSTO ..................................................... 84
FIGURA 3.8. EXEMPLO DE CARTA PUCPR ORIGINAL .................................................... 85
FIGURA 3.9. EXEMPLO DE CARTA PUCPR BINARIZADA ............................................... 85
FIGURA 3.10. EXEMPLO DE CARTA PUCPR APÓS O PROCESSO DE SEPARAÇÃO DE
LINHAS ................................................................................................................................... 86
FIGURA 3.11. EXEMPLO DE CARTA PUCPR APÓS O PROCESSO DE SEPARAÇÃO
DAS PALAVRAS ....................................................................................................................... 87
FIGURA 3.12. EXEMPLO DE CARTA PUCPR APÓS O PROCESSO DE DIVISÃO EM 24
FRAGMENTOS .......................................................................................................................... 88
FIGURA 3.13. EXEMPLO DE CARTA PUCPR APÓS O PROCESSO DE EXTRAÇÃO DE
CONTORNOS E BORDAS ........................................................................................................ 89
FIGURA 3.14. REGIÕES EM UMA PALAVRA ...................................................................... 90
FIGURA 3.15. LAÇO NA REGIÃO ASCENDENTE ............................................................... 90
FIGURA 3.16. VISÃO GERAL DO PROCESSO DE EXTRAÇÃO DE CARACTERÍSTICA
( F 1 -F 7 ) ................................................................................................................................... 99
FIGURA 3.17. VISÃO GERAL DO PROCESSO DE EXTRAÇÃO DE CARACTERÍSTICA
( F 8 -F 12 ) ................................................................................................................................... 99
FIGURA 3.18. PROCESSO GERAL DE SELEÇÃO DE CARACTERÍSTICAS ................... 100
FIGURA 3.19. PROTOCOLO DOS EXPERIMENTOS .......................................................... 104
FIGURA 4.1. USO DA CARACTERÍSTICA F 6 PARA A TOMADA DE DECISÃO ........... 111
FIGURA 4.2. USO DA CARACTERÍSTICA F 2 PARA A TOMADA DE DECISÃO ........... 112
vii
FIGURA 4.3. DEMARCAÇÃO DAS PRIMEIRAS PALAVRAS DE CADA LINHA EM UM
EXEMPLAR DE CARTA PRESENTE NA BASE DE CARTAS FORENSES PUCPR ........ 113
FIGURA 4.4. EXEMPLOS DE DIFERENTES ÂNGULOS DE ESCRITA (ESQUERDA,
DIREITA, VERTICAL) PARA A CARACTERÍSTICA F 8 .................................................... 115
FIGURA 4.5. EXEMPLOS DE LAÇOS ASCENDENTES E DESCENDENTES EM
DIFERENTES PALAVRAS E CARACTERES DE EXEMPLARES DE CARTAS DA BASE
DE CARTAS FORENSES PUCPR .......................................................................................... 117
ix
LISTA DE GRAFICOS
GRÁFICO 3.1. RELAÇÃO ENTRE O NÚMERO DE ESCRITORES E AS TAXAS DE
ACERTO ................................................................................................................................. 108
x
LISTA DE QUADROS
QUADRO 3.1. CARACTERÍSTICAS GRAFOMÉTRICAS DO MÉTODO PROPOSTO ...... 91
xii
NLPR National Laboratory of Pattern Recognition
nrolinhasCarta Identificador que contém o número total de linhas de um documento
nroPixelsPretos Identificador que contém o número de pixels pretos de uma linha do documento
NumeroPixelsLaco Número de pixels de um laço
PDM Distribution Point Model
posicaoMargemDireita Identificador que contém a distância da margem direita do documento em análise
posicaoMargemEsquerda Menor distância da margem esquerda do documento em análise
posicaoMargemInferior Posição do ultimo pixel preto da última palavra do documento em análise
posicaoMargemSuperior Posição do primeiro pixel preto da primeira palavra do documento em análise
RIMES Reconnaissance et Indexation de données Manuscrites et de fac similÉS / Recognition and Indexing of handwritten documents and faxes
SVM Support Vector Machine
TMfragmento Tamanho médio dos laços de um fragmento
TMgeral Tamanho médio de todos os laços ascendentes e descendentes do documento em análise
TMlaço Tamanho médio dos laços de cada fragmento
VSM Vector Space Model
WANDA Forensic Information System Handwriting
WED Weigthed Euclidean Distance
WMfragmento Largura média dos laços de um fragmento
WMgeral Largura média de todos os laços ascendentes e descendentes do documento em análise
WMlaço Largura média dos laços de cada fragmento
X Largura da caixa (bounding box) na qual a 1ª palavra do documento é inserida
XML Extensible Markup Language
Y Altura da caixa (bounding box) na qual a 1ª palavra do documento é inserida
xiii
Resumo
A escrita como elemento biométrico tem sido alvo de muitas pesquisas. Neste
contexto, diferentes soluções computacionais para identificação de autoria em
documentos manuscritos vêm sendo apresentadas na literatura, cada uma delas focando
em aspectos específicos da escrita, bem como em aspetos referentes à imagem dos
manuscritos. Esta pesquisa propõe um método computacional baseado em
características grafométricas que visa auxiliar e agilizar o processo, realizado pelos
peritos, de identificação de autoria em manuscritos. O estudo conta com uma base de
cartas forenses (modelo PUCPR) as quais são pré-processadas para extrair-se um
conjunto de características grafométricas para que subsequentemente o processo de
identificação de autoria seja realizado. Foram realizados dois grupos de experimentos, o
primeiro grupo teve como objetivo selecionar e validar as características grafométricas
implementadas (análises individuais e em grupo foram realizadas). Com a melhor
combinação de características selecionada, taxas de acerto de 84% para um grupo de
100 diferentes escritores foram obtidas. O segundo grupo de experimentos teve como
foco principal identificar o número de escritores que atinge uma convergência
assintótica dos resultados dos experimentos. Pode-se observar que com 200 diferentes
escritores nenhum ganho ou perda pode ser observado nos resultados obtidos
considerando as características grafométricas utilizadas.
Palavras-chave: identificação de autoria, características grafométricas, classificadores,
cartas forenses.
15
Capítulo 1
Introdução
De acordo com Mendes (2003), a “documentoscopia é a parte da criminalística
que estuda os documentos para verificar se são autênticos e, em caso contrário,
determinar a sua autoria”. Observa-se nesta área um grau elevado de subjetividade, uma
vez que diferentes peritos podem chegar a diferentes conclusões sobre os mesmos
documentos. Dessa forma, o uso de ferramentas computacionais que automatizem e
padronizem todo ou parte do processo de identificação adotado pelos peritos tem se
tornado campo de interesse da computação.
Em relação a identificação de autoria, esta pode ser dividida em duas grandes
áreas de pesquisa sendo elas: verificação e identificação de autoria. A verificação tem
como objetivo principal avaliar dadas duas amostras de manuscrito, se as mesmas são
ou não de um mesmo escritor (1:1). Enquanto a identificação tem como objetivo, dentre
um conjunto de escritores candidatos, identificar o autor de um documento questionado
(1:N).
No contexto da identificação de autoria várias pesquisas (LUNA et al., 2011,
HELLI; MOGHADDAM, 2010; SIDDIQI; VICENT, 2008; HE et al., 2008;
BENSEFIA et al., 2005; BLANKERS et al., 2007; BULACU et al., 2007;
PERVOUCHINI; LEEDHAM, 2007; SCHOMAKER et al., 2007) foram propostas com
o objetivo de apresentar métodos que automatizam todo ou parte do processo de
extração, análise das características e classificação da escrita humana. Os principais
aspectos que diferenciam tais pesquisas são: a natureza das características utilizadas, as
bases de dados aplicadas, os métodos de classificação e por fim as taxas de acerto
obtidas. Pode-se destacar dois principais grupos de características, aquelas que utilizam
em sua definição os mesmos aspectos utilizados pelos peritos, chamadas de
16
características grafométricas (LUNA et al., 2011; CHEN et al., 2010; PERVOUCHINI;
LEEDHAM, 2007; BLANKERS et al., 2007; SCHLAPBACH; BUNKE, 2004;
HERTEL; BUNKE, 2003; ZOIS; ANASTASSOPOULOS, 2000), e aquelas que
utilizam informações da imagem do documento, normalmente informações relativas à
textura do documento ou geração de codebooks. Características texturais e codebooks
(HELLI; MORGHADDAM, 2010; HE et al., 2008; SIDDIQI; VICENT, 2008;
BULACU et al., 2007; SCHOMAKER et al., 2007) normalmente apresentam taxas de
acerto melhores do que características grafométricas. No entanto, seu processo de
extração não é natural a um perito, e as mesmas têm aceitação limitada nos tribunais de
justiça.
Dessa forma, o desafio desta Tese de doutorado é propor um método, suportado
por uma solução computacional, para o problema de identificação de autoria de
documentos manuscritos que utilize apenas características grafométricas (que possam
ser aceitas, entendidas e utilizadas pelos peritos e demais operadores da Justiça). Deve-
se destacar que os resultados esperados a partir do método proposto tem como meta
atingir taxas comparáveis com aquelas apresentadas em métodos que utilizam
características não grafométricas, isto levando-se em consideração o número de
escritores para treinamento e teste do método proposto.
1. 1. Objetivos
Este trabalho tem como objetivo geral propor um método para identificação de
autoria em cartas forenses utilizando características grafométricas.
Como objetivos específicos pode-se destacar:
realizar um levantamento bibliográfico acerca dos seguintes temas: escrita
humana e autoria de documentos manuscritos;
estender a base de cartas forenses PUCPR para 600 diferentes escritores;
propor um método de modo a selecionar um conjunto de primitivas, método de
classificação e, ainda, técnicas de extração de primitivas em cartas forenses;
implementar um cenário de teste como prova de conceito para avaliar e validar o
método proposto, analisando os resultados obtidos.