Docsity
Docsity

Prepare-se para as provas
Prepare-se para as provas

Estude fácil! Tem muito documento disponível na Docsity


Ganhe pontos para baixar
Ganhe pontos para baixar

Ganhe pontos ajudando outros esrudantes ou compre um plano Premium


Guias e Dicas
Guias e Dicas

A Fisiologia da Escrita, Notas de estudo de Fisiologia

O primeiro livro editado sobre grafologia foi em Capri, no ano de 1622, ... Corresponde aos elementos em formas de círculo das letras “a, o, g, q”,.

Tipologia: Notas de estudo

2022

Compartilhado em 07/11/2022

Osvaldo_86
Osvaldo_86 🇧🇷

4.5

(163)

220 documentos

1 / 136

Toggle sidebar

Esta página não é visível na pré-visualização

Não perca as partes importantes!

bg1
ALINE MARIA MALACHINI MIOTTO AMARAL
IDENTIFICAÇÃO DE AUTORIA DE
DOCUMENTOS MANUSCRITOS UTILIZANDO
CARACTERÍSTICAS GRAFOMÉTRICAS
CURITIBA
2014
Tese apresentada ao Programa de Pós-Graduação em
Informática da Pontifícia Universidade Católica do
Paraná como requisito parcial para obtenção do título
de Doutor em Informática.
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e
pf3f
pf40
pf41
pf42
pf43
pf44
pf45
pf46
pf47
pf48
pf49
pf4a
pf4b
pf4c
pf4d
pf4e
pf4f
pf50
pf51
pf52
pf53
pf54
pf55
pf56
pf57
pf58
pf59
pf5a
pf5b
pf5c
pf5d
pf5e
pf5f
pf60
pf61
pf62
pf63
pf64

Pré-visualização parcial do texto

Baixe A Fisiologia da Escrita e outras Notas de estudo em PDF para Fisiologia, somente na Docsity!

ALINE MARIA MALACHINI MIOTTO AMARAL

IDENTIFICAÇÃO DE AUTORIA DE

DOCUMENTOS MANUSCRITOS UTILIZANDO

CARACTERÍSTICAS GRAFOMÉTRICAS

CURITIBA

Tese apresentada ao Programa de Pós-Graduação em

Informática da Pontifícia Universidade Católica do

Paraná como requisito parcial para obtenção do título

de Doutor em Informática.

ALINE MARIA MALACHINI MIOTTO AMARAL

IDENTIFICAÇÃO DE AUTORIA DE

DOCUMENTOS MANUSCRITOS

UTILIZANDO CARACTERÍSTICAS

GRAFOMÉTRICAS

CURITIBA

Tese apresentada ao Programa de Pós-Graduação em

Informática da Pontifícia Universidade Católica do

Paraná como requisito parcial para obtenção do título

de Doutor em Informática.

Área de Concentração: Ciência da Computação

Orientadora: Profa. Dra. Cinthia Obladen de

Almendra Freitas

Coorientador: Prof. Dr. Flávio Bortolozzi

Co-orientador: Prof. Dr.Flávio Bortolozzi

i

Dedico este trabalho aos dois grandes amores da minha vida, minha filha Marcela e

meu marido Marcelo , sem os quais eu não teria nem força nem motivação para

continuar.

iii

Agradecimentos

Primeiramente a Deus, porque sem ele nada seria possível.

A minha grande incentivadora e orientadora Profa. Dra Cinthia Obladen de

Almendra Freitas, por todos os ensinamentos e pela orientação segura.

Ao prof. Dr. Flávio Bortolozzi pelas orientações e importantes contribuições

dadas à realização deste trabalho.

Aos meus pais Laert e Lourdinha pelo amor e confiança a mim dedicados.

Ao meu querido marido Marcelo Augusto pelo amor, pela força e pela

compreensão.

A minha pequena grande menina Marcela, por me mostrar o que realmente

importa na vida.

Ao meu amigo Arthur, pela amizade sincera e constantes incentivos.

Ao UniCesumar pelo apoio recebido durante a realização deste trabalho.

Ao PPGIa pela oportunidade e suporte oferecidos ao desenvolvimento deste

trabalho.

A CAPES pelo apoio financeiro.

A todos que direta ou indiretamente colaboraram na execução deste trabalho.

iv

vi

LISTA DE FIGURAS

FIGURA 2.1. ASSINATURA DE JOHN HANCOCK .............................................................. 32

FIGURA 2.2. SISTEMA DE PALMER ..................................................................................... 36

FIGURA 2.3. EXEMPLO DE CARACTERÍSTICAS INDIVIDUAIS ...................................... 42

FIGURA 2.4. CLASSIFICAÇÃO PARA ABORDAGENS DE IDENTIFICAÇÃO DE

AUTORIA................................................................................................................................... 56

FIGURA 2.5. ESQUEMA DE ABORDAGEM PARA IDENTIFICAÇÃO DE AUTORIA

ADOTADO NO MÉTODO PROPOSTO ................................................................................... 74

FIGURA 3.1. CARTA FORENSE DE LONDRES .................................................................... 77

FIGURA 3.2. CARTA FORENSE DO EGITO .......................................................................... 77

FIGURA 3.3. CARTA FORENSE DE IDAHO.......................................................................... 78

FIGURA 3.4. CARTA FORENSE DE CEDAR ......................................................................... 78

FIGURA 3.5. CARTA FORENSE PUCPR ................................................................................ 80

FIGURA 3.6. CARTA PUCPR CF00001_01 ............................................................................. 82

FIGURA 3.7. VISÃO GERAL DO MÉTODO PROPOSTO ..................................................... 84

FIGURA 3.8. EXEMPLO DE CARTA PUCPR ORIGINAL .................................................... 85

FIGURA 3.9. EXEMPLO DE CARTA PUCPR BINARIZADA ............................................... 85

FIGURA 3.10. EXEMPLO DE CARTA PUCPR APÓS O PROCESSO DE SEPARAÇÃO DE

LINHAS ................................................................................................................................... 86

FIGURA 3.11. EXEMPLO DE CARTA PUCPR APÓS O PROCESSO DE SEPARAÇÃO

DAS PALAVRAS ....................................................................................................................... 87

FIGURA 3.12. EXEMPLO DE CARTA PUCPR APÓS O PROCESSO DE DIVISÃO EM 24

FRAGMENTOS .......................................................................................................................... 88

FIGURA 3.13. EXEMPLO DE CARTA PUCPR APÓS O PROCESSO DE EXTRAÇÃO DE

CONTORNOS E BORDAS ........................................................................................................ 89

FIGURA 3.14. REGIÕES EM UMA PALAVRA ...................................................................... 90

FIGURA 3.15. LAÇO NA REGIÃO ASCENDENTE ............................................................... 90

FIGURA 3.16. VISÃO GERAL DO PROCESSO DE EXTRAÇÃO DE CARACTERÍSTICA

( F 1 -F 7 ) ................................................................................................................................... 99

FIGURA 3.17. VISÃO GERAL DO PROCESSO DE EXTRAÇÃO DE CARACTERÍSTICA

( F 8 -F 12 ) ................................................................................................................................... 99

FIGURA 3.18. PROCESSO GERAL DE SELEÇÃO DE CARACTERÍSTICAS ................... 100

FIGURA 3.19. PROTOCOLO DOS EXPERIMENTOS .......................................................... 104

FIGURA 4.1. USO DA CARACTERÍSTICA F 6 PARA A TOMADA DE DECISÃO ........... 111

FIGURA 4.2. USO DA CARACTERÍSTICA F 2 PARA A TOMADA DE DECISÃO ........... 112

vii

FIGURA 4.3. DEMARCAÇÃO DAS PRIMEIRAS PALAVRAS DE CADA LINHA EM UM

EXEMPLAR DE CARTA PRESENTE NA BASE DE CARTAS FORENSES PUCPR ........ 113

FIGURA 4.4. EXEMPLOS DE DIFERENTES ÂNGULOS DE ESCRITA (ESQUERDA,

DIREITA, VERTICAL) PARA A CARACTERÍSTICA F 8 .................................................... 115

FIGURA 4.5. EXEMPLOS DE LAÇOS ASCENDENTES E DESCENDENTES EM

DIFERENTES PALAVRAS E CARACTERES DE EXEMPLARES DE CARTAS DA BASE

DE CARTAS FORENSES PUCPR .......................................................................................... 117

ix

LISTA DE GRAFICOS

GRÁFICO 3.1. RELAÇÃO ENTRE O NÚMERO DE ESCRITORES E AS TAXAS DE

ACERTO ................................................................................................................................. 108

x

LISTA DE QUADROS

QUADRO 3.1. CARACTERÍSTICAS GRAFOMÉTRICAS DO MÉTODO PROPOSTO ...... 91

xii

NLPR National Laboratory of Pattern Recognition

nrolinhasCarta Identificador que contém o número total de linhas de um documento

nroPixelsPretos Identificador que contém o número de pixels pretos de uma linha do documento

NumeroPixelsLaco Número de pixels de um laço

PDM Distribution Point Model

posicaoMargemDireita Identificador que contém a distância da margem direita do documento em análise

posicaoMargemEsquerda Menor distância da margem esquerda do documento em análise

posicaoMargemInferior Posição do ultimo pixel preto da última palavra do documento em análise

posicaoMargemSuperior Posição do primeiro pixel preto da primeira palavra do documento em análise

RIMES Reconnaissance et Indexation de données Manuscrites et de fac similÉS / Recognition and Indexing of handwritten documents and faxes

SVM Support Vector Machine

TMfragmento Tamanho médio dos laços de um fragmento

TMgeral Tamanho médio de todos os laços ascendentes e descendentes do documento em análise

TMlaço Tamanho médio dos laços de cada fragmento

VSM Vector Space Model

WANDA Forensic Information System Handwriting

WED Weigthed Euclidean Distance

WMfragmento Largura média dos laços de um fragmento

WMgeral Largura média de todos os laços ascendentes e descendentes do documento em análise

WMlaço Largura média dos laços de cada fragmento

X Largura da caixa (bounding box) na qual a 1ª palavra do documento é inserida

XML Extensible Markup Language

Y Altura da caixa (bounding box) na qual a 1ª palavra do documento é inserida

xiii

Resumo

A escrita como elemento biométrico tem sido alvo de muitas pesquisas. Neste

contexto, diferentes soluções computacionais para identificação de autoria em

documentos manuscritos vêm sendo apresentadas na literatura, cada uma delas focando

em aspectos específicos da escrita, bem como em aspetos referentes à imagem dos

manuscritos. Esta pesquisa propõe um método computacional baseado em

características grafométricas que visa auxiliar e agilizar o processo, realizado pelos

peritos, de identificação de autoria em manuscritos. O estudo conta com uma base de

cartas forenses (modelo PUCPR) as quais são pré-processadas para extrair-se um

conjunto de características grafométricas para que subsequentemente o processo de

identificação de autoria seja realizado. Foram realizados dois grupos de experimentos, o

primeiro grupo teve como objetivo selecionar e validar as características grafométricas

implementadas (análises individuais e em grupo foram realizadas). Com a melhor

combinação de características selecionada, taxas de acerto de 84% para um grupo de

100 diferentes escritores foram obtidas. O segundo grupo de experimentos teve como

foco principal identificar o número de escritores que atinge uma convergência

assintótica dos resultados dos experimentos. Pode-se observar que com 200 diferentes

escritores nenhum ganho ou perda pode ser observado nos resultados obtidos

considerando as características grafométricas utilizadas.

Palavras-chave: identificação de autoria, características grafométricas, classificadores,

cartas forenses.

15

Capítulo 1

Introdução

De acordo com Mendes (2003), a “documentoscopia é a parte da criminalística

que estuda os documentos para verificar se são autênticos e, em caso contrário,

determinar a sua autoria”. Observa-se nesta área um grau elevado de subjetividade, uma

vez que diferentes peritos podem chegar a diferentes conclusões sobre os mesmos

documentos. Dessa forma, o uso de ferramentas computacionais que automatizem e

padronizem todo ou parte do processo de identificação adotado pelos peritos tem se

tornado campo de interesse da computação.

Em relação a identificação de autoria, esta pode ser dividida em duas grandes

áreas de pesquisa sendo elas: verificação e identificação de autoria. A verificação tem

como objetivo principal avaliar dadas duas amostras de manuscrito, se as mesmas são

ou não de um mesmo escritor (1:1). Enquanto a identificação tem como objetivo, dentre

um conjunto de escritores candidatos, identificar o autor de um documento questionado

(1:N).

No contexto da identificação de autoria várias pesquisas (LUNA et al., 2011,

HELLI; MOGHADDAM, 2010; SIDDIQI; VICENT, 2008; HE et al., 2008;

BENSEFIA et al., 2005; BLANKERS et al., 2007; BULACU et al., 2007;

PERVOUCHINI; LEEDHAM, 2007; SCHOMAKER et al., 2007) foram propostas com

o objetivo de apresentar métodos que automatizam todo ou parte do processo de

extração, análise das características e classificação da escrita humana. Os principais

aspectos que diferenciam tais pesquisas são: a natureza das características utilizadas, as

bases de dados aplicadas, os métodos de classificação e por fim as taxas de acerto

obtidas. Pode-se destacar dois principais grupos de características, aquelas que utilizam

em sua definição os mesmos aspectos utilizados pelos peritos, chamadas de

16

características grafométricas (LUNA et al., 2011; CHEN et al., 2010; PERVOUCHINI;

LEEDHAM, 2007; BLANKERS et al., 2007; SCHLAPBACH; BUNKE, 2004;

HERTEL; BUNKE, 2003; ZOIS; ANASTASSOPOULOS, 2000), e aquelas que

utilizam informações da imagem do documento, normalmente informações relativas à

textura do documento ou geração de codebooks. Características texturais e codebooks

(HELLI; MORGHADDAM, 2010; HE et al., 2008; SIDDIQI; VICENT, 2008;

BULACU et al., 2007; SCHOMAKER et al., 2007) normalmente apresentam taxas de

acerto melhores do que características grafométricas. No entanto, seu processo de

extração não é natural a um perito, e as mesmas têm aceitação limitada nos tribunais de

justiça.

Dessa forma, o desafio desta Tese de doutorado é propor um método, suportado

por uma solução computacional, para o problema de identificação de autoria de

documentos manuscritos que utilize apenas características grafométricas (que possam

ser aceitas, entendidas e utilizadas pelos peritos e demais operadores da Justiça). Deve-

se destacar que os resultados esperados a partir do método proposto tem como meta

atingir taxas comparáveis com aquelas apresentadas em métodos que utilizam

características não grafométricas, isto levando-se em consideração o número de

escritores para treinamento e teste do método proposto.

1. 1. Objetivos

Este trabalho tem como objetivo geral propor um método para identificação de

autoria em cartas forenses utilizando características grafométricas.

Como objetivos específicos pode-se destacar:

 realizar um levantamento bibliográfico acerca dos seguintes temas: escrita

humana e autoria de documentos manuscritos;

 estender a base de cartas forenses PUCPR para 600 diferentes escritores;

 propor um método de modo a selecionar um conjunto de primitivas, método de

classificação e, ainda, técnicas de extração de primitivas em cartas forenses;

 implementar um cenário de teste como prova de conceito para avaliar e validar o

método proposto, analisando os resultados obtidos.