Navigation:  Cadastro > Perfil de reconhecimento > Cadastrar perfil de reconhecimento >

OCR

Previous  Top  Next

Veja a seguir as regras disponíveis quando a opção OCR for selecionada no perfil de reconhecimento:

 

Opcional

Ao selecionar esta regra, o sistema fará o reconhecimento na área específica ou na página inteira e extrairá o valor capturado. Veja a seguir um exemplo de sua aplicação:

 

1.No perfil de reconhecimento, após definir um identificador e nome, foi importada a imagem de um cupom fiscal.

 

2.No painel Índices, foi configurado um índice chamado "Nome da empresa".

 

3.Nos detalhes do índice, foi definido que o reconhecimento seria feito considerando uma área específica. Em seguida, foi selecionada a opção OCR e a regra Opcional.

 

4.No painel de pré-visualização, o índice foi delimitado no local onde, comumente, se encontra a razão social de uma empresa, em um cupom fiscal.

 

Com isso, no campo Imagem capturada, é possível visualizar que foi considerada somente a área específica do cupom fiscal. No campo Dado reconhecido, é apresentado o nome da empresa emissora do cupom fiscal:

 

 

Substring

Ao selecionar esta regra, o sistema realiza o reconhecimento na área específica ou na página inteira e extrairá o valor capturado, de acordo com as delimitações e ocorrências configuradas. Veja a seguir um exemplo de sua aplicação:

 

1.No perfil de reconhecimento, após definir um identificador e nome, foi importada a imagem de um contrato.

 

2.No painel Índices, foi configurado um índice chamado "CNPJ - Contratante".

 

3.Nos detalhes do índice, foi definido que o reconhecimento seria feito considerando a página inteira.

 

4.Em seguida, foi selecionada a opção OCR e a regra Substring e preenchidos os seguintes campos:

Campos

Capturar a partir de

Foi preenchido com as palavras que antecedem o número do CNPJ da empresa contratante.

Até

Foi preenchido com as palavras que sucedem ao CNPJ da empresa contratante.

Ocorrência

Foi informado o número 2, para que apenas a segunda vez que o trecho "CNPJ sob o nº" aparece no texto, seja considerada na captura.

 

Com isso, no campo Imagem capturada, é possível visualizar que foi considerada toda a página do contrato. No campo Dado reconhecido, é apresentado o CNPJ da empresa contratante, conforme especificado no contrato:

 

 

Linha de informação

Ao selecionar esta regra, o sistema realiza o reconhecimento de uma determinada linha na área específica ou na página inteira e extrairá o valor capturado, de acordo com as delimitações e ocorrências configuradas. Veja a seguir um exemplo de sua aplicação:

 

1.No perfil de reconhecimento, após definir um identificador e nome, foi importada a imagem de um cupom fiscal.

 

2.No painel Índices, foi configurado um índice chamado "Forma de pagamento".

 

3.Nos detalhes do índice, foi definido que o reconhecimento seria feito considerando a página inteira.

 

4.Em seguida, foi selecionada a opção OCR e a regra Linha de informação e preenchidos os seguintes campos:

Campos

Capturar a partir de

Foi preenchido com a primeira palavra da linha que antecede a linha na qual comumente se encontra a forma de pagamento, em um cupom fiscal.

A linha número

Foi informado o número da linha que sucede o valor informado no "Capturar a partir de", cujo valor deve ser extraído. Neste caso, foi informado o número 1, pois se deseja capturar a linha seguinte.

Ocorrência

Foi informado o número 1, para que o reconhecimento seja realizado na primeira vez que a palavra "Total" aparece no cupom fiscal.

 

Com isso, no campo Imagem capturada, é possível visualizar que foi considerada toda a página do cupom fiscal. No campo Dado reconhecido, é apresentada a forma de pagamento e o total pago, conforme especificado no cupom fiscal:

 

 

Offset

Ao selecionar esta regra, o sistema realiza o reconhecimento dentro de uma área sensível da área específica ou da página inteira, de acordo com as delimitações e ocorrências configuradas. Veja a seguir um exemplo de sua aplicação:

 

1.No perfil de reconhecimento, após definir um identificador e nome, foi importada a imagem de uma DANFE.

 

2.No painel Índices, foi configurado um índice chamado "Total"

 

3.Nos detalhes do índice, foi definido que o reconhecimento seria feito considerando uma área específica.

 

4.Em seguida, foi selecionada a opção OCR e a regra Offset e preenchidos os seguintes campos:

Campos

Capturar a partir de

Foi preenchido com as palavras que antecedem o valor total da nota fiscal.

Área sensível

No campo Posição, foi definido que o reconhecimento deveria ser feito abaixo de onde se encontra o trecho "Valor total da nota". Em seguida, foi informada a largura e a altura da área sensível, ou seja, da área onde se encontra o valor desejado.

Ocorrência

Foi informado o número 1, para que o reconhecimento seja realizado na primeira vez que a palavra "Valor total da nota" aparece na nota fiscal.

 

Com isso, no campo Imagem capturada, é possível visualizar que foi considerada somente a área específica da nota fiscal. No campo Dado reconhecido, é apresentado o valor total da nota:

 

 

Máscara

Ao selecionar esta regra, o sistema realiza o reconhecimento na área específica ou na página inteira e extrairá o valor capturado, de acordo com a expressão regular configurada. Veja a seguir um exemplo de sua aplicação:

 

1.No perfil de reconhecimento, após definir um identificador e nome, foi importada a imagem de um cupom fiscal.

 

2.No painel Índices, foi configurado um índice chamado "CEP".

 

3.Nos detalhes do índice, foi definido que o reconhecimento seria feito considerando a página inteira.

 

4.Em seguida, foi selecionada a opção OCR e a regra Máscara e preenchidos os seguintes campos:

Campos

Expressão regular

Foi preenchido com a expressão regular referente a composição de um CEP. Veja logo a seguir como montar expressões regulares.

Ocorrência

Foi informado o número 1, para que o reconhecimento seja realizado na primeira vez que o resultado da expressão regular encontre coincidência no cupom fiscal.

 

Com isso, no campo Imagem capturada, é possível visualizar que foi considerada toda a página do cupom fiscal. No campo Dado reconhecido, é apresentado o CEP da empresa emissora do cupom fiscal:

 

 

Montagem da expressão regular

Uma expressão regular é uma notação para descrever um padrão de caracteres. Serve para validar entradas de dados ou fazer busca e extração de informações em textos. Por exemplo, para verificar se um dado fornecido é um número de 0,00 a 9,99 pode-se usar a expressão regular ^\d,\d\d$, pois o símbolo \d é um curinga que casa com um dígito. Os caracteres especiais ^ e $ indicam, respectivamente, como será o início e fim da linha; sem eles, os números 10,00 ou 100,123 seriam válidos, pois contém dígitos que casam com a expressão regular.

Um metacaractere é um caractere ou uma sequência de caracteres com significado especial em expressões regulares. Os metacaracteres podem ser categorizados conforme seu uso.

 

Em expressões regulares o verbo 'casar' é usado como tradução para match, no sentido de combinar, encaixar, parear.

 

Especificadores

Especificam o conjunto de caracteres a casar em uma posição.

Metacaractere

Descrição

.

Curinga: Casa com qualquer caractere, exceto a quebra de linha \n.

[...]

Conjunto: Casa com qualquer caractere incluído no conjunto. Por exemplo:

[a-z] irá aceitar strings com caracteres minúsculos entre 'a' e 'z', enquanto [A-Z] aceitará caracteres maiúsculos entre 'A' e 'Z'.

[abcABC] irá aceitar strings que contenham apenas os caracteres 'a', 'b', 'c', 'A', 'B' e/ou 'C'.

[123] irá aceitar strings que contenham apenas os caracteres '1', '2' e/ou '3';

[0-9] irá aceitar strings com caracteres entre '0' e '9'.

[^...]

Conjunto negado: Casa com qualquer caractere que não esteja incluído no conjunto

\d

Dígito: o mesmo que [0-9].

\D

Não-dígito: o mesmo que [^0-9].

\s

Branco: espaço, quebra de linha, tabs etc.; o mesmo que [ \t\n\r\f\v].

\S

Não-branco: o mesmo que [^ \t\n\r\f\v].

\w

Alfanumérico: o mesmo que [a-zA-Z0-9_] (mas pode incluir caracteres Unicode)

\W

Não-alfanumérico: o complemento de \w.

\

Escape: anula o significado especial do metacaractere seguinte; por exemplo,\. representa apenas um ponto, e não o curinga.

 

Quantificadores

Definem o número permitido de repetições da expressão regular imediatamente anterior.

Metacaractere

Descrição

{n}

Permite exatamente n ocorrências. Por exemplo:

[abc]{3}: Aceita strings contendo 3 caracteres, sendo eles 'a', 'b' ou 'c', como: aaa, abc, acb, bba, etc.

[0-9]{5}: Aceita strings com 5 caracteres entre '0' e '9', como: 11111, 12345, 15973, etc.

{n,m}

Permite no mínimo n ocorrências e no máximo m. Por exemplo:

[abc]{3,5}: Aceita strings contendo entre 3 e 5 caracteres, sendo eles 'a', 'b' ou 'c', como: aaaaa, acbca, abc, acba, etc.

[0-9]{5,6}: Aceita strings contendo 5 ou 6 caracteres entre '0' e '9', como: 12345, 123456, 01030, 000000, etc.

{n,}

Permite no mínimo n ocorrências. Por exemplo:

[abc]{2,}: Aceita strings contendo, ao menos, 2 caracteres, sendo eles 'a', 'b' ou 'c', como: aa, abc, ccc, abcabc, etc.

[0-9]{2,}: Aceita strings contendo, ao menos, 2 caracteres entre '0' e '9', como: 12, 123, 987654321, etc.

?

Permite 0 ou 1 ocorrência; o mesmo que {0,1}.

+

Permite 1 ou mais ocorrências; o mesmo que {1,}.

*

Permite 0 ou mais ocorrências.

 

Âncoras

Estabelecem posições de referência para o casamento do restante da expressão regular. Note que estes metacaracteres não casam com caracteres no texto, mas sim com posições antes, depois ou entre os caracteres.

Metacaractere

Descrição

^

Casa o início de uma string.

$

Casa o fim de uma string; não captura o \n no fim do texto ou da linha.

\A

Início do texto.

\Z

Fim do texto.

\b

Posição de borda: Encontra uma correspondência no início ou fim de uma string;

\B

Posição de não-borda.

 

Agrupamento

Definem ou grupos ou alternativas.

Metacaractere

Descrição

(...)

Define um grupo, para efeito de aplicação de quantificador, alternativa ou de posterior extração ou reuso

...|...

Alternativa; casa a expressão regular à direita ou à esquerda.

\«n»

Recupera o texto casado no n-ésimo grupo.

 

Exemplos: Veja alguns exemplos com breves explicações para ter uma ideia geral:

\d{5}-\d{3}

O padrão de um CEP como 05432-001: 5 dígitos, um - (hífen) e mais 3 dígitos. A sequência \d é um metacaractere, um curinga que casa com um dígito (0 a 9). A sequência {5} é um quantificador: indica que o padrão precedente deve ser repetido 5 vezes, portanto \d{5} é o mesmo que \d\d\d\d\d.

[012]\d:[0-5]\d

Semelhante ao formato de horas e minutos, como 03:10 ou 23:59. A sequência entre colchetes [012] define um conjunto. Neste caso, o conjunto especifica que o primeiro caractere deve ser 0, 1 ou 2. Dentro dos [] o hífen indica uma faixa de caracteres, ou seja, [0-5] é uma forma abreviada para o conjunto [012345]; o conjunto que representa todos os dígitos, [0-9] é o mesmo que \d. Note que esta expressão regular também aceita o texto 29:00 que não é uma hora válida.

[A-Z]{3}-\d{4}

É o padrão de uma placa de automóvel no Brasil: três letras entre A e Z, seguidas de um - (hífen), seguido de quatro dígitos, como CKD-4592.

 

Valor fixo

Ao selecionar esta regra, o sistema permite que o usuário defina um determinado valor para ser utilizado na classificação das informações geradas a partir do perfil de reconhecimento em questão. Veja a seguir um exemplo de sua aplicação:

 

1.No perfil de reconhecimento, após definir um identificador e nome, foi importada a imagem de uma conta de luz.

 

2.No painel Índices, foi configurado um índice com o nome "Companhia".

 

3.No campo Regra, dos detalhes do índice, foi selecionada a opção Valor fixo. Em seguida, no campo Retorno, foi informado o nome da "Companhia de luz".

 

Com isso, por exemplo, é possível parametrizar na configuração da captura que todos os documentos gerados a partir do perfil de reconhecimento (com o valor fixo configurado) serão automaticamente cadastrados na categoria "Contas de luz".