Navigation:  »No topics above this level«

OCR

Top 

Vea a continuación, las reglas disponibles cuando se selecciona la opción OCR en el perfil de reconocimiento:

 

Opcional

Al seleccionar esta regla, el sistema hará el reconocimiento en el área específica o en la página completa y extraerá el valor capturado. Vea a continuación, un ejemplo de su aplicación:

 

1.En el perfil de reconocimiento, después de definir un identificador y nombre, fue importada la imagen de una factura o nota fiscal.

 

2.En el panel Índices, se ha configurado un índice llamado "Nombre de la empresa".

 

3.En los detalles del índice, fue definido que el reconocimiento se haría considerando un área específica. A continuación, se seleccionó la opción OCR y la regla Opcional.

 

4.En el panel de previsualización, el índice se delimitó en el lugar donde, comúnmente, se encuentra la razón social de una empresa, en una factura.

 

Con eso, en el campo Imagen capturada, es posible visualizar que fue considerada solamente el área específica de la factura. En el campo Dato reconocido, se presenta el nombre de la empresa emisora de la factura:

 

 

Substring

Al seleccionar esta regla, el sistema realiza el reconocimiento en el área específica o en la página completa y extraerá el valor capturado, de acuerdo con las delimitaciones y ocurrencias configuradas. Vea a continuación, un ejemplo de su aplicación:

 

1.En el perfil de reconocimiento, después de definir un identificador y nombre, fue importada la imagen de un contrato.

 

2.En el panel Índices, se ha configurado un índice chamado "CUIT - Contratante".

 

3.En los detalles del índice, fue definido que el reconocimiento se haría considerando la página completa.

 

4.A continuación, se seleccionó la opción OCR y la regla Substring y se han llenado los siguientes campos:

Campos

Capturar a partir de

Fue llenado con las palabras que preceden el número del CUIT de la empresa contratante.

Hasta

Fue llenado con las palabras que siguen al CUIT de la empresa contratante.

Ocurrencia

Fue informado el número 2, para que solo la segunda vez que el tramo "CUIT bajo el nº" aparezca en el texto, se considere en la captura.

 

Con eso, en el campo Imagen capturada, es posible visualizar que fue considerada toda la página del contrato. En el campo Dato reconocido, se presenta el CUIT de la empresa contratante, según lo especificado en el contrato:

 

 

Línea de información

Al seleccionar esta regla, el sistema realiza el reconocimiento de una determinada línea en el área específica o en la página completa y extraerá el valor capturado, de acuerdo con las delimitaciones y ocurrencias configuradas. Vea a continuación, un ejemplo de su aplicación:

 

1.En el perfil de reconocimiento, después de definir un identificador y nombre, fue importada la imagen de una factura o nota fiscal.

 

2.En el panel Índices, se ha configurado un índice llamado "Forma de pago".

 

3.En los detalles del índice, fue definido que el reconocimiento se haría considerando la página completa.

 

4.A continuación, se seleccionó la opción OCR y la regla Línea de información y se han llenado los siguientes campos:

Campos

Capturar a partir de

Fue llenado con la primera palabra de la línea que precede a la línea en la cual comúnmente se encuentra la forma de pago, en una factura.

La línea número

Fue informado el número de la línea que sigue al valor informado en el campo "Capturar a partir de", cuyo valor debe extraerse. En este caso, fue informado el número 1, ya que se desea capturar la línea siguiente.

Ocurrencia

Fue informado el número 1, para que el reconocimiento sea realizado la primera vez que la palabra "Total" aparezca en la factura.

 

Con eso, en el campo Imagen capturada, es posible visualizar que fue considerada toda la página de la factura. En el campo Dato reconocido, se presenta la forma de pago y el total pagado, según se especifica en la factura:

 

 

Offset

Al seleccionar esta regla, el sistema realiza el reconocimiento dentro de un área sensible del área específica o de la página completa, de acuerdo con las delimitaciones y ocurrencias configuradas. Vea a continuación, un ejemplo de su aplicación:

 

1.En el perfil de reconocimiento, después de definir un identificador y nombre, fue importada la imagen de una DANFE.

 

2.En el panel Índices, se ha configurado un índice llamado "Total".

 

3.En los detalles del índice, fue definido que el reconocimiento se haría considerando un área específica.

 

4.A continuación, se seleccionó la opción OCR y la regla Offset y se han llenado los siguientes campos:

Campos

Capturar a partir de

Fue llenado con las palabras que preceden el valor total de la factura.

Área de reconocimiento

En el campo Posición, fue definido que el reconocimiento debe realizarse abajo, donde se encuentra el tramo "Valor total de la nota". Enseguida, fue informado el ancho y la altura del área de reconocimiento, o sea, del área donde se encuentra el valor deseado.

Ocurrencia

Fue informado el número 1, para que el reconocimiento sea realizado la primera vez que la palabra "Valor total de la nota" aparezca en la factura.

 

Con eso, en el campo Imagen capturada, es posible visualizar que fue considerada solamente el área específica de la nota fiscal. En el campo Dato reconocido, se muestra el valor total de la nota:

 

 

Máscara

Al seleccionar esta regla, el sistema realiza el reconocimiento en el área específica o en la página completa y extraerá el valor capturado, de acuerdo con la expresión regular configurada. Vea a continuación, un ejemplo de su aplicación:

 

1.En el perfil de reconocimiento, después de definir un identificador y nombre, fue importada la imagen de una factura o nota fiscal.

 

2.En el panel Índices, se ha configurado un índice llamado "CEP".

 

3.En los detalles del índice, fue definido que el reconocimiento se haría considerando la página completa.

 

4.A continuación, se seleccionó la opción OCR y la regla Máscara y se llenaron los siguientes campos:

Campos

Expresión regular

Fue llenado con la expresión regular que se refiere a la composición de un CEP. Vea a continuación cómo formar expresiones regulares.

Ocurrencia

Fue informado el número 1, para que el reconocimiento se realice la primera vez que el resultado de la expresión regular encuentre coincidencia en la factura.

 

Con eso, en el campo Imagen capturada, es posible visualizar que fue considerada toda la página de la factura. En el campo Dato reconocido, se presenta el nombre de la empresa emisora de la factura:

 

 

Montaje de la expresión regular

Una expresión regular es una notación para describir un estándar de caracteres. Sirve para validar entradas de datos o para buscar y extraer información en textos. Por ejemplo, para verificar si un dato proporcionado es un número de 0,00 a 9,99 se puede usar la expresión regular ^\d,\d\d$, pues el símbolo \d es un comodín que coincide con un dígito. Los caracteres especiales ^ y $ indican, respectivamente, cómo será el inicio y el final de la línea; sin ellos, los números 10,00 o 100,123 serían válidos, ya que contienen dígitos que coinciden con la expresión regular.

Un metacarácter es un carácter o una secuencia de caracteres con un significado especial en expresiones regulares. Los metacaracteres pueden clasificarse según su uso.

 

En expresiones regulares el verbo 'coincidir' se utiliza como traducción para match, en el sentido de combinar, encajar, parear.

 

Especificadores

Especifican el conjunto de caracteres que van a coincidir en una posición.

Metacarácter

Descripción

.

Comodín: Coincide con cualquier carácter, excepto el salto de línea \n.

[...]

Conjunto: Coincide con cualquier carácter incluido en el conjunto. Por ejemplo:

[a-z] aceptará strings con caracteres en minúsculas entre 'a' y 'z', mientras que [A-Z] aceptará caracteres en mayúsculas entre 'A' y 'Z'.

[abcABC] aceptará strings que contengan solo los caracteres 'a', 'b', 'c', 'A', 'B' y/o 'C'.

[123] aceptará strings que contengan solo los caracteres '1', '2' y/o '3';

[0-9] aceptará strings con caracteres entre '0' y '9'.

[^...]

Conjunto denegado: Coincide con cualquier carácter que no esté incluido en el conjunto

\d

Dígito: lo mismo que [0-9].

\D

No-dígito: lo mismo que [0-9].

\s

Blanco: espacio, salto de línea, tabs, etc.; lo mismo que [ \t\n\r\f\v].

\S

No-blanco: lo mismo que [^ \t\n\r\f\v].

\w

Alfanumérico: lo mismo que [a-zA-Z0-9_] (pero puede incluir caracteres Unicode)

\W

No-alfanumérico: el complemento de \w.

\

Escape: anula el significado especial del metacarácter siguiente; por ejemplo,\. representa apenas un ponto, y no el comodín.

 

Cuantificadores

Definen el número permitido de repeticiones de la expresión regular inmediatamente anterior.

Metacarácter

Descripción

{n}

Permite exactamente n ocurrencias. Por ejemplo:

[abc]{3}: Acepta strings que contienen 3 caracteres, siendo ellos 'a', 'b' ou 'c', como: aaa, abc, acb, bba, etc.

[0-9]{5}: Acepta strings de 5 caracteres entre '0' y '9', como: 11111, 12345, 15973, etc.

{n,m}

Permite un mínimo de n ocurrencias y máximo m. Por ejemplo:

[abc]{3,5}: Acepta strings conteniendo entre 3 y 5 caracteres, siendo ellos 'a', 'b' o 'c', como: aaaaa, acbca, abc, acba, etc.

[0-9]{5,6}: Acepta strings que contienen 5 o 6 caracteres entre '0' y '9', como: 12345, 123456, 01030, 000000, etc.

{n,}

Permite al menos n ocurrencias. Por ejemplo:

[abc]{2,}: Acepta strings que contienen al menos 2 caracteres, siendo ellos 'a', 'b' ou 'c', como: aa, abc, ccc, abcabc, etc.

[0-9]{2,}: Acepta strings que contienen al menos 2 caracteres entre '0' y '9', como: 12, 123, 987654321, etc.

?

Permite 0 o 1 ocurrencia; lo mismo que {0,1}.

+

Permite 1 o más ocurrencias; lo mismo que {1,}.

*

Permite 0 o más ocurrencias.

 

Delimitadores

Establecen posiciones de referencia para que coincida el resto de la expresión regular. Tenga en cuenta que estos metacaracteres no coinciden con los caracteres del texto, sino con posiciones anteriores, posteriores o entre los caracteres.

Metacarácter

Descripción

^

Coincide con el inicio de una string.

$

Coincide con el fin de una string; no captura el \n al final del texto o de la línea.

\A

Inicio del texto.

\Z

Fin del texto.

\b

Posición de borde: Encuentra una correspondencia al inicio o al final de un string;

\B

Posición de no borde (fuera de borde).

 

Agrupación

Definen o grupos o alternativas.

Metacarácter

Descripción

(...)

Define un grupo, para efecto de aplicación de cuantificador, alternativa o de posterior extracción o reutilización

...|...

Alternativa; coincide con la expresión regular a la derecha o a la izquierda.

\«n»

Recupera el texto que coincidió en el n-ésimo grupo.

 

Ejemplos: Vea algunos ejemplos con explicaciones breves para una idea general:

\d{5}-\d{3}

El estándar de un CEP como 05432-001: 5 dígitos, un - (guión) y 3 dígitos más. La secuencia \d es un metacarácter, un comodín que coincide con un dígito (0 a 9). La secuencia {5} es un cuantificador: indica que el estándar precedente debe repetirse 5 veces, por lo que \d{5} es lo mismo que \d\d\d\d\d.

[012]\d:[0-5]\d

Similar al formato de horas y minutos, como 03:10 o 23:59. La secuencia entre corchetes [012] define un conjunto. En este caso, el conjunto especifica que el primer carácter debe ser 0, 1 o 2. Dentro de los [] el guión indica un rango de caracteres, es decir, [0-5] es una forma abreviada para el conjunto [012345]; el conjunto que representa todos los dígitos, [0-9] es lo mismo que \d. Tenga en cuenta que esta expresión regular también acepta el texto 29:00 que no es una hora válida.

[A-Z]{3}-\d{4}

Es el estándar de una placa de automóvil en Brasil: tres letras entre A y Z, seguidas de un - (guión), seguido de cuatro dígitos, como CKD-4592.

 

Valor fijo

Al seleccionar esta regla, el sistema permite que el usuario defina un determinado valor para ser utilizado en la clasificación de la información generada a partir del perfil de reconocimiento en cuestión. Vea a continuación, un ejemplo de su aplicación:

 

1.En el perfil de reconocimiento, después de definir un identificador y nombre, fue importada la imagen de una cuenta de luz.

 

2.En el panel Índices, fue configurado un índice con el nombre "Compañía".

 

3.En el campo Regla, de los detalles del índice, fue seleccionada la opción Valor fijo. Enseguida, en el campo Retorno, fue informado el nombre de la "Compañía de luz".

 

Con eso, por ejemplo, es posible parametrizar en la configuración de captura que todos los documentos generados a partir del perfil de reconocimiento (con el valor fijo configurado) serán registrados automáticamente en la categoría "Cuentas de luz".