domingo, 17 de enero de 2016

OCR en Linux

Wikijc:Sistemas gocr

OCR para linux

La instalacion del programa se puede hacer desde synaptic o con apt-get
$sudo apt-get install gocr
Con un fichero de imagen (jpg) podemos extraer su texto con la siguiente orden
$gocr -i /tmp/docu.jpg -o /tmp/docuorc -f UTF8

La ayuda del programa es esta:
$gocr -h
Optical Character Recognition --- gocr 0.45 20071126
Copyright (C) 2001-2007 Joerg Schulenburg
released under the GNU General Public License
using: gocr [options] pnm_file_name  # use - for stdin
options (see gocr manual pages for more details):
-h        - get this help
-i name   - input image file (pnm,pgm,pbm,ppm,pcx,...)
-o name   - output file  (redirection of stdout)
-e name   - logging file (redirection of stderr)
-x name   - progress output to fifo (see manual)
-p name   - database path including final slash (default is ./db/)
-f fmt    - output format (ISO8859_1 TeX HTML XML UTF8 ASCII)
-l num    - threshold grey level 0<160 -1="autodetect)" -="" -a="" -c="" -d="" -gray="" -m="" -p="" -pnm="" -s="" -v="" .="" 0-9a-fx="" 0..100="" 130="" 4="" analyzis="" ascii="" autodetect="" bitpattern="" certainty="" char="" chars="" clusters="" database="" debugging="" default="95)" djpeg="" do="" dots="" dust_size="" ex.="" examples:="" extend="" filter="" gocr="" hexdigits:="" in="" jpeg-file="" layout="" list="" manual="" modes="" num="" of="" only="" operation="" page="" percent="" pipe="" pre="" remove="" see="" small="" spacewidth="" string="" text.jpg="" text1.pbm="" use="" value="" verbose="" via="">
webpage: http://jocr.sourceforge.net/

No hay comentarios:

Publicar un comentario

Nota: solo los miembros de este blog pueden publicar comentarios.