RTesseract – OCR para Ruby

Publicado: 27-08-2010 em Gems, Linux, OCR, Programação, RTesseract, Ruby
Tags:, , , , ,

Vendo a necessidade de converter algumas imagens em texto pelo Ruby, criei uma gem que utiliza o programa Tesseract, o qual realiza todo o trabalho de conversão, deixando apenas para a gem o trabalho de capturar o resultado.
Para instalar é bem fácil, primeiramente deve-se instalar o Tesseract e a gem RMagick.

sudo apt-get install tesseract-ocr tesseract-ocr-por imagemagick libmagick9-dev

Agora instale as gems.
gem install rmagick rtesseract

Pronto a instalação foi concluída, agora é só ter uma imagem com texto escrito e utilizar o código abaixo.
require "rubygems"
require "rtesseract"
#O parâmetro passado para a classe é o caminho onde está a imagem.
img = RTesseract.new("./images/texto.jpg")
#Imprime o texto convertido
puts img.to_s

Para quem já conhece o Tesseract está pensando “mas ele só funcionava com .tif”, porém a gem se encarrega de converter dos outros formatos para o correto.

Espero que tenha ajudado, dúvidas, sugestões é só comentar que responderei.
Caso queira contribuir entre no repositório.

Deixe uma resposta

Preencha os seus dados abaixo ou clique em um ícone para log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Sair / Alterar )

Imagem do Twitter

You are commenting using your Twitter account. Sair / Alterar )

Foto do Facebook

You are commenting using your Facebook account. Sair / Alterar )

Connecting to %s