Vendo a necessidade de converter algumas imagens em texto pelo Ruby, criei uma gem que utiliza o programa Tesseract, o qual realiza todo o trabalho de conversão, deixando apenas para a gem o trabalho de capturar o resultado.
Para instalar é bem fácil, primeiramente deve-se instalar o Tesseract e a gem RMagick.
sudo apt-get install tesseract-ocr tesseract-ocr-por imagemagick libmagick9-dev
Agora instale as gems.
gem install rmagick rtesseract
Pronto a instalação foi concluída, agora é só ter uma imagem com texto escrito e utilizar o código abaixo.
require "rubygems"
require "rtesseract"
#O parâmetro passado para a classe é o caminho onde está a imagem.
img = RTesseract.new("./images/texto.jpg")
#Imprime o texto convertido
puts img.to_s
Para quem já conhece o Tesseract está pensando “mas ele só funcionava com .tif”, porém a gem se encarrega de converter dos outros formatos para o correto.
Espero que tenha ajudado, dúvidas, sugestões é só comentar que responderei.
Caso queira contribuir entre no repositório.
