Mundo da Computação Integral: Reconhecendo caracteres em imagens com Tesseract

sábado, 16 de janeiro de 2021

Reconhecendo caracteres em imagens com Tesseract

O que é Tesseract?

É um software de reconhecimento ótico de caracteres de código aberto com Licença Apache 2.0, originalmente desenvolvido pela Hewlett-Packard e foi por um tempo mantido pelo Google. Se aplica a imagens em formato tiff com texto puro em uma única coluna, convertendo a saída em um arquivo txt. Não possui mecanismos para reconhecimento de layout, desta forma não é recomendável para textos que possuam imagens, fórmulas ou mais de uma coluna.

Instalando o tesseract-ocr no Debian, Ubuntu e derivados

$ sudo apt install imagemagick graphicsmagick-libmagick-dev-compat exactimage tesseract-ocr

Convertendo um imagem "teste.jpg" para texto

Na imagem deve ter letras, números ou uma combinação de letras e números para o tesseract fazer a leitura e extrair o resultado.

No diretório onde está a imagem com texto, execute o comando abaixo.

# tesseract teste.jpg -psm 8 output.txt

Integrando o tesseract-ocr em um sistema em PHP

Com o ambiente PHP configurado, pode ser adicionado a lib tesseract-ocr via composer.

Após instalar o tesseract-ocr e realizado os testes de captura de texto de uma imagem pelo terminal, execute no diretório do projeto.

$ composer require thiagoalessio/tesseract_ocr

Uso básico na prática com PHP


<?php
require_once "vendor/autoload.php";

use thiagoalessio\TesseractOCR\TesseractOCR;

   echo (new TesseractOCR('imagens/teste.png'))->run();

Demais exemplos de como utilizar a lib TesseractOCR no PHP, use a referência [2].

Referências

[1] https://github.com/tesseract-ocr/tesseract

[2] https://github.com/thiagoalessio/tesseract-ocr-for-php

Feito!

Mundo da Computação Integral

anúncios