O que é Tesseract?
É um software de reconhecimento ótico de caracteres de código aberto com Licença Apache 2.0, originalmente desenvolvido pela Hewlett-Packard e foi por um tempo mantido pelo Google. Se aplica a imagens em formato tiff com texto puro em uma única coluna, convertendo a saída em um arquivo txt. Não possui mecanismos para reconhecimento de layout, desta forma não é recomendável para textos que possuam imagens, fórmulas ou mais de uma coluna.
Instalando o tesseract-ocr no Debian, Ubuntu e derivados
$ sudo apt install imagemagick graphicsmagick-libmagick-dev-compat exactimage tesseract-ocr
Convertendo um imagem "teste.jpg" para texto
Na imagem deve ter letras, números ou uma combinação de letras e números para o tesseract fazer a leitura e extrair o resultado.
No diretório onde está a imagem com texto, execute o comando abaixo.
# tesseract teste.jpg -psm 8 output.txt
Integrando o tesseract-ocr em um sistema em PHP
Com o ambiente PHP configurado, pode ser adicionado a lib tesseract-ocr via composer.
Após instalar o tesseract-ocr e realizado os testes de captura de texto de uma imagem pelo terminal, execute no diretório do projeto.
$ composer require thiagoalessio/tesseract_ocr
Uso básico na prática com PHP
<?php
require_once "vendor/autoload.php";
use thiagoalessio\TesseractOCR\TesseractOCR;
echo (new TesseractOCR('imagens/teste.png'))->run();
Demais exemplos de como utilizar a lib TesseractOCR no PHP, use a referência [2].
Referências
[1] https://github.com/tesseract-ocr/tesseract
[2] https://github.com/thiagoalessio/tesseract-ocr-for-php
Feito!
Nenhum comentário:
Postar um comentário