Tesseract安装使用
来源:互联网 发布:淘宝店铺买家采集 编辑:程序博客网 时间:2024/06/07 15:22
mac
brew install Tesseract
↳ Command-Line OCR with Tesseract on Mac OS X
This is a short writeup of the working process I came up with for command-line OCR of a non-OCR’d PDF with searchable PDF output on OS X, after running into a thousand little gotchas. 1
Software Installation
- Install homebrew (if you haven’t already).
Install ImageMagick with TIFF and Ghostscript support:
brew install --with-libtiff --with-ghostscript imagemagick
Install Tesseract with all languages:
brew install --all-languages tesseract
- Install pdftk server from the package installer.
Processing Workflow
I’m going to assume you have a non-OCR’d PDF you want to convert into a searchable PDF.
Split and convert the PDF with ImageMagick
convert
:convert -density 300 input.pdf -type Grayscale -compress lzw -background white +matte -depth 32 page_%05d.tif
OCR the pages with Tesseract: 2 3
for i in page_*.tif; do echo $i; tesseract $i $(basename $i .tif) pdf; done
Join your individual PDF files into a single, searchable PDF with
pdftk
: 4pdftk page_*.pdf cat output merged.pdf
convert 9.png -resize 3000% -type Grayscale input9.tif (因为像素low所以要转)
tesseract input9.tif output9 -l eng
tesseract input9.png output9 (默认是eng英文) 0 0
- Tesseract安装使用
- tesseract安装使用
- tesseract-ocr ubuntu 安装使用
- tesseract-ocr ubuntu 安装使用
- Tesseract:安装与命令行使用
- Tesseract:安装与命令行使用
- [TesserAct学习笔记1]TesserAct的安装、训练、使用
- python-tesseract下载安装及使用
- tesseract-ocr 4.0 安装及使用
- Tesseract-OCR 3.0+ 安装和使用
- Tesseract安装
- tesseract 安装
- tesseract使用
- debian8 上安装tesseract-ocr并使用Tess4j
- ubuntu下tesseract 4.0安装及参数使用
- Tesseract-ocr的安装
- linux 安装Tesseract-OCR
- 安装Tesseract-OCR
- @ModelAttribute需要注意的地方
- 1010. Radix (25)
- 迁移sql server tempdb数据库
- 初学Qt——QTableView+QSqlqueryModel
- matlab时间格式转换
- Tesseract安装使用
- 【shell】基本操作,和常见的linux内建命令。
- lwp 模拟行锁堵塞 前端超时
- unicode和utf-8和assci之间的关系
- oracle 数据库,A 表有 10 条记录,以下查询可以查出几条? select * from A where rownum > 5
- Hibernate 主键生成策略
- 数据库基础及常用SQL语句
- js查看一个函数的执行所用时间
- 创建bus