
新米太郎
皆さんこんにちは新米です。
今回は画像から文字を認識できる方法を紹介します。
やりたい事
①画像も文字認識
②テキストの書き込み
②テキストの書き込み
(イメージ)
実行した環境
◇MacOS
- Python 3.8.10
- pyocr 0.8
- tesseract 4.1.1
準備するもの
tesseractとPyOCRの2つが必要なのでターミナルでインストールしましょう!
1.tesseractをインストール
brew install tesseract
2.PyOCRをインストール
pip3 install pyocr
無事にインストールできたか確認したい場合は、、
brew list //tesseractインストール済みか確認したい場合
pip3 list //pyocrインストール済みか確認したい場合
2つともインストールが完了しましたら、早速OCRを体験してみましょう!
試してみよう
サンプルコード
from PIL import Image import sys import pyocr import pyocr.builders tools = pyocr.get_available_tools() if len(tools) == 0: print("No OCR tool found") sys.exit(1) tool = tools[0] print("Will use tool '%s'" % (tool.get_name())) #①画像の文字認識 txt = tool.image_to_string( Image.open("画像パス"), lang="jpn", builder=pyocr.builders.TextBuilder(tesseract_layout=6) ) #②テキストに書き込み path = "ファイルパス" f = open(path,"w") f.write(txt) f.close()
参考記事:https://qiita.com/seigot/items/7d424000c8d35e5146e4
実行
python3 main.py
サンプル画像
結果(テキストファイル)
1文字目のカギ括弧(“「“)以外は上手く出力できてそうですね。

新米太郎
ちなみに、縦書きの場合はlang=’jpn_vert’に変えればいいだけです。
心を燃やせ!❤️🔥
まとめ
いかがだったでしょうか。
OCRは、必ずしも100%画像の文字を認識してくれる訳ではありません。
AIも完璧ではないので認識ミスをする場合は多々あります。
アプリ作成を考えている方は、編集機能などの「OCR化した文字を修正できる機能」を
設けた方が良さそうですね。。。!
それでも無料でOCRを使えるってすごいっっ!w

新米太郎
最後まで見てくれてありがとう!
コメント