と思い立ち日本語認識が可能な無料のOCRを調べています。
調べてみたら日本語対応しているOCRはNHocrというのが良さそう。
(というかこれしか無いっぽい)
(というかこれしか無いっぽい)
・NHocr
http://code.google.com/p/nhocr/
今のところ、一番期待度の高い日本語OCR。
デモ(http://maggie.ocrgrid.org/nhocr/)も用意されている。
2010/07/23現在、1行の認識しか対応してない。
NHocrは現時点で複数行の認識が出来ないなどまだまだな感じ、これからに期待か。。。
HPが開発して、Googleがオープンソース化したもの。
日本語は非対応だけど、学習データを作成することで対応できるっぽい。
複数行の認識可。
とりあえず、ちょうどセブンイレブンのレシートが近くにあったので日本語認識できないと知りつつver2.04で試してしたみた。
(※Tesseract-OCRの使い方は後日POSTします。)
↓
Rza ; 042-347-6622
20103507g 22 El (X) 22:36, *}
まぁ日本語を認識させるためのネタとなるデータ(トレーニングデータ)を作ってないので、こんなもんでしょう。
トレーニングデータを作成すれば日本語対応させれば使えそうな予感・・・。
※文字を認識させるための元データの作成はTraningTesseract というページに書いてある。
http://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract
今のところ、一番期待度の高い日本語OCR。
デモ(http://maggie.ocrgrid.org/nhocr/)も用意されている。
2010/07/23現在、1行の認識しか対応してない。
NHocrは現時点で複数行の認識が出来ないなどまだまだな感じ、これからに期待か。。。
日本語対応してないやつだとTesseract-OCRが有力そうなので、今回はこれを調べることにした。
・Tesseract-OCR (※多分「テッセラクト オーシーアール」)HPが開発して、Googleがオープンソース化したもの。
日本語は非対応だけど、学習データを作成することで対応できるっぽい。
複数行の認識可。
とりあえず、ちょうどセブンイレブンのレシートが近くにあったので日本語認識できないと知りつつver2.04で試してしたみた。
(※Tesseract-OCRの使い方は後日POSTします。)
↓
Rza ; 042-347-6622
20103507g 22 El (X) 22:36, *}
まぁ日本語を認識させるためのネタとなるデータ(トレーニングデータ)を作ってないので、こんなもんでしょう。
トレーニングデータを作成すれば日本語対応させれば使えそうな予感・・・。
※文字を認識させるための元データの作成はTraningTesseract というページに書いてある。
http://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract
0 件のコメント:
コメントを投稿