2010/07/24

OCRを利用したサービスの開発。

ちょっつOCRを利用したサービスでも作ってみるべ!
と思い立ち日本語認識が可能な無料のOCRを調べています。


調べてみたら日本語対応しているOCRはNHocrというのが良さそう。
(というかこれしか無いっぽい)

・NHocr
 http://code.google.com/p/nhocr/

 今のところ、一番期待度の高い日本語OCR。
 デモ(http://maggie.ocrgrid.org/nhocr/)も用意されている。
 2010/07/23現在、1行の認識しか対応してない。


NHocrは現時点で複数行の認識が出来ないなどまだまだな感じ、これからに期待か。。。



日本語対応してないやつだとTesseract-OCRが有力そうなので、今回はこれを調べることにした。

・Tesseract-OCR (※多分「テッセラクト オーシーアール」)
 
 HPが開発して、Googleがオープンソース化したもの。
 日本語は非対応だけど、学習データを作成することで対応できるっぽい。
 複数行の認識可。


とりあえず、ちょうどセブンイレブンのレシートが近くにあったので日本語認識できないと知りつつver2.04で試してしたみた。
(※Tesseract-OCRの使い方は後日POSTします。)












Rza ; 042-347-6622    
20103507g 22 El (X) 22:36, *} 




まぁ日本語を認識させるためのネタとなるデータ(トレーニングデータ)を作ってないので、こんなもんでしょう。
トレーニングデータを作成すれば日本語対応させれば使えそうな予感・・・。


※文字を認識させるための元データの作成はTraningTesseract というページに書いてある。
http://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract

0 件のコメント:

コメントを投稿