KS Laboratory: OCRを利用したサービスの開発。

ちょっつOCRを利用したサービスでも作ってみるべ！
と思い立ち日本語認識が可能な無料のOCRを調べています。

調べてみたら日本語対応しているOCRはNHocrというのが良さそう。
（というかこれしか無いっぽい）

・NHocr

　http://code.google.com/p/nhocr/

　今のところ、一番期待度の高い日本語OCR。
　デモ（http://maggie.ocrgrid.org/nhocr/）も用意されている。
　2010/07/23現在、1行の認識しか対応してない。

NHocrは現時点で複数行の認識が出来ないなどまだまだな感じ、これからに期待か。。。

日本語対応してないやつだとTesseract-OCRが有力そうなので、今回はこれを調べることにした。

・Tesseract-OCR　(※多分「テッセラクトオーシーアール」)
　
　HPが開発して、Googleがオープンソース化したもの。
　日本語は非対応だけど、学習データを作成することで対応できるっぽい。
　複数行の認識可。

とりあえず、ちょうどセブンイレブンのレシートが近くにあったので日本語認識できないと知りつつver2.04で試してしたみた。
（※Tesseract-OCRの使い方は後日POSTします。)

↓

Rza ; 042-347-6622
20103507g 22 El (X) 22:36, *}

まぁ日本語を認識させるためのネタとなるデータ（トレーニングデータ）を作ってないので、こんなもんでしょう。
トレーニングデータを作成すれば日本語対応させれば使えそうな予感・・・。

※文字を認識させるための元データの作成はTraningTesseract というページに書いてある。
http://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract

KS Laboratory

2010/07/24

OCRを利用したサービスの開発。

0 件のコメント:

コメントを投稿