KS Laboratory: 2010/07

2010/07/30

着ボイス

忘れないうちにメモ。

各キャリアの着ボイスの対応形式

docomo：mld
au：mmf
softbank：mmf

Windows上で使えるLinuxのコマンド集
「Gow」
http://wiki.github.com/bmatzelle/gow/

ためしに使ってみたけど、tail -f が使えるだけでGoodです。

今までは似たようなツール集のGnuWin32を使ってたけど、tail -f が使えなかったのさ。
GnuWin32
http://gnuwin32.sourceforge.net/

Gowに乗り換えようかな。

2010/07/24

OCRを利用したサービスの開発。

ちょっつOCRを利用したサービスでも作ってみるべ！
と思い立ち日本語認識が可能な無料のOCRを調べています。

調べてみたら日本語対応しているOCRはNHocrというのが良さそう。
（というかこれしか無いっぽい）

・NHocr

　http://code.google.com/p/nhocr/

　今のところ、一番期待度の高い日本語OCR。
　デモ（http://maggie.ocrgrid.org/nhocr/）も用意されている。
　2010/07/23現在、1行の認識しか対応してない。

NHocrは現時点で複数行の認識が出来ないなどまだまだな感じ、これからに期待か。。。

日本語対応してないやつだとTesseract-OCRが有力そうなので、今回はこれを調べることにした。

・Tesseract-OCR　(※多分「テッセラクトオーシーアール」)
　
　HPが開発して、Googleがオープンソース化したもの。
　日本語は非対応だけど、学習データを作成することで対応できるっぽい。
　複数行の認識可。

とりあえず、ちょうどセブンイレブンのレシートが近くにあったので日本語認識できないと知りつつver2.04で試してしたみた。
（※Tesseract-OCRの使い方は後日POSTします。)

↓

Rza ; 042-347-6622
20103507g 22 El (X) 22:36, *}

まぁ日本語を認識させるためのネタとなるデータ（トレーニングデータ）を作ってないので、こんなもんでしょう。
トレーニングデータを作成すれば日本語対応させれば使えそうな予感・・・。

※文字を認識させるための元データの作成はTraningTesseract というページに書いてある。
http://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract

2010/07/21

Brekeke

SIP Proxy サーバー、PBX。
SIPを飯の種にしているエンジニアでbrekekeを知らないともぐりらしい。

http://www.brekeke.com/index-j.php

2010/07/06

デコメ

Content-Type:text/plain、Content-Type:text/htmlの両方をメール本文として送信すれば、
デコメ対応機種はHTMLメールを、非対応機種はプレーンテキストメールを表示してくれる。