水曜日, 6月 27, 2007

OCRで識別できない大量の文字を,効率的に識別する方法?

英語でもこんな問題があるんだ・・・。

国立国会図書館 Current Awareness-E から、
『 近年,書籍をデジタル化する大規模なプロジェクトが,図書館,出版社,
 データベース提供事業者,インターネット検索サービス提供事業者など,多
 くの主体によって展開されている。これらのデジタル化プロジェクトの中に
 は,書籍をスキャナーで読み取って画像化した上で,光学式文字認識
 (Optical Character Recognition: OCR)技術を用いてテキストデータを作
 成し,全文を検索可能としているものも多い。
 
  しかしながら,OCRが常に完全に文字を識別できるとは限らない。印刷の
 不鮮明さ,スキャニング時のページのゆがみ,OCRがサポートしていない言
 語の単語の出現など,さまざまな原因によって正しく識別できないことが起
 こり得る。誤って識別された文字があることは,スペルチェックや構文
 チェックによって単語単位で特定できるものの,その修正には相応の時間が
 必要となる。
 
  この問題を効率的に解決しようという試みが,米国カーネギーメロン大学
 のコンピュータ科学スクールで行われている。その名は“reCAPTCHA”。同
 大学が2000年に開発した“CAPTCHA(Completely Automated Public Turing
 test to tell Computers and Humans Apart)”と呼ばれる画像認証技術を
 利用するもので,CAPTCHA開発メンバーも参加している。
 
  CAPTCHAは,ウェブ上のブログや電子掲示板,投票サイトなどにおいて,
 嫌がらせや宣伝目的で行われる機械による大量書き込みを防止するために用
 いられる。書き込み時に,無作為に選ばれた文字・数字などが複数含まれて
 いる画像を表示し,その中の文字列を読み取って入力するよう求める。そし
 て,正しく入力されたものだけを受け付ける。画像中の文字・数字は意図的
 にゆがめられたりしており,機械が読み取ることは困難なため,機械による
 書き込みを排除できるのである。
 
  reCAPTCHAは,デジタル化した書籍データの中から,OCRで正しく識別され
 なかった単語を切り取り,CAPTCHA用の画像データとして提供する。OCR=機
 械が読み取れなかったものを人間によって読み取ってもらうのである。ただ
 し,CAPTCHAは機械と人間を区別することが主目的であり,正しく入力され
 たか判定するための「正解」が必要となる。そこで,OCRで正しく識別され
 なかった単語に加え,正しく識別された単語も用いる。1つの画像には2つの
 単語が含まれており,一方は正しく識別されており正解が存在する。他方は
 正しく識別されておらず,人間に読み取ってもらう必要のあるものである。
 これらは画像上では明示されておらず,2語とも入力してもらう。そして,
 正しく識別されていた方の単語に対する入力語が正解であれば,人間による
 書き込みであると判定されるとともに,他方の入力語は「OCRで読み取れな
 かったものを人間が読み取ったもの」として,テキストデータの修正に用い
 られるのである。なおreCAPTHCAの画像データには,OCA(E392参照)プロジ
 ェクトによって書籍のデジタル化を進めているInternet Archiveのデータが
 用いられている。』

漢字なんかは、画像として扱うにはもってこいだがなぁ・・・?
もっとも、官報や新聞の過去に遡っての文字のデジタル化は遅々として進んでいないから、これ以上のアイデアが必要なのかも・・・? 中国なんかでは文書全体を画像化してしまっているようだけれど・・・。

0 件のコメント:

SHISHAMOとジャズのリズム

SHISHAMOの武道館でのライブを記録した,ブルーレイディスクを聞いている。SHISHAMOの曲の詞はメロディーに乗せるのがジャズのリズムになっている気がしてしょうがない。そう,これらの詞はジャズのインプロビゼーションそのものだ。