正解率99% ネット認証技術、書籍のデジタル化に威力
表示された文字を読み取って入力するreCAPTCHAの画面=カーネギーメロン大提供
古い書籍などをデジタル化しようとすると、文字のにじみや色あせで機械がうまく読み取れないことがある。でも、無数のネット利用者の力を借りると、 99%の正確さを達成できた。しかも、使ったのは一見無関係な迷惑メール・迷惑ブログの対策技術——。こんな報告を米カーネギーメロン大の研究チームがま とめ、米科学誌サイエンス(電子版)に掲載された。
書籍のデジタル化は、人が手入力するか、光学式文字読み取り装置(OCR)を使うのが一般的。しかし、OCRでは20%程度の言葉が認識できないとされ、手入力は膨大な時間とコストがかかってしまう。
今回使ったのは、「reCAPTCHA(リキャプチャ)」と呼ばれるプログラム。もとになったのは、コンピューターには読み取りにくい、ゆがんだ 文字や数字を入力させることで、利用者が「人間」だと認証する技術。ウェブメールやブログの登録画面などで利用され、コンピューターによる大量のIDの自 動取得を防ぐ。これらのIDは、迷惑メール送信や、広告収入目当ての迷惑ブログ開設などで悪用されていると見られる。
研究チームはこの技術を応用し、書籍のデジタル化で、二つのOCRによる読み取り結果が食い違った文字の画像を表示し、利用者に入力してもらう仕組みに改良。迷惑メール・迷惑ブログ対策と、書籍デジタル化の「一石二鳥」を狙った。
このプログラムを約1年間にわたってネット上で公開したところ、4万以上のウェブサイトで採用され、約1万7600冊の書籍に相当する4億4千万 以上の単語が、ネット利用者によって解読された。正解率は、書籍のデジタル化サービスの業界標準に匹敵する99.1%だという。(田中康晴)
0 件のコメント:
コメントを投稿