タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

OCRに関するlockcoleのブックマーク (1)

  • MOONGIFT: » Googleが手がけるOCR「Tesseract OCR」:オープンソースを毎日紹介

    新しいサービス(といっても大層なものではない)を作ろうと思った時に、画像の中の文字列を読み取る仕組みが必要な事に気づいた。いわゆるOCRだ。 オープンソースのOCRはごく僅かだが存在する。今回はその中の有力なものを紹介しよう。 今回紹介するオープンソース・ソフトウェアはTesseract OCR、Googleが手がけるOCRエンジンだ。 Tesseract OCRは元々、HPが開発していたもので、それをGoogleが開発を引き継ぐ形でオープンソース化されたソフトウェアだ。英語圏のソフトウェアなので日語の読み込みには対応していないが、性能自体は高い評価を受けている。 実際試してみた限りでは、変換率50%を越えているだろう。一段の文章であれば問題なく変換できるが、多段組になっている文章やグレースケール等はうまく解析することはできない。 GoogleGoogle Book Searchなどで

    MOONGIFT: » Googleが手がけるOCR「Tesseract OCR」:オープンソースを毎日紹介
    lockcole
    lockcole 2007/06/27
    もともとHPが開発していたものをGoogleが引き継いで開発継続中のOCR。「変換率50%を超えているだろう」ってそれは低すぎな気が。実際は色々なアナログ最適化をしながらブック検索に利用してると思われる。日本語は無理。
  • 1