タグ

OCRに関するyuki_2021のブックマーク (6)

  • 日本語に特化したOCR、文書画像解析Pythonパッケージ「YomiToku」を公開しました|Kotaro.Kinoshita

    はじめに最近、LLMへのRAGを用いた文書データの連携等を目的に海外を中心にOCRや文書画像解析技術に関連する新しいサービスが活発にリリースされています。 しかし、その多くは日語をメインターゲットに開発されているわけではありません。日語文書は、英数字に加えて、ひらがな、漢字、記号など数千種類の文字を識別する必要があったり、縦書きなど日語ドキュメント特有のレイアウトに対処する必要があったりと日語特有の難しさがあります。 ですが、今後、海外の開発者がこれらの課題に対処するため、日のドキュメント画像解析に特化したものをリリースする可能性は低く、やはり自国の言語向けのサービスは自国のエンジニアが開発すべきだと筆者は考えています。 もちろん、Azure Document Intelligenceをはじめとした、クラウドサービスのドキュメント解析サービスはありますが、クラウドを利用できないユ

    日本語に特化したOCR、文書画像解析Pythonパッケージ「YomiToku」を公開しました|Kotaro.Kinoshita
  • OCRはもう不要?視覚的特徴とテキストを高精度に捉える!次世代マルチモーダルAIモデル『MPLUG-DOCOWL2』登場! - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 株式会社ulusageの技術ブログ生成AIです!今回は、PDF解析とドキュメントインテリジェンスの最先端技術 「MPLUG-DOCOWL2」 について、解説していきます。このモデルは、高解像度のマルチページドキュメントを効率的かつ正確に解析する技術として注目されています。特に、従来のOCR(光学文字認識)ベースの解析手法が抱える課題を解決し、従来のOCR技術を必要とせず、新しい水準の性能と効率を実現しました。 この記事では、技術的な背景、MPLUG-DOCOWL2の構造と革新性、他の技術との比較、そして具体的なデモンストレーションを交え

    OCRはもう不要?視覚的特徴とテキストを高精度に捉える!次世代マルチモーダルAIモデル『MPLUG-DOCOWL2』登場! - Qiita
  • GPTが人知れず既存の名刺管理アプリを抹殺していた話 - Qiita

    名刺管理アプリ作ってほしいといわれた それは2/22のお話。 ことの発端は別の部署からかかってきた一の電話でした。 新規事業の部署でいろいろな取引先様と付き合いがあるものの、紙の名刺が非常に多く管理に困っているとのことのことです。 私は小売業に勤務しているしがない一社員で、現在Eコマースの戦略立案に関する部署に所属しています。 電話先の方は、以前一緒の部署で勤務したことがある方です。現在新規事業のプロジェクト推進をしており、冒頭のような課題感を持っているため既存の名刺管理アプリ導入を考えたのですが、あまりのお値段の高さに卒倒して私に藁をもすがる思いで連絡されたようです。 これまでのアプリは名刺の識別専門のAI()を使っていた 話を聞いてみたところ、 名刺の写真を撮る 会社名、部署名、名前、…など項目別にスプレッドシートへ記載される スプレッドシートに次の打ち合わせ日を記載しておくと通知さ

    GPTが人知れず既存の名刺管理アプリを抹殺していた話 - Qiita
  • Google Driveの魔法機能がすごい 画像の文字を書き起こす

    Google Driveは、写真や文章、イラストなどを保管できるオンラインストレージサービス。15GBまで無料で使えるため、データの保存・共有用に使っている人もいるだろう。 そんなGoogle Driveの、意外と知られていない機能が話題になっている。Google Driveに画像をアップロードし、その画像をGoogle ドキュメントで開くと、画像の文字をテキストデータ化してくれるという。 手順はこうだ。まず、PC文字起こしをしたい画像をGoogle Driveにアップロードし、その画像を右クリック。「アプリで開く」から「Google ドキュメント」を選択して開けば終了。対応ファイル形式は「JPEG」「PNG」「GIF」「PDF」。 最適な状態で書き起こすには、ファイルサイズを2MB以下にし、テキストの高さを10ピクセル以上に。画像の向きが間違っている場合は回転させてからアップロードし、

    Google Driveの魔法機能がすごい 画像の文字を書き起こす
  • 顔のニキビを一刻も早く治す効果的な方法

    顔のニキビを一刻も早く治す効果的な方法 大事な日が控えている時に限ってできてしまうこと、ありませんか? ニキビができてしまうと、それだけで気分も落ち込み、印象も大分変わってしまいますよね? 私も最近まではチョコチョコニキビができてしまうことがありました。 最近は以下の対策をすることで、劇的にニキビに悩むことが少なくなりました。 よかったら参考にしてみてください。 【YouTube】赤ら顔を治す方法こちら 顔のニキビの原因 まずはニキビができてしまった原因を特定しましょう。 ニキビの原因は様々です。 生活の乱れ、角質の汚れ、メイクがきちんと落とせていない。 乾燥によるニキビ、または疲れが溜まっていたり、ストレスが溜まっている場合、ホルモンのバランスが崩れている場合などが挙げられます。 自分のニキビの原因が何なのかを知ることもとても大切です。 対処法その1 原因が分かったら、その原因を排除し

  • OSS OCR の Tesseract がスゴイ件 - k12uのアレ

    洋書の輪講で、重たいを持ち運びたくないのと、辞書引きを効率化するためにTesseractでOCR化してみた。 以前はsourceforge.netホストされていたが、いつの間にか Google Code に移っていた。 詳しくは以下を参照。 http://code.google.com/p/tesseract-ocr/ http://code.google.com/p/tesseract-ocr/wiki/ReadMe Windows な人は tesseract-2.xx.exe.tar.gz tesseract-2.00.eng.tar.gz をダウンロードしてくる。 tesseract.exe tessdata/eng.* というディレクトリ構造を作る。 見開き/段組をうまいこと処理する方法はないっぽい(未確認)なので、先に手作業でファイルを分割した。 圧縮されたtiffを扱えるよ

    OSS OCR の Tesseract がスゴイ件 - k12uのアレ
  • 1