最近、LLMへのRAGを用いた文書データの連携等を目的に海外を中心にOCRや文書画像解析技術に関連する新しいサービスが活発にリリースされています。 しかし、その多くは日本語をメインターゲットに開発されているわけではありません。日本語文書は ...
Popplerを使わずにPythonでPDFを画像に変換してOCR解析を行う方法に関するシェアです。 この方法ではPyMuPDFを使ってPDFを画像に変換し、TesseractでOCR解析を行います。 PythonでPDFからテキストを抽出する:Popplerなしの方法 PDFから文字を抽出するには、PDFを画像に ...
ソフトウェア ・「Beetroot」v1.6.5(26/04/04) 生成AIによるテキスト処理やOCR機能を備えたクリップボード履歴ツール ・「SoundPilot」v0.5-dev ...
AIを用いて写真からテキストデータを抽出できる軽量ツール「NDLOCR-Lite」が2月24日、国会図書館の実験的なサービスを提供する「NDLラボ」の公式「GitHub」サイトで公開された。ライセンスは「CC BY 4.0」で、ソースコードも公開済み。適切なクレジット表示さえ ...
住友電工情報システム株式会社は、クラウド型文書管理システム「楽々Document Plus Cloud」の新版およびAI-OCRオプションを4月13日より提供開始すると発表した。 楽々Document Plus Cloudは、契約書管理、電子帳簿保存法対応、図面やISO文書の管理など、さまざまな ...
ドキュメント理解に特化したマルチモーダルOCRモデル「GLM-OCR」を中国のAI企業であるZ.aiが公開しました。GLM-OCRは0.9B(9億)という極めて軽量なパラメータ数でありながら、複雑なドキュメントレイアウトを高精度に解析・抽出することを目指して開発されてい ...
住友電工情報システム株式会社は、クラウド型文書管理システム「楽々Document Plus Cloud」の新版およびAI-OCRオプションを4月13日より提供開始すると発表した。 【この記事に関する別の画像を見る】楽々Document Plus Cloudは、契約書管理、電子帳簿保存法対応 ...
住友電工情報システム株式会社は、クラウド型文書管理システム「楽々Document Plus Cloud(らくらくドキュメント プラス クラウド)」の最新版ならびにAI-OCRオプションの提供を2026年4月13日より開始します。文書属性の自動入力により、データ入力の負荷を大幅に ...
一部の結果でアクセス不可の可能性があるため、非表示になっています。
アクセス不可の結果を表示する