国会図書館が古典籍資料からテキスト抽出する軽量OCRツールを公開～GPUなしでも動作

11/27(水) 16:15配信

写真：窓の杜

　古典籍資料の写真からテキストデータを抽出できるツール「NDL古典籍OCR-Lite」が11月26日、国会図書館の実験的なサービスを提供する「NDLラボ」の公式「GitHub」サイトで公開された。ライセンスは「CC-BY-4.0」で、ソースコードとWindows/Mac/Linux向けのバイナリが無償でダウンロードできる。【画像】『人間万事賽翁馬 3巻』からテキストを抽出するデモ　本ツールは国立国会図書館が実験的に開発した「NDL古典籍OCR」を改良し、GPUなしでも利用できるようにしたもの。「NDL古典籍OCR ver.3」と比べると精度が2％程度低下してしまうが、ノートPCなどでも問題なく動作するのが魅力だ。コマンドラインのほかGUIアプリケーションが付属しており、NDLラボでは以下の環境で動作を確認しているとのこと。・Windows：Windows 10 ・Mac：macOS Sequoia（Intelデバイス）・Linux：Ubuntu 22.04 　「NDL古典籍OCR-Lite」は江戸期以前の和古書、清代以前の漢籍といった古典籍資料に対応しており、デジタル化された画像資料から文章を読み取り、テキストデータとして抽出できる。レイアウト認識、文字列認識、読み順整序の3モジュールを組み合わせており、挿絵のある資料からもテキストの位置と判断し、読み順整序のうえテキストデータを取得可能だ。

窓の杜,樽井秀人

Yahoo!ニュース

国会図書館が古典籍資料からテキスト抽出する軽量OCRツールを公開～GPUなしでも動作

【関連記事】

アクセスランキング（IT総合）

雑誌アクセスランキング（IT・科学）