この連載で説明しているサンプルでは、テキストの抽出はPDFViewControllerクラスで行っていた。これを拡張していこう。 前にも説明したが、PDFデータはストリームとして与えられる。テキストとエンコーディングがどのような関係でストリームに登場するか見 ...
さて、エンコーディングが分かったところで、日本語テキスト取り出すことに挑戦する訳だが、そのためには絶対に必要な機能がある。それは、グリフの値をUnicodeに変換する機能だ。 これを実現するには、この変換を行うマップがあればいい。このマップ ...
下田 正弘(東京大学大学院人文社会系研究科 インド哲学仏教学專門分野 教授/次世代人文学開発センター人文情報学部門長) 2021年2月25日に公表されたTEIガイドライン(Text Encoding Initiative Guidelines)P5 version 4.2.0において、日本語のルビがガイドラインの基本 ...
一部の結果でアクセス不可の可能性があるため、非表示になっています。
アクセス不可の結果を表示する