デジタル文書中の外字フォント・字形特定

keywords.jpgドキュメント,フォント,外字 

鈴木 俊哉 

SHUNYA SUZUKI

division.jpg情報メディア教育研究センター 情報メディア教育研究センター

position.jpg助教

研究概要

研究の背景

 デジタル文書中に明示的な指定なしに埋め込まれた外字フォン
ト・字形を特定し,情報抽出・検索の際のバージョン情報・外字
情報の損失を補完するため。同じ技術を用いて,特殊な描画処理
が必要なフォントを特定することもできる。

研究内容

 PostScript やPDF のような印刷用途のデジタル文書データ形
式では,フォント埋め込みの際にデータ容量削減のために様々な
情報が削減される。また,これ以外でもISO/IEC 29500 などの
文書中のフォントも使用されない文字が削除されるため,文書の
再編集や引用の際にフォント種別,バージョン情報,外字情報な
どが失われ,意図しない情報の損失が起きる。
 大量のデジタル文書を処理する際には,それら全てを印刷して
目視によって確認することはできず,さらに近年の処理系は暗黙
に処理系に存在しないフォントについてフォールバックを行うた
め,目視によって確認することすら困難になっている。

成果

 フォントのデジタルデータは著作権により保護されるため,正規ライセンシ以外はそもそも字形の比較・特定がで
きず,公的なデータベースの作成ができない。これを解決するため,フォントのグリフごとの描画命令のハッシュ値
によって字形を特定する技術を開発し,これの高速化を進めている。

実用化に向けて(想定業界・用途、課題、企業への期待など)

 デジタル文書中のフォントの特定をあらかじめ自動化することにより,一般に使用されない漢字を大量に含む,あ
るいは含む可能性があり,それらの意図しない損失が問題となるような文書(漢字表など)の再編集および校正に際
して専門家の作業負荷を軽減することができる。

本研究の特徴・優位性

 字形の画像を直接比較する画像認識的な手法の場合,フォントの正規ライセンシ以外はこれを利用することができ
ない。描画命令ハッシュ値を用いることにより,タイプフェイスの著作権およびフォントデジタルプログラムの著作
権に抵触せずに広く利用可能なデータベースを構築することができる。

detailsubtitle3.jpg

2011 年度(平成23 年度)山下記念研究賞受賞
“電子文書中のフォントの特定とヒント制御”,画像電子学会第258 回研究会,2011
“電子文書中のTrueType グリフ照合とその高速化手法の検討”,情報処理学会第74 回全国大会,2012

お問い合わせ