※本サイトはアフィリエイト広告を利用しています

アプリ版はこちら

江戸時代以前のくずし字を自動テキスト化、凸版が新しいOCR技術開発

2015-07-06 13:47:10
 凸版印刷は3日、江戸期以前のくずし字を判別し、テキストデータ化するOCR(光学文字認識)技術を開発したことを発表した。本技術を使った古典籍のテキストデータ化サービスを、夏より試験的に提供開始する。

 総数100万点以上ともいわれる古典籍は、専門家による判読が必要とされ、テキストデータ化が遅れていた。一方、凸版印刷は、2013年から「高精度全文テキスト化サービス」を提供開始。このサービスで確立したシステム基盤に、はこだて未来大学の寺沢憲吾准教授が開発した「文書画像検索システム」を組み合わせ、くずし字のOCRを実現した。

 2014年度に実施した原理検証実験では、くずし字で記されている書物を80%以上の精度でOCR処理することに成功したという。これにより、専門家による判読に頼っていたテキストデータ化と比べ、大幅なコスト削減と大量処理が可能となる見込みだ。今後は、幅広い年代やジャンルの資料に対するOCR処理の精度向上を目指す。
冨岡晶

News 特集

 MM総研は9日、2015年における携帯電話(フィーチャーフォンとスマートフォン)端末の国内出荷台数に関する調査結果を発表した。総出荷台数は前年比6.6%減の3,577万台。2012年から3年連続で減少が続いている。 [...]
全て見る

Cars 特集

 ファナティックは9日、宮城県大和町にドローン・マルチコプター専用練習場「ブーメラン」をオープンすることを発表した。 [...]
全て見る

Trucks 特集

 MM総研は9日、2015年における携帯電話(フィーチャーフォンとスマートフォン)端末の国内出荷台数に関する調査結果を発表した。総出荷台数は前年比6.6%減の3,577万台。2012年から3年連続で減少が続いている。 [...]
全て見る

Equipments 特集

 Amazon.co.jp(アマゾン)は4日、「Amazonお酒ストア」内の「Amazonワインストア」において、 専門家がワインを選んでくれる新サービス「Amazonソムリエ」の提供を開始した。 [...]
全て見る