OCRとは画像ファイルの中の文字を読み取ってテキストデータに変換する機能で、これを使うと元データが残っていない古い書類や新聞・チラシなどをデジタルデータとして保存したり検索したりといったことが可能となります。
今回は上記のような使い方(いわゆるデジタルアーカイブ化)をしてみようと考えている人の参考になるように、「パパっと読み取りOCR」を使っていろいろなタイプの文章をテキスト化し、精度を比較してみました。
一般的な横書きの文章の場合
まずは一般的な横書きの文章で書かれたYahooニュースの記事をスクリーンショットで画像として保存し、それを「パパっと読み取りOCR」でテキスト化してみます。
出典:台風 週末は日本の東を北上 | 2017/8/31(木) 7:13 – Yahoo!ニュース
下記が抽出されたテキストです。
台風ー5号、 週末は日本の東を北上
大型の台風ー5号は、 小笠原諸島付近でほとんど停滞して
いる。 台風は、 このあと朧を北寄りに変えて、 週末は日
本の東を北上するため、 関東から北海道でも雨や風力ヾ強ま
るおそれがある。 (フジテレビ系 (FNN) )
なぜか英数字の「1」が漢字の「一」になってしまっていますが、それ以外の部分は概ね問題のないレベルでテキスト化できています。尚、今回はわかりやすいように改行をそのまま残していますが、ワンクリックで改行を削除することもできます。
フォントが小さめの文章の場合
別の文章でもテストしてみましょう。今度は青空文庫にあるカフカの「変身」で試してみました。前項よりも元画像のフォントサイズが少しだけ小さくなっています。
以下は抽出元の画像です。
出典:変身 – 青空文庫
以下が抽出されたテキストです。
DIE VERWANDLUNG
フランツ ・ カフカ Franz Kafka
原田裏人訳
+目次ぁる朝、 グレゴール・ザムザが気がかりな夢から目ざめたとき、 自分がベツドの上で一匹の巨大な毒虫に変ってしまっているのに気づいた。 彼{ま甲殻のよう{こ固しヽ背中を下{こして横ナこわり` 頭を少し上げると、 何本もの弓形のすじ{こわ力ヽれてこんもりと盛り上ヵ(つてしヽる自分の茶色の腹が見えた。 腹の盛り上がりの上には、力ヽ~ナ丿3〝とんヵ(すつ力ヽりずり落ちそう{こなつて、 まだゃつともちこたえていた。 ふだんの大きさに比べると情けない〈 らいかぼそいた〈 さんの足が自分の眼の前にしよんぼりと光つていた。
フォントサイズが小さい画像を使ったためか、ひらがなの「に」「は」「く」などの認識が上手く行っていません。また、促音(小さい「つ」)も普通の「つ」として出力されています。OCRソフトに読み込ませる画像はなるべく大きいものを使う方が高精度で認識できるようです。
縦書きの文章
パパッと読み取りOCRは縦書きの文章には対応していませんが、どうなるのか試しにやってみようと思い、先程と同じく青空文庫から引用したカフカの変身を縦書き表示にしてスクリーンショットを保存し、OCRにかけてみました。
出典:変身 – 青空文庫
以下が抽出結果です。
らた甲
い 〝殻あ
か腹のる
ぽのよ朝
そ盛う `
いりにグ
た上固ピ
〈がいコ
さり背ー
んの中ル
の上を・
足に下ザ
かはにム
自 `しザ
{ x
雷ぶた穿
とゎ~
前んりり
にヵ翼 `な
しす頭夢
崑つをか
ヵ】少ヽら
ぼりし貝
案の定、横書きとして認識してしまい、上手く行きませんでした。縦書き文章をテキスト化したい場合は別のソフトを使ったほうが良いでしょう。
英文の場合はどうなるか?
日本語はまずまずの精度でテキスト化できることがわかりましたので、次は英文でテストしてみます。
出典:This Is What The Most Powerful Storm On Earth Looks Like From Space | HuffPost UK
以下が記事の原文です。
Typhoon Noru might look pretty intimidating from down here on Earth, but we can
confirm it looks even more impressive from 250 miles up.This is after several astronauts onboard the International Space Station (ISS)
shared photographs of the most powerful storm on the planet gathering speed as
it continues to spin across the Pacific Ocean this week.The category 5 super typhoon, which is generating winds with speeds of 160mph,
is moving ever closer to Japan and is currently expected to make landfall early on
Saturday morning.
以下がOCRで抽出されたテキストです。
Typhoon Noru might look pretty intimidating from down here on Earth, but we can
confirm it looks even more impressive from 250 miles up.This is after several astronauts onboard the International Space Station (ISS)
shared photographs of the most powerful storm on the planet gathering speed as
it continues to spin across the Pacific Ocean this week.The category 5 super typhoon, which is generating winds with speeds of 160mph,
is moving ever closer to Japan and is currently expected to make landfall early on
Saturday morning.
英文の場合は完璧な精度でテキスト化できました。漢字、ひらがな、カタカナ、数字の組み合わせで構成される日本語の文章に比べ、英文は文字数も少なくシンプルなので、OCRの精度も高くなるようです。
まとめ
以上、OCRソフトでいろいろなスタイルの文章をテキスト化し、文字の認識精度を比較した結果です。
上記以外にもさまざまな条件でテストしてみましたが、同じ画像の中に日本語と英語が混在していたり、異なるフォントや異なるフォントサイズが混ざっている場合は読み取り精度が下がる傾向がありました。
英文の読み取り精度に比べると、日本語の読み取り精度は完璧とまではいきませんが、画像をまるごとテキスト化するのではなく、範囲選択の機能を使って、必要な部分だけをテキスト化するようにすると、より高い精度でテキストが抜き出せます。