保管してあった雑誌を PDF 化している. まだはじめたばかりなので試行錯誤の連続だが,PDF への変換に関して,わかってきたこともある. 検索可能でちいさいファイルをつくるために,ScanSnap と Adobe Acrobat をどうつかえばよいのかがわかってきた.
ScanSnap で PDF 化したドキュメントをテキスト検索可能にするためには,OCR にかける必要がある. ScanSnap には 2 つの OCR ソフトがついてくる. ひとつは ScanSnap Organizer というソフトウェアについている OCR 機能であり,もうひとつは ScanSnap についてくる Adobe Acrobat 9 Starndard についている OCR 機能だ.
Organizer のほうがすぐにつかえるので,ためしたみた. 満足すべき精度だとはとてもいえないので,Acrobat もためしたみた. その結果,すくなくとも雑誌のばあいは Organizer のほうがよいようだった. 雑誌のレイアウトは複雑だ. それをよくよみこなしているのは Organizer のほうだ.
スキャナのこまかさも 3 種類ためしてみた. なにも指定しなければ 「自動」 のモードになっているが,カラー 600 dpi & 白黒 1200 dpi というもっともこまかいモードと,カラー 300 dpi & 白黒 600 dpi というモードもためしてみた. 前者のモードをつかうとスキャンするのが数倍おそくなる. にもかかわらず,OCR の精度はかならずしもよいとはいえない. 後者のモードは 「自動」 とおなじ 1 分 20 枚のスピードでスキャンできる. こまかい字のよみとりは 「自動」 よりすぐれているが,もっとおおきい文字については 「自動」 のほうがよいことがある. したがって,一概にどちらがよいとはいえない. とりあえずはファイル・サイズがちいさくなる 「自動」 でやってみることにした.
「自動」 でよみこんだ原稿に,まず ScanSnap Organizer の 「検索可能な PDF に変換」 という機能を適用する.
この検索可能な PDF を今度は Acrobat の 「文書 > スキャンされた PDF を最適化」 という機能にかける. この機能は時間がかかるにもかかわらず,バッチ処理ができず,1 個ずつファイルを選択して変換していかなければならない. この点はちょっとつらいが,この操作によって,なんとファイル・サイズは 1/3 くらいにまで減少する.
こうやってえられたファイルに,さらに Acrobat の 「文書 > ファイルサイズを縮小」 という機能にかける. これによってファイル・サイズはさらに…減少する. この機能に関してはバッチ処理が可能なので,変換するべきファイルを一度に指定して,あとはただ待っていればよい. ただし,既定では Acrobat 5 非互換になって,iPhone や iPad でよめなくなってしまう. それをさけるには,Acrobat 5 互換のオプションを選択する必要がある.
関連ページ: