2011年9月20日火曜日

PDFからTIFFに変換するソフトの微妙な違い

最近何かと話題の"自炊"ですが,
当然のように俺も"自炊"しています.(紙類で部屋がパンクしそうなので)

使用スキャナはCanonのDR-150

テレビを見たり,映画を観たり,"ながら"でやるので,
速度というよりは安いのを選びました.
(某ScanSnapに付属のAcrobatはいらないし)

さて,そうやってスキャンしたデータはどうしても
"ゴミ(埃)"や"裏写り"が生じてしまいます.これはどうしようもない.

そんなに重要じゃない,とりあえずデータ化しておく文書,はスキャナで取り込んでそのままなのですが,
それこそモバイルでノートPCに持ち運んだりしたい参考書なんかは,
やはり見やすく加工した方が使いやすい.

ということで,スキャナで取り込んだファイル(PDF)を加工することになるんだけど,
そのためには一度PDFから画像に書き出してやらなければいけない.

加工するのにJPEGはあんまり適切じゃないので,TIFF形式で書きだしています.

今までは試用版のAcrobatを使って書き出していたんだけど,
そろそろ期限も切れるし,Acrobatを買う気もないので(アカデミックで安く買えるけど),フリーソフトでPDFをTIFFで書き出してくれるソフトを探すことに.

と,ここまでが前置き.

変換ソフト自体はググればいくらでも出て来るんだけど,最初に目を付けたのはPDF-XChange Viewer
ケチなAdobeはAcrobatにしかついていない機能をこれはフリーのリーダーに付けてくれています.

こりゃいいってんで,さっそく変換したところ,違和感が...

元のPDFの画像と若干違う気がする.
もちろん解像度はスキャナに合わせたし(なんならちょっと大きめの解像度でも試してみた),(非可逆)圧縮なんてしていない.

どうやらエクスポートの際になんか変なことをしてくれている模様.

ということで,いろいろなソフトでAcrobatのエクスポートとどれくらい異なるか比べてみることにしました.

比較したソフトは

AcrobatX,PDF-XChange Viewer,PDFDiet(iTextSharp使用),XnView(Ghostscript使用).

比較条件はDR-150(600dpi)で取り込んだ同一のPDF文書を用いて上記のソフトでPDF - TIFF変換をし,文書中で割と画数が多めな"機"という文字(の一部)をWindows フォト ビューアーで表示させて検証.

image
↑まずは基準となるAdobe AcrobatXこいつは元のPDFと同じ画像であることを確認

image
↑PDF-XChange Viewer

 

image
↑PDFDiet(iTextSharp使用)

 

image
↑XnView(Ghostscript使用)

こんな感じになりました.よく分かりませんがw

明らかに異なるのはPDF-XChange ViewerとPDFDiet(というかiTextSharp).
PDF-XChange Viewerで変換したものは一見似た感じですが,若干ぼやっとしています.iTextSharpで変換したものはかなり汚く変換されてしまいました.

この画像だとイマイチ納得しづらいかもしれませんが,最もリファレンスとしたAcrobatXでの変換に近かったのはGhostscriptで変換したものでした.というかほぼ同一でした.

ここまで拡大すると各ピクセルの明度までもがはっきりとわかるのですが,
XChangeとiTextSharpはリサンプリング(という表現で良いんだろうか)してしまって,各ピクセルの明度のパターンがAcrobatXと一致しません.

一方Ghostscriptで変換したものは,全体的に均一的に明度が明るくなってはいるものの,明度のパターンはAcrobatXと同一でした(2つの画像を重ねてみるとわかります).

ということで,一番AcrobatXに近い変換をしてくれるのはGhostscriptという結論になりました.

これだけ拡大してこの程度の差なら気にしねーよって人もいると思うけど,
一度気になると,ずっと気にしてしまうタチなので,ざっくりではあるけども検証してみました.

というか,PDFに格納されている画像をそのまま抽出してくれるソフトって無いんですね.見つけられないだけかもしれませんが.

あ,一つだけありました.LibreOffice

PDFをDrawで開いて"図として保存"すると,格納されている画像がそのままの形式で保存できるみたいです.
DR-150でPDFを作成するとJPEG画像がPDFになるのですが,LibreOfficeだとそのままのJPEGファイルが抽出できました.
これだと1ページごとに手作業でやらなきゃいけませんが...

何か良いソフトを知っていたらぜひコメント欄に書いてってください.

0 件のコメント:

コメントを投稿