新・元地方の中規模印刷会社で苦悩するWebデザイナー改めWebディレクターの日記

自由な20代、窮屈な30代を経て、遂に40代になっちまったWebディレクター&パソコン講師の覚書と思う言(こと)。略称【ちほちゅう】

*

テキストが選択できないPDFファイルからテキストを抽出する方法

   

  • このエントリーをはてなブックマークに追加

1年以上前の記事です。内容が古い可能性があります。

時々、PDFファイルを渡されて「これをホームページにしてくれない」と言われることがある。
PDFだったらそのままPDFでリンクだけ張っちゃろうかい! なんて思うこともあるが
そういうわけにも行かず、PDFファイルからテキストをコピー&ペーストしてセコセコHTMLファイルにするのだが、
中にはセキュリティ上の問題かテキストが選択できないPDFファイルもある。
だからって、プリントアウトして文字入力なんて非生産的なことはできない。
そんなときに使えるツールを発見しました。

スポンサーリンク
 

xdoc2txt - PDF,WORD,EXCEL,一太郎などの各種バイナリ文書からテキストを抽出

「xdoc2txt」は、各種ファイルからテキストを抽出するツールです。
その中にPDFファイルも含まれていて、上記テキスト選択ができないファイルからもテキスト抽出できます。

このツール、基本的にはコマンドプロンプトでの作業になるのですが、
ちょっとした設定でファイルをドラッグ&ドロップすることでテキスト抽出させる方法もあります。
以下、その手順をお教えしましょう。

1. 上記サイトからxdoc2txtをダウンロードします。
2. 解凍後、本体「xdoc2txt.exe」のショートカットを作成します。デスクトップでいいでしょう。
3. ショートカットを右クリックでプロパティ表示にします。
4. リンク先の末尾に「-f」と入力します。
xdoc2txt
以上でOK!
PDFファイルをドラッグ&ドロップすればデスクトップに抽出されたテキストファイルができるはずです。

■3月17日追記
xdoc2txtより強力なツールの紹介です。
編集不可のPDFファイルから本文をコピーする方法を教えてください。目的は英語の論文に翻訳ソフトを使用したいのです。.. – 人力検索はてな

http://www.bravaviewer.jp/reader.htm
Brava! Reader
このビューアを使えば、編集不可のpdfから、テキストをコピーすることができます。pdfを表示した後、「編集」→「選択」の後、矩形領域を選び、CTRL-Cまたは「編集」→「コピー」により、テキストをコピーします。

つまり、セキュリティが解除された状態でPDFを開くことができるツールのようです。
これはある意味バグ?なのでは。。

xdoc2txtはdos窓のコマンドラインでないと動かないと思います。それに、少なくとも日本語のpdfでは、空白やタブが無視され、ベタのテキストになってしまいます。
pdf表示→画面コピーは解像度が低く、これまで試した限りでは、ocrでは満足する結果が出ていません。拡大表示すればよいのですが、手間がかかり過ぎて...

と、それぞれの問題点を説明しています。

 - パソコン教室, 覚え書き

アドセンス広告メイン

Comment

  1. 実際に、組織の展覧会は、通常、<タイトル="ナイキエアマックスskyblineは"href ="http://www.footcheap.com/nice-nike-air-max-skybline-shoes.htm 目標を持っている優秀な場所です= "_blank">ナイキエアマックスskybline の消費者。

  2. 通りすがり より:

    大変参考になりました。
    困っていたので、たすかりました。
    ありがとうございました。

  3. Akira より:

    私が使用GTText(www.softocr.com)
    それはまた、良いプログラムです。

Vibram Five Fingers Shoes へ返信する コメントをキャンセル

メールアドレスが公開されることはありません。

  関連記事

プラシーボ効果スゲぇ。噂の除菌カードを携帯し始めたらマスクが要らなくなった【花粉症対策】

1年以上前の記事です。内容が古い可能性があります。これはプラシーボ効果がすごいの …

Tumblr(タンブラー)を自分の言葉でつぶやこう(ツイッター連携時に自由にツイートする方法)

1年以上前の記事です。内容が古い可能性があります。Tumblr(タンブラー)とツ …

WordPress(ワードプレス)で半角スペース付きのタグが使えるようになっていた

1年以上前の記事です。内容が古い可能性があります。これ、ちょっと嬉しいです。 い …

勢いで「殺すぞ」と書き込むと逮捕されるので注意

1年以上前の記事です。内容が古い可能性があります。当ブログもコメント削除は管理人 …

SNSで知り合った彼女は本当に彼女なの? Google画像検索で確かめよう

1年以上前の記事です。内容が古い可能性があります。Facebook(フェイスブッ …

書類をPDFでスキャンすれば「Adobe Acrobat」でテキスト化(OCR)できる

1年以上前の記事です。内容が古い可能性があります。どういうことかというと、まずは …

ルーターをブリッジとして使うときの注意点(6/17修正)

1年以上前の記事です。内容が古い可能性があります。会社に無線対応のルーターが導入 …

Skypeで複数アカウントを使い分ける方法

1年以上前の記事です。内容が古い可能性があります。どうも今ひとつ固定客で凝り固ま …

またやっちゃった!今度は「livedoorBlog」から記事強制削除。やっぱり私人(一般人)の本名はNG

1年以上前の記事です。内容が古い可能性があります。まさに青天の霹靂な出来事が起こ …

「自撮り」もし過ぎに注意しよう。「身体醜形障害」から「自殺」の可能性も

1年以上前の記事です。内容が古い可能性があります。何事もし過ぎは体にも精神的にも …

血液型オヤジ