PDFを翻訳したい

Table of Content

はじめに

PDFを翻訳する方法は色々あります。
ここでは色々の方法で実験してみます。

今回は以下のPDFを使用して[MS-CFB].pdfを対象にどのような翻訳がされるか確認してみましょう。

先駆者の方法

Google翻訳

Google翻訳でドキュメントタブからファイルをアップロードして翻訳が可能です。

お手軽に実行できますが、レイアウトが維持されない問題があります。
たとえば以下は MS-CFB.pdfの翻訳した結果の5ページ目にあたるのですが、図が削除されていることが確認できます。

WORDの利用

WORDの翻訳機能を使用する案です。
まず、PDFをWordで開いてWORD形式に保存します。
その後、「校閲タブ」の「翻訳」から翻訳を実行します。

残念ながら今回実験対象のPDFは下記のエラーが発生して翻訳が行えませんでした。

※なお、ページ数を減らすとできたので、ページ数の問題か、あるいは削除したページに含まれるデータの問題と考えられます。

DocTranslator

DocTranslatorというWebサービスが存在しており、PDFのレイアウトを維持したまま翻訳してくれます。
https://www.onlinedoctranslator.com/ja/

概ね、きれいに表示されるのですが、フォントの都合で対応できない場合もあります。

また、PDFのサイズによって翻訳に失敗するようで、PDF32000_2008.pdfは翻訳できませんでした。

Weblio英和辞典プラグイン

単語レベルでいいなら、下記のページに紹介されているAdobeReaderのWeblio英和辞典プラグインを使用する案もあります。

https://www.itmedia.co.jp/bizid/articles/1312/03/news034.html

別の方法を考える

先駆者の方法は多くの場合に十分ですが、PDF32000_2008.pdfで上手くいかなかったので別の方法を考えてみました。

pdf_translate
https://github.com/mima3/pdf_translate/blob/master/README.md

PDFに翻訳した結果の注釈を埋め込むことでレイアウトと原文を維持しつつ翻訳情報を差し込むことができます。

以下がPDF32000_2008.pdf
にたいして実際、注釈を付与したPDFになります。

http://needtec.sakura.ne.jp/doc/tmp/output.pdf

※ブラウザで見ると注釈が文字化けするのでダウンロードしてスマホ以外のAdobeReaderで閲覧してみてください。

メリット

  • 大き目のPDFの翻訳に対応できる。
  • 中間ファイルとして翻訳用のCSVを作成するので、気に入らなければ人手で修正することもできる。

デメリット

  • 手間がかかる。
    • Pythonを使うのはともかく、機械翻訳を作る部分の手作業が多い。
  • Adobe Acrobat Readerで閲覧しないと注釈が正常に表示されない
    • Chromeで見ると注釈ば文字化けする
    • スマホで見ると注釈がポップアップしない
  • サイズが増える。
  • こんなメンドクサイことしなくても良い方法が他にありそうに思えて仕方がない。