目次 このページのソースコードを表示

TranslatePreprocessor: 段落を保持するグーグル翻訳ペースト前処理機

公開日:
更新日:

英語論文PDF内の英文をグーグル翻訳にペーストする際, 同じ段落にもかかわらず改行が含まれており, 正しく翻訳できません.

これまで多くの方法が提案されています[1][2][3]が, 基本的に改行を削除しているだけで, 複数の段落が一つの段落になる問題があります.

そこで, 段落を保持したまま改行を取り除く前処理機を紹介します. 入力した文章を行ごとに処理し, 行文字が他と比べて少ない場合は, 改行をそのままにします.

英語PDFからの文字列を対象としていますが, 処理としては, 文字数と改行コードを見ているだけなので, 日本語などほかの言語にも対応しています.

入力

     ←厳しい   甘い→
段落判定:

出力

英→日Google翻訳
英→日DeepL翻訳
更新履歴
  • 2020-06-16

    ハイフン-による行の連続に対応

  • 2020-06-10

    翻訳ページに飛ぶ際, 翻訳内容が入力済みに変更

  • 2019-12-10

    Release


  1. ^ "論文をGoogle翻訳にかける時に便利なWebApp「Shaper」を公開しました". 地力不足の地蔵からの脱却. (accessed: 2019/12/10)
  2. ^ "google翻訳のための英語論文(pdf文書)の文末整形ツール(javascript)". 技術メモ集. (accessed: 2019/12/10)
  3. ^ "PDFをコピペした時の改行を消す方法". Qitta. (accessed: 2019/12/10)
「https://contentsviewer.work/Master/WebTool/TranslatePreprocessor/TranslatePreprocessor」から取得