黄色いノート

ネット通販/EC、新技術、仕事など、いろいろ書いています

グーグル翻訳の精度が向上し、英語やフランス語の翻訳レベルが高くなっているのを実感した

グーグル翻訳の精度が向上したというニュースが2016年11月頃に話題になりました。ニューラルネットワークに基づく機械翻訳(Neural Machine Translation)が導入され、単語をつなぎ合せて作られていたような従来の訳文が、人が読みやすい訳文に進化したのがその理由です。

このニュースは知っていたのですが、今回改めてグーグル翻訳の精度が向上したなと感じたのは、Uberからフランス語のメールがGmailアドレス宛に届いたことがきっかけでした。

フランス旅行の際にUberを使ったことがあり、その時は画面設定など英語にしていたはずなのですがとにかく現実としてフランス語でメールが来ており、翻訳してみました。

機械翻訳は日々進化している

Gmailの自動翻訳機能を使った翻訳結果

Gmailにはとても簡単に各言語のメールを翻訳できる機能が付いています。こちらがウェブブラウザ上でGmailアドレス宛に届いたフランス語のメール画面ですが、

Gmailの画面

この画面でフランス語から日本語というように指定して、ハイライトした「翻訳されたメッセージを表示」をクリックするだけで

Gmailの画面では翻訳が簡単に行える

下記のようにメールタイトルと本文が和訳されます。

Gmailの画面で件名と本文が翻訳されたところ

メールの冒頭にある、まったく内容の分からないフランス語の文章は上図を見ていただくとして、生成された日本語訳は次のようになりました。

私たちは、あなたが簡単に私たちのプライバシー慣行を理解することができるはずだと思います。私たちが起動している理由ですプライバシーポリシー明確に我々はそれを使用してどのように我々は収集した情報を、説明して更新し、簡素化、およびあなたが持っている選択肢とコントロールを。また、答えるよくある質問をし、共有するより多くの情報を私達のプライバシー慣行についての詳細を与えること。

まあだいたいの意味は分かりますが、それにしても翻訳文章として捉えるとひどいレベルです。翻訳の精度が飛躍的に向上したっていう話はどうなったの?と思いました。

ふと思いついて、グーグル翻訳にこのフランス語を入れて翻訳してみました。

グーグル翻訳を使った翻訳結果

グーグル翻訳はこちらから無料で自由に使うことができます。左側に翻訳したい原文(この場合はフランス語)を入力するだけで、右側に自動的に訳文が生成されます。

無料で使えるグーグル翻訳の画面。原文を入力するだけで訳文が自動的に生成される

そうすると

私たちはあなたが私たちのプライバシーの実践を容易に理解できるはずだと信じています。 そのため、私たちは、収集した情報、使用方法、選択肢とコントロールを明確に説明する、更新された簡易プライバシーポリシーを公開しています。 また、よく寄せられる質問に答え、情報を共有して、プライバシーの実践に関する詳細を提供します。

という訳文になり、精度が上がっていることに気付きます。人が翻訳する場合に比べてまだだいぶ機械的な印象を受けますが、内容としてはほとんど問題なく理解できるレベルです。

Gmailの翻訳とグーグル翻訳では異なる翻訳エンジンが使われており、グーグル翻訳の方が精度が高いようです。

ここでちょっと脱線して、そもそも機械翻訳とは、、ということを調べてみました。

機械翻訳はルールベース翻訳から統計的機械翻訳(SMT)に進化

機械翻訳は、1970年代後半にはルールベース翻訳が一般的であり、1990年代以降は統計的機械翻訳が主流となっています。

ルールベース翻訳とは、「この単語・このフレーズはこう訳す」という1対1のルールをとにかく機械に登録し、その登録された内容に沿って翻訳していく方法です。しかしこの方法では、定型文には対応できるものの、現実に発生するさまざまな言葉の組み合わせについては追いつかない部分が多く、限界がありました。

そこでIBMのグループが統計的機械翻訳(Statistical Machine Translation: SMT)の研究を開始しました。このSMTは、

単語の翻訳確率や並べ替えの確率などの翻訳に必要な知識を対訳コーパスから統計的な情報として学習するものであり,これを拡張したものが2003年に提案された句に基づく翻訳(Phrase-Based SMT: PBSMT)で,現在でもスタンダードな機械翻訳手法として広く使われている。

出典:機械翻訳の新しいパラダイム:ニューラル機械翻訳の原理

というものです。

統計的機械翻訳(SMT)からニューラル機械翻訳(NMT)に進化

さらに2014年に、ニューラル機械翻訳(Neural Machine Translation: NMT)が登場して機械翻訳は発展します。2016年11月に公開されたグーグル翻訳もこのニューラル機械翻訳(ニューラルネットワークを用いた機械翻訳)を使っており、グーグルニューラル機械翻訳(Google Neural Machine Translation: GNMT)と呼ばれています。

グーグル翻訳はディープニューラルネットを活用した結果、高い翻訳精度を得ることができています。ディープニューラルネットは機械学習のアルゴリズムの1つであり、

それまでの統計翻訳では単語ごとの対訳データで翻訳をしていくイメージでした。一方でディープニューラルネットを使った翻訳方式では、単語の意味だけでなく接頭辞や語幹、単語の位置なども考慮し、自然な文の流れを分析して翻訳できるようになったのです。

出典:Google翻訳の精度はなぜ上がった?

ということです。

NMTの特徴として、翻訳の過程の解釈が不可能という点があります。SMTは翻訳の過程でも言語を利用しますが、NMTは翻訳の過程において言語をその他のもの(ベクトルや数値)に置き換えているためです。

現在の機械翻訳の研究はニューラル機械翻訳の精度をいかに高いものにしていくかが主流となっており、私たち一般人もより精度の高い機械翻訳結果に触れることができるようになっていくはずです。

フランス語から英語への翻訳レベルはさらに高い

話を戻しまして、このエントリの発端となったUberのメールはフランス語で届きましたが、言語として近い英語に訳すのであればより精度の高い翻訳結果が得られるのではないかと仮説を立てました。

英語とフランス語の言語の近さに関しては「ヨーロッパ言語間における語彙の距離」を図にした面白い資料があります。

英語とフランス語が近いことが分かる

出典:Lexical Distance Among the Languages of Europe

文法ではなく、語彙が近いかどうかでそれぞれの言語の類似性を示していますが、「英語とフランス語が近い・似ている」と言えるひとつの論拠になります。

そのため、フランス語から英語、もしくは英語からフランス語への翻訳は、それぞれの言語から日本語にすることに比べてより容易なはずです。

Uberのフランス語の文章を原文とし、Gmail翻訳とグーグル翻訳とでそれぞれ英訳してみました。

Gmail翻訳

We think you should be able to easily understand our privacy practices. That is why we are launching a Privacy Policy updated and simplified, which clearly explains the information we collect, how we use it, and the choices and controls you have. We also answer frequently asked questions and share more information to give you more details about our privacy practices.

グーグル翻訳

We believe that you should be able to easily understand our privacy practices. That's why we're launching an updated and simplified Privacy Policy that clearly explains the information we collect, how we use it, and the choices and controls you have. We also answer frequently asked questions and share information to provide you with more details about our privacy practices.

フランス語から英語への英訳は、Gmail翻訳とグーグル翻訳はほとんど同じ内容となっており(わずかな単語のチョイスや、その単語の位置が異なるのみ)、意味はどちらもまったく同じです。さらにこの英訳された文章はどちらも非常に分かりやすい英語となっており、人が書いたと言って差し支えないレベルです。

Googleスプレッドシートで翻訳した結果

グーグルスプレッドシートでも、簡単な関数をセルに入力するだけで翻訳結果を得ることができます。あるセルに

=GOOGLETRANSLATE(A1,”en”,”ja”)

という数式を入力すると、A1に入力された英語が日本語に翻訳されます。フランス語を日本語に翻訳したいときには

=GOOGLETRANSLATE(A1,”fr”,”ja”)

とすればよく、これまたとても簡単です。

翻訳結果は下記のようになりました。

グーグルスプレッドシートにて関数を使って翻訳した結果

和訳結果はGmailの自動翻訳とも、グーグル翻訳とも異なる結果でしたが、残念ながら精度はかなり低いものでした。

一方、英訳結果はGmailの翻訳結果とほとんど(たった1単語を除いて)同一であるという結果になり、これまた非常に精度が高い翻訳結果を得られています。

最後に

103の言語をカバーするグーグル翻訳は、月間利用者数が5億人を超える(1ヶ月に1回以上利用した人数の合計。サイト上の利用とアプリの利用を含む)という超巨大サービスです。

その背後で動いている機械翻訳は日々進化していますが、

  • Gmailの自動翻訳とGoogle翻訳とGoogleスプレッドシートに使われている翻訳のロジックは、それぞれ異なっている
  • グーグル翻訳が今のところ一番高い精度の翻訳を得られるようである
  • フランス語から英語への翻訳は精度が高く、とても進化している。まるで人が書いたかのような結果を得られる

という3点が今回このエントリを書いていて得られた気付きです。

特に英語やフランス語で感じましたが、こんなに精度が高い翻訳を無料で使えるというのはすごく便利です。日本語に関してはまだまだ余地が大きいと思いますが、機械翻訳の発展に期待したいです。

最後までお読みいただき、ありがとうございました。

今後もいろいろなエントリを書いていきますので、ぜひお気軽にTwitterのフォローや読者登録をお願いします。