chatGPTマスターを目指して vol.15 GPTが食べたデータはどんなもの？

chatGPTとの音声会話はとても楽しいのですが、時折気になるイントネーションの違い。これはどこから来たものなのでしょうか。

2024年5月31日 2024年5月30日

最近、大型アップデートGPT-4oを発表したchatGPT。

これまで以上にできることが非常に増えて、遊んでいるだけで時間が溶けてしまいます。

4oでできるようになった大きなアップデートの一つが音声会話。

スマホを片手にお話しできるのは、本当に未来を感じます。

ただ、話していると気づくのが、すこし、日本語のイントネーションに違和感があることです。

聞き取れないということは全くないですし、これまで市中で聞くような自動音声に比べれば非常にスムーズに話してくれているように聞こえるのですが、

それでも語尾等で少しだけ、違和感を感じることがあります。

果たしてこの違和感は、どこから来るものなのでしょうか。

その理由としては2つほど考えられます。

まずは、そもそもAIの限界であること。

語尾を上げたり下げたり、スムーズに話すことは、時には人間であっても難しいことがあります。

人間に難しいのだから、AIにとっても難しいのは当然です。

もう一つの理由は、GPTが食べたデータ、つまり学習したデータそれ自体のイントネーションが少し違う、という可能性です。

chatGPTは本当に優れた機械学習モデルですが、あくまで機械学習モデルでしかありません。

裏に誰か人がいて話しているわけではなく、計算の結果を出力しているにすぎません。

（いっそ、本当に裏に人がいるのでは、と思うくらいの精度を出すこともありますが…。）

機械学習には学習されたパラメータが必要で、そのパラメータは学習データとして与えられたデータの特徴を可能な限り表現したものになります。

つまり、元のデータの影響を多分に受けることになります。

最近多数の自然言語モデルが発表されていますが、その大きの違いの一つに、どんなデータを学習させたか？という問題があります。

例えばプログラミング言語に特化したAIモデルで、プログラミング言語のみを学習させたモデルもあります。

あるいは、各国の言葉をどのくらいずつの割合で学習させるのか？ということも、性能に大きな影響を与える要因の一つです。

つまり、学習データの偏りは出力の偏りに影響を与えるわけなので、もしかして、GPTが学習した音声データの元はネイティブの日本人ではなかったのでは？と思うのです。

この件を検証するためには、OpenAI社の母国語だろうと考えられる英語のイントネーションを見ることで、ある程度仮説を立てることができます。

…ただし、大問題は、私が英語の発音の微妙の違和感には気づけない、ということです。

なお、いくつかの音声がある中で、どの音声もアメリカ英語の発音寄りであることは確かだと思うのですが…。

どんなデータを食べさせているかによって、有効な使い方も（微妙に）変わってくるはず！

と思うと、検証をいろいろしたいのですが。

自分のスキル不足で検証できないことは、なんとも悲しいことです…。

P.S.

ちなみに先ほどOpenAI社のYoutubeから、GPT-4oの紹介動画を見ていたのですが、

紹介されている「リアルタイムのカメラを映しながらの会話」は私のアカウントではまだ、できないようでした。

これができるようになったら、バーチャル旅行なんかもできるようになってきそうです。

大学にてデータサイエンスを学ぶ傍ら、多くの人にデータ分析の面白さを伝えたいと日々奮闘中。