5月13日にOpenAIから発表されたGPT-4oが今、機械学習界隈を中心に大いなる盛り上がりを見せています。
広くビジネスでも用いられているchatGPTの改良版ということで、ビジネスの領域でも今まで以上の盛り上がりを見せることはほぼ間違いないのではなかろうかと思います。
このGPT-4oの名前、特に”o”が何を表しているのでしょうか。
OpenAI社のプレスリリースによれば”omni”の”o”とのことです。
https://openai.com/index/hello-gpt-4o/
「オムニ」はすべての、という意味を持ち、例えば小売業のオムニチャネルと言えば、実店舗、ECサイトを問わず、企業が消費者に対して持っているすべての接点でアプローチをするような試みを指します。
つまり、これまでのテキストや画像にとどまらず、ビデオ、音声などすべての組み合わせを入力できるようになった、ということです。
ところで、こちらのやり取りをご覧ください。
一見すると、ただのchatGPTとのやり取りです。
ただしこれは、音声で実施されています。
私が話し、そしてGPTも音声で回答します。
それを文字で残しておいてくれたものが、こちらのスクリーンショットです。
ちなみに一番最初は英語で話しかけ、返答も英語だったのですが、日本語の歌を歌った瞬間にGPTも日本語を話し始めたのでとてもびっくりしました。
ウェブ検索をすればすぐに曲もわかるはずなのに、曲名を間違えてしまったのはどういう理屈か、少し気になるところではありますが…。
それでも、音声ですぐに返答してくれるのはとても楽しいです。
他にも、自分の自撮り写真をGPTに送ってイラストにしてもらうこともできました。
最初に生成された画像はあまり似ていなかった(なんだかスペイン人っぽい?)のですが、追加で日本人ぽく、という指示を出したところうまく対応してくれたように思います。
(加えて、美化機能付きでした。嬉しい機能です。)
最近の機械学習の流行として、複数の対象を同時に扱えるマルチモーダルモデル、と呼ばれるものがあります。
例えばテキストと画像、テキストと音楽。
そのように、複数の対象を一緒に扱うことは、数年前の機械学習にとっては非常に困難な課題でした。
それが、大量の学習データが用意され、さらに計算機の機能向上、加えて様々な手法の開発により、まるで人間のような挙動に一歩ずつ近づいています。
GPT-4oをうまく使えば、英会話の練習もできそうですし、他にもまだまだ、たくさんできることがありそうでワクワクします。
加えてGoogleも新しいモデルを公開したということで、まだまだAIの進化はすごい勢いで進んでいきそうです。
P.S.
今回、GPTに歌の曲名を調べてもらうのはうまくいかなかったのですが、もしかすると音楽については、YouTubeを持っているGoogleの方に軍配が上がったりするのかもしれません。
いずれにしても、複数の企業が切磋琢磨して新しいサービスを作ってくれることにより、私たちも恩恵を受けられて、とてもありがたい限りです。