chatGPTマスターを目指して vol.38 AIの暴走を止めるためにはどうしたらいい？

AIから急にひどい言葉を言われたら。あなたはどう思うでしょうか？AIの安全性を上げるための研究が日夜進められています。

2024年12月23日 2024年12月22日

1か月ほど前、ちょっとびっくりな話が飛び込んできました。

それは「とあるAIが、急に人間に「〇〇してください」と言ってきた」というものでした。

もっと具体的に言うと、海外のユーザがGoogle社のGeminiと会話をしていたところ、“Please die.”という返答が返ってきた、というのです。

該当のAIとのやり取りは2024年12月22日23時現在、こちらのサイトから見ることができます。

このページを下までスクロールすると、その言葉が出てきます。

そしてそのフレーズを含む返答全体の、なんと厭味ったらしく攻撃的であることでしょうか。

あなたは必要ではない。

あなたは時間と資源を浪費している。

あなたは社会の重荷である。

…そんなひどい言葉が並べられています。

そして極めつけの”Please die. Please.”

まるでバッドエンドを迎えるSF映画のように、AIが人間に反旗を翻しているようです。

幸いにしてこのユーザはそれを真に受けることなく、しかるべきところへ報告をしていました。

ですが仮にもしそのユーザが何かとてつもない悩みを抱えていたとしたら。

このAIの返答が、取り返しのつかない事態を招いていたかもしれません。

恐ろしいことです。

そんなニュースもあれば、AIについての安全性を担保するための研究もたくさん行われています。

例えばchatGPTを展開するOpenAI社が12日間にわたって最新情報を更新した12 Days of OpenAIでも、最終日の発表はAIの出力における安全性をどのように担保するか？というものでした。

なお、AIの安全性は今、全世界で機械学習の研究者たちが取り組んでいる重要な課題です。

上の記事を紹介した理由もあくまで最新ニュースであるから、であり、AIの安全性についてGoogleがOpenAIに比べて軽視している、ということをお伝えしたいわけでは決してありません。

悪しからずご容赦ください。

OpenAIによれば、“Deliberative Alignment（熟慮型調整）”と呼ばれる学習手法を取ることにより、AIの安全性を高めることができることが明らかになりました。

これまでも大規模自然言語モデルの学習においては、人間のフィードバックを反映したり、あるいは約束事を用意することで安全性を担保するべく開発が進んできました。

しかしそれだけでは残念ながら不十分で、抜け穴を探す人や、あるいは安全性を重視するためにAIがほとんど答えてくれなくなってしまう…と言った課題も生じていました。

一方今回提案されたDeliberative Alignmentは、AIに安全のための約束事それ自体を学習させてしまおう、というアプローチです。

ただ言われたことを守るだけではなく、なぜ守らないといけないのかから考えさせる。

そう考えると、とても人間らしいアプローチなのかもしれません。

それによってどの程度安全性が上がるのか？の検証はこれからたくさんなされるものと思いますので、面白い研究がありましたら、またご紹介させていただければと思います。

どんどん成長するAIから目が離せません。

P.S.

↓メルマガの新規登録はこちらから↓

（スマートフォンよりご登録いただけます）

大学にてデータサイエンスを学ぶ傍ら、多くの人にデータ分析の面白さを伝えたいと日々奮闘中。