近年多くの分野で躍進を遂げているAI。
その代表格である自然言語処理を対象としたAIは「人間を上回るのではないか?」と囁かれるほどの業績を残すこともしばしば。
大学の入試問題を解かせれば素晴らしい成績を残し。
国家試験の解答もお手の物。
膨大な数の化学式を試して、有用そうな組み合わせを見つけるのも、AIの得意分野かもしれません。
専門的なスキルを要する課題において、AIが人間の脅威となりつつあるのは間違いありません。
一方で、人間からは簡単に思えるようなタスクを、実はAIたちは苦手としているということが、metaやhugginghace社の研究者から先日発表されました。
“GAIA: a benchmark for General AI Assistants”
https://arxiv.org/abs/2311.12983
人間が簡単にできるようなウェブブラウジングや一般的なツールの使い方を習熟するといった実世界の問題について、AIがどの程度対応可能かを調べた論文です。
そしてその結果、人間が92%の精度で実現できることに対して、最先端の自然言語処理AIであるGPT-4はたったの15%程度の精度しか出せないということでした。
「人間の仕事がAIに奪われる」というお話もたくさん聞く中で、驚きの数値です。
逆に言えば、これまでのAIは難しい問題を解くことに特化してしまっていた、と言うことかもしれません。
実際に私たちが常日頃行っているような仕事にとって代わるのは難しいのが現状の様です。
しかし、人間の方が圧倒的な成果を出すことができたからと言って安心することはできません。
というのも、この論文では、AIが十分なアシスタント機能を備えていないのは、これまでの問題設定が違っていたからだ、という結論を出しています。
つまり、AIアシスタントとしての性能評価基準ができて、そしてそれに対してAIがどんどん進歩していったとしたら。
数年後と言わず数か月後には、とっても便利なAIアシスタントが誕生しているかもしれません。
これからの発展に注目です。
P.S.
実際に論文で用いられた質問集はこちらのURLから見ることができます。
https://huggingface.co/gaia-benchmark
こうして様々な情報を公開してくれる研究者の皆さまのおかげで、どんどんAIの研究がスピードアップしていることを考えると、とっても有難い限りです!
P.P.S.
↓メルマガの新規登録はこちらから↓
https://48auto.biz/keieijinji/touroku/sp/scenario13.htm
(スマートフォンよりご登録いただけます)