chatGPTマスターを目指してvol.75 人間にもAIにも求められる「やり切る力」

成功するために必要な力であると言われている「やり切る力」。ついにAIにも求められるフェーズがやってきました。

私の指導教員である教授が、ことあるごとに取り上げる「力」があります。

それは「やり切る力」と呼ばれるもので、「やり抜く力 GRIT」という書籍も発売され、2026年5月17日時点でAmazon Reviewは星4.2になっていました。

2500件近くのレビューがある中で、それなりに高い評価であるように思います。

 

こちらがどんな力かと言いますと「長期的な目標に向けて情熱と粘り強さを持って努力し続ける能力」とのことです。

瞬発的な力ではなく、最後までやり切る力で持って、何かを達成することができる。

そしてこの能力は鍛えることができる。

私自身もまだまだではありますが、この能力がスキルアップしたことで「できること」が増えたなあと思っています。

それはさておき。

 

これまで、chatGPTなどの生成AIは「人が聞いたことに正しく答えられるか?」という指標のもの開発が進められてきました。

これは生成AIに限らず、文章の意味理解をするためのモデルであっても同様です。

Q&Aのタスクや大学の入試問題、翻訳など、「正しく答える」を目標に作成されてきました。

 

一方、ここにきてAIに対しても「やり切る力」が求められてきているようです。

具体的には、「きちんと仕事を完遂できる力」を備えられるように、モデル開発が行われているとのことでした。

とはいえ、「やり切る力が上がりました!」と、根拠もなく提示されたとしても、ユーザである私たちは信じられないと思います。

加えて、モデルの開発者サイドも、具体的な指標がなければ改善の方向を見出すことはできません。

 

ということは、「やり切る力」を測るためのデータセットがあるはず!

と思い調べてみると、実は2年ほど前から公開されていたようです。

自分の興味の外側であったからか、全く気づいていませんでした…。

 

例えばOpenAI社からはSWE-bench Verifiedという検証用のデータが公開されていました。

https://openai.com/ja-JP/index/introducing-swe-bench-verified/

こちらは、現実のソフトウェアの問題を解決するAIモデルの能力を図るためのものだそうです。

他にも、2026/1/17には以下のようなタイトルの論文がまとめられていました。

Terminal-Bench: Benchmarking Agents on Hard, Realistic Tasks in Command Line Interfaces

https://arxiv.org/abs/2601.11868

こちらは実務完遂力を図るためのベンチマークで、最新のモデルのいずれも高い精度は出せていない「難しい課題である」ということが述べられています。

さらにはPC環境を操作して仕事を進められるかのベンチマーク、データ分析を完遂できるかどうかのベンチマーク、何度やってもきちんと解決できるかのベンチマーク指標など、さまざまなデータ・指標が存在していました。

 

きちんと評価基準を持ち、それを上げるためにモデルを改善していく、という従来のアプローチが、今度は「やり切る力」を対象として進められていきそうです。

人間に求められる能力がAIにも求められる時代。

次にAIに求められるのはどんな機能なのでしょうか。

 

P.S.

↓メルマガの新規登録はこちらから↓

https://48auto.biz/keieijinji/touroku/sp/scenario13.htm

(スマートフォンよりご登録いただけます)

 

 

Who is writing

大学にてデータサイエンスを学ぶ傍ら、多くの人にデータ分析の面白さを伝えたいと日々奮闘中。