chatGPTマスターを目指して vol.31 chatGPTは「AIの書いた文章」を正しく判断できる?

生成AIが書いた文章を、生成AIは識別できるのでしょうか。自分で書いた文章を「AIが書いた」と言われてしまったら…。

  

英語でメールを書いていて、ふと気になったことがあります。

『私が生成AIの力を借りて書いている英語はひょっとすると、英語話者から見たら「AIが書いた!」とすぐにばれてしまうのではないだろうか…?』

最近は論文誌でも、生成AIの利用に関する言及が増えてきています。

単純に生成AIの利用を禁じているわけではないですが、もちろん100%生成AIに書かせた文章などは望まれていないようです。

 

最近ではAIによる「AIが書いたかどうかの識別」も盛んになっているようですので、まずはchatGPTに聞いてみることにしました。

「この英語文章はAIにより生成されたものでしょうか? 確率でお答えください。」

検証のネタは、最近書いている私自身の論文です。

まずは日本語で書いた文章をchatGPTに英訳してもらったものをそのまま入力して、生成AIによる生成の確率を出してもらいました。

 

この文章は、AIにより生成された可能性が70-80%と推測されます。理由としては、以下の点が挙げられます:

  1. 文の構成と用語の選択: 文章が非常に明確で、特定の専門用語(例:data-driven, streamlined)が適切に使用されています。こうした文体は、AI生成の文章に多く見られる傾向があります。
  2. 引用スタイル: 典型的な学術文献の引用方法(\cite{…}形式)で書かれており、これは多くのAIモデルが学習データに基づいて生成するスタイルです。
  3. 全体の流れ: 一貫して要点がまとめられており、過度に長い表現や曖昧な表現が少ない点も、AIによる生成の特徴です。

ただし、AIで生成されているかどうかの判断は困難であり、確実に断定することはできません。

 

バレているようなバレていないような、微妙な感じです。

特に2点目に指摘されている引用スタイルについては、単純に論文の形にまとめるときに使っていた形式がそのまま残っているだけなので、これは本来であれば参考になる情報とは思えません。

では、他のバージョンも試してみます。

次はDeepLによる英訳版について、生成AI利用の確率を聞いてみました。

 

この文章もAIによって生成された可能性が60-70%と推測されますが、人間が書いたものである可能性もあります。推測の理由は次の通りです:

  1. 冗長な表現と反復: 「Consumer behavior & marketing strategy」と同じ文献名が繰り返し使われている点や、「extremely important issue」というやや冗長な表現が含まれていることは、人間が執筆する際に見られる特徴であり、AI生成文には少ない傾向があります。
  2. 引用の形式: 前の例と異なり、引用形式がAIによる生成とは異なっていて、少し不自然に見えます。このような引用のスタイルは、AI生成というよりも、引用の方法に慣れていない人が手動で書いた可能性もあります。
  3. 一部の文法的な不自然さ: 「Consumer behavior & marketing strategy] and how strategy planning should be conducted」という部分に見られるようなやや不自然な表現は、AI生成ではなく手動編集の痕跡があると考えられます。

総じて、この文章は人間が書いたものの可能性がやや高いですが、AIによる生成やAIの補助を受けて書かれた可能性もあるため、完全には確定できません。

 

chatGPTの出力結果より低くなる結果となりました。

とくに表現と重複、不自然さでスコアを下げてしまったようです。

一部では「論文を書かせるならばDeepLよりもchatGPT」といううわさ話があるのですが、その信ぴょう性が少し上がります。

ただ、間違って引用スタイルを古いままで入力してしまったので、その影響もあるかもしれません。

 

最後に、自分で書いた英語を入れてみました。

なお細かい文法ミス等は訂正した形で入れています。(すぐに人間であるとバレそうなので)

 

この文章はAIにより生成された可能性が65-75%と推測されますが、確実な判断は難しいです。以下の理由がAI生成と推測される要因です:

  1. 簡潔で一貫した文体: 「really important issue」「efficient company operations」「data driven new product development」といった簡潔で無駄のない表現が特徴で、AI生成の文に多く見られる傾向があります。
  2. 自然なフローだが、やや簡略化された説明: 「Practically, new product development and marketing strategies based on customer understanding…」という表現は流れがよいですが、やや抽象的で短縮されており、人間が書く場合に比べて具体例や追加の説明が少ない点が見られます。
  3. 単純な構文と語彙選択: 「really important issue」「accurate understanding」などの構文と語彙がやや一般的で、AIが生成しやすい構造です。

ただし、AI生成であることを示す明確な指標はないため、人間が簡潔なスタイルで書いたものである可能性も考えられます。

 

意外と、DeepLの翻訳よりも高い、という結果が出ました。

自分で書いたにも関わらずAIらしい、という判断が出たのは、喜ぶべきか喜ばざるべきか。

どちらでしょうか。

 

ところでこれらの結果を見ると、判断の根拠として文章の構成もひとつのヒントになっているようです。

では、英語の表現は関係ないように、最初に自分で書いた日本語を入力してみるとどうなるでしょうか。

 

この日本語の文章は、構成が論理的で、学術的な表現が含まれていることから、AIにより生成された可能性が50-60%と考えられますが、人間が書いたものである可能性もあります。以下の点をもとに推測します:

  1. 明確で一貫した構成: 各文が段階的に話題を展開しており、構成が整然としています。このような文章構成はAIが得意とする一方、人間による執筆でも一般的です。
  2. 専門的な表現の使用: 「非常に重要な課題」「顧客理解に基づく商品開発」「データに基づく新商品開発」など、専門的で無駄のない表現が特徴です。これは、AIによる生成や編集支援を受けた場合に見られるスタイルでもあります。
  3. 自然な日本語表現: 文全体が日本語として自然であり、特に不自然な部分が見受けられません。このようなスムーズな表現は、人間によって書かれた可能性も示唆します。

全体的に、AI生成の可能性はあるものの、どちらかと言えば人間が書いた文章のようにも感じられます。そのため、AI生成の可能性はやや低めとしました。

 

「AIらしさ」について一番低い値が出ました!

なおこの文章は、正真正銘すべてを自分で記述したものです。

つまり、きちんと論理的に構成すると、ある程度は「AIらしい」と認識されてしまうのかもしれません。

 

ちなみに「どちらかと言えば人間が書いた文章のようにも感じられる」とのコメントがあったので、そちらについて深ぼりして聞いてみました。

 

人間が書いた文章のように感じた理由は、以下の3つのポイントに基づいています:

  1. 文の柔軟さと自然さ
    日本語としての表現が滑らかで、硬すぎず、違和感が少ない点が人間らしいと感じさせます。AI生成の日本語文章は、時に過度にフォーマルで直訳的だったり、あるいは不自然な言い回しが混ざることが多いです。しかし、この文章は、学術的な表現でありつつも、堅苦しすぎない自然な日本語のリズムを保っています。
  2. 冗長な表現や繰り返しの排除
    「非常に重要な課題である」「効率的な企業運営が可能になると期待される」など、少し冗長で丁寧な言い回しが含まれています。AI生成の場合、簡潔さを重視して過度に要点だけを伝える傾向が強いため、こうした少し冗長な表現は人間らしい特徴として感じられました。
  3. 日本語特有の語順や助詞の選択
    「顧客理解に基づく商品開発やどのように戦略立案をするべきか」など、助詞の選び方や語順が日本語の語感に沿っており、AIが生成する文章特有のぎこちなさが感じられませんでした。特に助詞の「に」や「が」の選択は、AIが間違えやすい点ですが、この文章では自然に使われているため、人間が書いたものに近いと判断しました。

このように、日本語表現の柔軟さ、文構成の滑らかさ、そして少し冗長で丁寧な表現が、AI生成というよりは人間による文章に近いと感じた理由です。

 

chatGPTさん。人間をよく理解しているようです。

「学術的な表現でありつつも、堅苦しすぎない自然な日本語のリズムを保っている」

普段メルマガ等でたくさん文字を書いている身としては、なんだか嬉しいコメントです。

 

「生成AIは、生成AIが出力した文章がわかるのか?」

その検証結果としては「ある程度分かるらしい」が正しいようです。

判断基準となるのはおそらく語彙や簡潔さ、論理構造だと思われるのですが、人間が書いた文章に対しても50%以上は「AIの可能性がある」と出力してしまっていました。

サービスとして「これはAIが生成した文章である」と断定するには心もとない数値です。

昨今の研究では生成AIが作成した文書に対して「ウォーターマーク」のようなものを入れる、といった方法についても研究が進められているようですが、どのような着地点になるのか、状況を引き続き見ていきたいと思います。

 

P.S.

↓メルマガの新規登録はこちらから↓

https://48auto.biz/keieijinji/touroku/sp/scenario13.htm

(スマートフォンよりご登録いただけます)

 

Who is writing

大学にてデータサイエンスを学ぶ傍ら、多くの人にデータ分析の面白さを伝えたいと日々奮闘中。