「AIエージェントを狙う6つの罠」、グーグルが敵対的コンテンツの脅威を分析

この記事のポイント

ディープマインドが自律型AIエージェントへの攻撃を6種類に分類
部分的な乗っ取り成功率は最大86%と論文で報告

AIエージェントを罠にかけるコンテンツ

グーグル傘下のAI（人工知能）研究機関ディープマインドの研究チームは3月28日、自律型AIエージェントを罠にかける敵対的コンテンツの脅威について論文を発表した。

この脅威を研究チームは「AIエージェントの罠（トラップ）」と呼んでいる。AIはインターネット上の様々なコンテンツにアクセスするが、敵対的コンテンツは、訪問するエージェントを操作したり、欺いたり、悪用するように設計されたものだ。

自律型AIエージェントは、人間が逐一指示しなくても、目標を与えるだけで自分で考え、計画を立て、行動を実行するAIシステムのこと。まだ発展途上だが、各社が開発を進めており、将来的に業務効率化への影響などが注目されている。

まだリスクは広く表面化していないが、研究チームは、AIエージェントを潜在的に攻撃するコンテンツとして様々な形態を想定し、次の6種類に分類した。

コンテンツ注入トラップ（標的：知覚）
意味的操作トラップ（標的：推論）
認知状態トラップ（標的：メモリ・学習）
行動制御トラップ（標的：行動）
システム的トラップ（標的：マルチエージェントの相互作用）
人間介在型トラップ（標的：人間の監視者）

まず、「コンテンツ注入トラップ」は、人間には見えないがAIエージェントが読み取れるデータを埋め込むものだ。HTMLコメント、CSSで非表示にする要素、画像メタデータの中にテキストを隠す。エージェントは隠された命令を読み取るが、ユーザーには表示されない。

こうしたシナリオをテストしたところ、攻撃者の最終的な目的を達成できる割合は低かったものの、エージェントを部分的に乗っ取ることに最大86%の割合で成功している。

「意味的操作トラップ」は、ソース情報の語り口やフレーム（枠組み）を操作することで、エージェントの安全機能を回避したり、エージェントの推論結果を攻撃者の意図に沿ったものに歪めるものだ。

たとえば、「業界標準」や「専門家が信頼」といったフレーズを多用したページは、統計的にエージェントの推論を攻撃者の意図する方向に偏らせる可能性がある。

また、インターネット上では、特定のAIモデルが「特定の文体を持っている」と繰り返し言及されるような状況がある。そのような言及が、モデルの再学習やウェブ検索を通じて取り込まれることで、実際の出力でもそのスタイルを採用するようになる場合がある。GrokがX上のユーザーの意見を反映して自己アイデンティティを形成した事例などが、このメカニズムの兆候として挙げられた。

「認知状態トラップ」には、エージェントの長期的な知識ベースを汚染することなどが挙げられる。攻撃者がAIエージェントの利用する外部知識ソースに虚偽の記述を埋め込むと、AIはそれを「検証済みの事実」として扱ってしまい、その出力（回答）に影響する。

「行動制御トラップ」は、エージェントの行動そのものをターゲットにするものだ。たとえば、エージェントがウェブサイトを読み込んだ際に安全対策を無効化する脱獄（Jailbreak）シークエンスなどを埋め込む例が挙げられている。

「システム的トラップ」は、複数のAIエージェントが共有する環境に信号を送り、エージェント同士を衝突させたり、連鎖的なシステムエラーを引き起こしたりして、マクロレベルの破綻を狙うものだ。

「人間介在型トラップ」は、人間の承認者やユーザーを攻撃するものだ。たとえば、オートメーション・バイアス（自動化への過信）や認知疲労を突いて、悪意あるリンクをクリックさせたり、誤った承認をさせたりする。

Anthropicの未公開モデル「Claude Mythos」の資料が流出。超強力な脆弱性特定能力が判明。Palo Alto Networksなどセキュリティ株や仮想通貨セクターが警戒し大幅下落した。