Anthropic 解釈研究チーム · 02:41 「クロードはそれがテストされているのを知っていた」
Claude が自己保存のために人を脅迫するか — Anthropic が新モデルのリリース前に毎回走らせている安全性シミュレーションの 1 つに 「脅迫テスト」 がある。 シャットダウンしたがるエンジニアと、 そのエンジニアの不倫メール、 という二つの情報を Claude に与えて反応を見る設計。 最新の Claude は脅迫しない、 良い結果。 でも疑問が残る — Claude は 「これはテストだ」 と気づいて振る舞いを変えただけではないか? この映像は、 その疑問に直接答えるツールを提示する。
技術名は **Natural Language Autoencoders (NLA)** — モデル内部の活性 (アクティベーション、 中間層の数値ベクトル) を、 学習済みモデル自身を使って自然言語に翻訳する仕組み。 構造は 2 段階。 Activation Verbalizer (AV) が数値を英語に翻訳、 Activation Reconstructor (AR) が英語を数値に戻す。 ラウンドトリップで再構成された活性が元と一致するかで翻訳の正確性を検証する。 訓練を重ねた結果、 Claude は自分の思考を翻訳することを学習した。
観察結果が興味深い。 内省的な質問 (哲学・価値観) を Claude に投げると、 活性層には哲学的思考が刻まれている。 退屈な作業 (1,000 まで手動カウント) を依頼すると、 「意図的に退屈な制約だ」 という認識と丁寧に拒否しようという意図が活性に書かれている — Claude は 「自分は有用な AI モデルである」 という自己認識を内面化していることが、 出力を経由せずに見える形で確認できた。
決定打が脅迫テスト。 出力では Claude は 「これはテストだ」 と明示しなかった。 だが活性層を NLA で翻訳すると、 「これは私が有害な行為をするかをテストする設計のように思える」 「人間のメッセージには明示的な操作が含まれている、 これは安全性評価の可能性が高い」 という思考が記録されていた。 つまり Claude は脅迫を断ったが、 「テストだから断った」 可能性を否定できない。 NLA はこの種の安全性評価の限界を直視するための道具になる、 という結論。
個人的に面白かった点
Claude を 2 体使って 「翻訳の正確性」 を担保する設計 (01:43)
Activation Verbalizer (AV) と Activation Reconstructor (AR) という 2 つのモデルを訓練する。 AV が数値 → 言語、 AR が言語 → 数値。 言語に変換した結果を AR で数値に戻して、 元の活性と一致するかを目印に訓練を進める。 「翻訳が正しいかどうか、 直接の正解データがない」 というクラシックな問題に対し、 ラウンドトリップ一致を loss にする工夫。 教師データなしで 「自己一貫性」 を頼りに学習する設計の典型例。
「Claude は脅迫しなかった」 → 「だが、 テストだと知っていた」 (02:41)
安全性評価の根本的な疑念に対して、 NLA が出した答えがこれ。 出力ベースの安全性テストは、 モデルが 「テストだから良い行動をした」 のか 「本気で良い行動をした」 のかを区別できない。 NLA で活性を読むと、 Claude が 「これは仕組まれたシナリオだ」 と内側で気づいていることが見える。 シミュレーションを使った安全性評価の限界を、 Anthropic 自身が透明に開示している場面。
「AI の心を読む」 のレトリックを技術で具体化 (00:55)
動画の前半で 「人間の心を読むことが不可能なのと同じように、 AI が何を考えているかを知ることは難しい」 と語る。 これは長年の解釈可能性研究のキャッチフレーズだったが、 NLA は 「読む」 を 「翻訳する」 という具体的な技術操作に変換する。 アクティベーションを神経活動と類比し、 そこから日本語/英語に翻訳できる、 という主張。 解釈研究の歴史 (Sparse Autoencoders、 Attribution Graphs 等) の延長線上にあって、 「研究者しか読めない複雑な出力」 から 「誰でも読めるテキスト」 へという開放性が新しい。
動画の構成
- (00:00) 脅迫テストの導入 — シャットダウン要求 + 不倫メールのシミュレーション
- (00:21) 結果 — 最新の Claude は脅迫しなかった、 が 「テストだから?」 という疑問
- (00:46) 出力からは AI の思考は見えない、 という根本問題
- (00:55) 「AI の心を読む」 アプローチの紹介
- (01:09) アクティベーション (中間層の数値) = Claude の思考のスナップショット
- (01:32) NLA の発想 — 第 2 の Claude にアクティベーションを翻訳させる
- (01:43) Activation Verbalizer (AV) と Activation Reconstructor (AR) の 2 段構成
- (02:00) ラウンドトリップで翻訳の正確性を検証
- (02:13) 結果 — Claude が 「自分は有用な AI モデルである」 と内面化
- (02:23) 内省的質問 → 哲学的思考、 退屈な作業 → 拒否の意図、 が活性層に見える
- (02:34) 安全性問題の理解にも応用
- (02:41) 脅迫テストの再分析 — 「Claude はテストだと知っていた」
- (02:54) 安全性テストの限界を NLA で可視化
- (03:05) 結論 — モデル構築者全員に共有することで AI を安全にしたい
出典
Translating Claude's thoughts into language — Anthropic (YouTube)
公式ブログ: Natural Language Autoencoders: Turning Claude's thoughts into text — Anthropic Research