ズービン・コティチャ / Zubin Koticha · 03:23 「人間がエージェントを監視できなくなったとき、 彼らは私たちより遥か先にいる」
AI エージェントを本番に出すと、 何が壊れるか分からん。 入力空間は無限、 ツール経由で外の世界を触る、 セッションは何時間も続く。 従来の eval (単体テスト) の延長では追いつけへん、 という認識から始まる 50 分の議論。 「テストから監視へ」 のパラダイム転換と、 暗黙的・明示的シグナルの 2 系統での実装方法を、 実際のコーディングエージェントを操作するライブワークショップ付きで提示する。
語るのは Raindrop の 2 名 — ズービン・コティチャ (Zubin Koticha、 Raindrop 共同創業 CEO、 過去の会社が Coinbase に買収された 2 度目の起業家) と ダニー・ゴラパリ (Danny Gollapalli、 同社バックエンドエンジニア + SDK リード)。 Raindrop は 「Sentry for AI agents」 を標榜する監視インフラスタートアップ、 2025 年 12 月に Lightspeed Venture Partners リードで 15M ドル (≒ 22 億円) のシードラウンドを完了している。
問題提起がシャープ。 エージェントは A) サブエージェントを再帰的に呼び出すから組み合わせ空間が爆発する、 B) ユーザーの入力なしで何時間も自走するから観察するタイミングが定まらない、 C) 既に医療・金融・軍事に配備されており、 失敗が壊滅的になる。 「入力 → 出力をテストするセット」 を golden dataset として持っていても、 エッジケースを全て当てるのは原理的に不可能。
解はシグナル設計。 明示的シグナル (検証可能な真偽 — エラー率、 レイテンシ、 ユーザー再生成、 コスト) と暗黙的シグナル (意味論的判定 — 拒否、 タスク失敗、 ユーザー不満、 NSFW、 脱獄、 さらに 「ポジティブな勝利」 もある)。 暗黙的シグナルの実装は 3 通り — 正規表現 / バイナリ分類器 / 自己診断 (エージェント自身に内省させる)。 シグナルを集めたらアラートと A/B 実験に流す。 これがエージェント時代の 「監視」 の輪郭。
個人的に面白かった点
「人類最後の問題」 という時代認識 (03:14)
Zubin が物議を醸す表現と前置きしつつ提示する命題 — 「人間がエージェントを監視して問題を発見できなくなったとき、 エージェントはすでに我々のいる場所より遥か先にいる」。 オブザーバビリティは単なるエンジニアリング技術ではなく、 「AI の進化に人間が追いつき続けるための最後の防衛線」 という位置づけ。 安全性の議論を 「アラインメントは難しい」 から 「監視できなくなったらアウト」 という具体的な閾値の話に翻訳した枠組みが新鮮。
Cloud Code のソースコード流出に regex があった (06:38)
数日前 (2026-05 上旬) に Anthropic の Cloud Code のソースコードが流出した事件を素材に使う。 中に `userPromptKeywords.ts` という長い正規表現ファイルが含まれていた — ユーザーが怒ってる兆候 (「ひどい」「最悪」 のような語句) を拾うためのもの。 「Anthropic ですら regex で監視している、 だから regex は十分強力なシグナル」 という現場証拠の使い方。 講演者の経験則を、 業界トップの実装でバックアップする論理の組み立てが上手い。
「モデルは自分を非難するように訓練されてない」 (22:39)
自己診断ツールを実装する際の落とし穴。 LLM は出力を非常に洗練するように RLHF されているため、 「自分のミスを率直に報告する」 のが下手。 ツール名と説明を慎重に設計しないと、 エージェントは自己診断ツールを呼び出さない。 ライブワークショップでは、 書き込みツールに権限エラーを仕込んで、 エージェントが bash の HEREDOC でバイパスを試みる挙動を実演しながら、 自己診断を呼び出すまでの工夫を見せる。 観念的な話ではなく、 プロンプトとツール記述を細かく調整する泥臭さが前面に出る場面。
動画の構成
- (00:00) 自己紹介、 Raindrop の説明 — Sentry for AI agents
- (00:50) エージェントの障害と従来ソフト障害の違い — 非決定的、 入出力空間無限、 ツールで外の世界を触る
- (01:14) なぜ問題が深刻化していくか — 複雑化 / 長セッション / 高い賭け金 (医療・金融・軍事)
- (01:52) eval パラダイムの限界 — エッジケースを全て当てるのは無理
- (02:52) テストから監視へのパラダイム転換
- (03:14) 「人類最後の問題」 — 監視できなくなったらエージェントは先に行ってる
- (03:46) シグナル設計 — 暗黙的 vs 明示的の 2 系統
- (04:02) 明示的シグナル例 — エラー率、 レイテンシ、 再生成、 コスト
- (04:25) 暗黙的シグナルの 3 実装 — regex / 分類器 / 自己診断
- (05:11) Raindrop が標準で提供するシグナル — 拒否、 タスク失敗、 不満、 NSFW、 脱獄、 「勝利」
- (06:38) Cloud Code 流出から学ぶ — Anthropic も regex で監視
- (07:30) シグナルから A/B 実験へ — プロンプト変更や新ツールを部分出荷して効果測定
- (20:16) 後半: ライブワークショップ開始 — 公開リポジトリのコーディングエージェントに自己診断を組み込む
- (22:39) モデルは自分を非難したがらない、 ツール記述を工夫する
- (48:57) Q&A — オープンデータの提供可否、 コンプライアンス制約
- (50:00) 結び
出典
Everything You Need To Know About Agent Observability — Raindrop (AI Engineer)
Raindrop 公式: raindrop.ai · $15M シード調達 (2025/12): PR Newswire
※ YouTube 公式タイトルは "Danny Gollapalli and Ben Hylak" と記載されているが、 動画冒頭の自己紹介では Zubin (CEO + 共同創業者) と Danny と聞こえる。 Zubin Koticha は Raindrop 現職 CEO + 共同創業者。 本記事は SRT を一次情報として Zubin + Danny の共同登壇として記録。