Playground in Prod — エージェントを本番環境で最適化する (Samuel Colvin / Pydantic)

AI Engineer Code Summit 2026/5/7

サミュエル・コルヴィン / Samuel Colvin · 00:54 「私は AI の可観測性をあまり信じていない、いずれ観測性か AI のいずれかに食われる」

AI Engineer チャンネル (2026/05/07 公開、約 1 時間 20 分)。 Pydantic 創業 CEO による live ワークショップ

AI 観測性プラットフォーム Pydantic Logfire を運営する人物が、自社カテゴリについて公の場で「あまり信じていない、いずれ食われる」と言い切る、という奇妙な始まり方をする 80 分のワークショップ。そのうえで提示されるのは「観測性は土台、真のゴールは本番環境でエージェントを自律最適化すること」という大きな構想。中心技術は **GEPA** (Genetic Pareto 最適化) と **Managed Variables** (Pydantic モデルでプロンプト以外も管理) の 2 つ。

語るのはサミュエル・コルヴィン (Samuel Colvin) — Python の最も普及したデータ検証ライブラリ **Pydantic** の創業 CEO。 Pydantic は OpenAI Python SDK・Anthropic Python SDK・FastAPI・LangChain など、ほぼすべての主要 Python AI フレームワークの基盤として組み込まれている、 Python AI エコシステムの土台と言える存在。同社は今、検証 (Pydantic) → エージェント (Pydantic AI) → 観測性 + 最適化 (Pydantic Logfire) という 3 層スタックで、開発 / 実行 / 改善のループ全体を抑える戦略を進めている。

実演課題は具体的でユーモアもある。「英国議員のうち何 % が政治家の家系出身か」を解くエージェントをライブで組み立てる。政治王朝という長年議論のあるテーマに、 Pydantic AI で構造化出力スキーマ (`name / role / relationship`) を定義してエージェントを走らせる。第 1 走では精度 85%、そこからプロンプトを工夫し、さらに GEPA で自動最適化していく流れ。

面白いのが GEPA の比喩 — 「最高の競走馬を連れてきて繁殖させて、もっと優れた競走馬を生む。でも時々、すごく遅い馬も混ぜて何が起こるかを見る」。 Pareto 多様性のために「明らかに弱い候補も保持する」という遺伝的アルゴリズムの本質を、競馬比喩で 1 行で説明してしまう。ちなみに講演冒頭で「家庭の事情で、この発表の大部分を一晩で書いた」と告白する自虐的な始まり方も含めて、全体に英国流の率直さが漂う。

個人的に面白かった点

「AI 観測性は信じていない」 (00:54)

観測性ベンダー創業者にしては異例の率直な発言。「これは私たちのカテゴリの機能であり、いつかは可観測性か AI のいずれかに食われる」。売っているからには本気と冷静さの両立が必要、という大人のスタンス。この内省を踏まえると、 Pydantic Logfire が観測性で終わらず Managed Variables や GEPA 連携に進む理由が腑に落ちる — 観測性は通過点、ゴールは最適化、という構造的な見方。

競走馬の比喩で説明する Genetic Pareto (02:47)

GEPA の本質を「最高の競走馬を繁殖させてもっと優れた競走馬を生む。ただし、時々遅い馬も混ぜる」で 1 行に圧縮する手腕。「最良の例だけ残すと多様性が消える、だから明らかに弱い候補も保持する」という Pareto フロンティア概念を、専門用語ゼロで説明してしまう。文字列 (プロンプト) を最適化するアルゴリズムだが、 GEPA で最適化されるのはテキストだけでなく Pydantic モデルで定義した任意のオブジェクト — Managed Variables の一般化と組み合わせると、エージェントの「何でも」が最適化対象になる。

「LLM を裁判官にするのは精神病院を狂人に運営させるようなもの」 (18:38)

eval (評価) における LLM-as-judge への辛辣な指摘。政治王朝の例なら「ゴールデンデータセット (人間が確認した正解) と直接比較する決定論的 eval」のほうが、「LLM に正誤を判定させる」より遥かに信頼できる。自律最適化の話と矛盾するように見えるが、「最適化のためには信頼できる評価指標が必要」「評価指標自体を LLM に頼ると、最適化が崩れる」という構造的な指摘で、むしろ整合的。

動画の構成

(00:00) 自己紹介、 Pydantic の 3 プロダクト (検証 / AI / Logfire)
(00:54) 「AI 観測性は信じていない」という意外な前置き
(01:14) 今日の主題 — eval、 Managed Variables、そしてその先の自律最適化
(01:56) GEPA とは何か — Genetic Pareto 最適化の概要
(02:47) 競走馬の繁殖比喩で Pareto 多様性を説明
(03:04) Managed Variables — 単なるプロンプトではなく Pydantic モデルで任意オブジェクトを管理
(04:00) 課題提示 — 英国議員の何 % が政治家家系出身か
(05:08) コードベースの説明 — Pydantic AI で構造化出力スキーマを定義
(11:00) ゴールデンデータセットの設計 — Opus 4.6 等で生成 + 人手チェック
(15:00) Logfire セットアップ + Pydantic AI Gateway による複数モデル接続
(17:00) eval 関数の構造 — データセット + カスタム評価器
(18:38) 「LLM を裁判官にするのは精神病院を狂人に運営させるようなもの」
(20:00) 第 1 走 (簡単プロンプト) → 精度 85%
(以降) より工夫したプロンプト + GEPA 自動最適化、 Logfire 上での比較

出典

Playground in Prod: Optimising Agents in Production Environments — Samuel Colvin, Pydantic (AI Engineer)

Pydantic 公式: pydantic.dev · Pydantic AI: ai.pydantic.dev · Pydantic Logfire: pydantic.dev/logfire

GEPA 論文 (Stanford、 2025-04): arXiv:2504.12462

講演者プロフィール: サミュエル・コルヴィン / Samuel Colvin