AI Engineer Code Summit 2026/5/7

サミュエル・コルヴィン / Samuel Colvin · 00:54 「私は AI の可観測性をあまり信じていない、 いずれ観測性か AI のいずれかに食われる」

AI Engineer チャンネル (2026/05/07 公開、 約 1 時間 20 分)。 Pydantic 創業 CEO による live ワークショップ

AI 観測性プラットフォーム Pydantic Logfire を運営する人物が、 自社カテゴリについて公の場で 「あまり信じていない、 いずれ食われる」 と言い切る、 という奇妙な始まり方をする 80 分のワークショップ。 そのうえで提示されるのは 「観測性は土台、 真のゴールは本番環境でエージェントを自律最適化すること」 という大きな構想。 中心技術は **GEPA** (Genetic Pareto 最適化) と **Managed Variables** (Pydantic モデルでプロンプト以外も管理) の 2 つ。

語るのは サミュエル・コルヴィン (Samuel Colvin) — Python の最も普及したデータ検証ライブラリ **Pydantic** の創業 CEO。 Pydantic は OpenAI Python SDK・Anthropic Python SDK・FastAPI・LangChain など、 ほぼすべての主要 Python AI フレームワークの基盤として組み込まれている、 Python AI エコシステムの土台と言える存在。 同社は今、 検証 (Pydantic) → エージェント (Pydantic AI) → 観測性 + 最適化 (Pydantic Logfire) という 3 層スタックで、 開発 / 実行 / 改善のループ全体を抑える戦略を進めている。

実演課題は具体的でユーモアもある。 「英国議員のうち何 % が政治家の家系出身か」 を解くエージェントをライブで組み立てる。 政治王朝という長年議論のあるテーマに、 Pydantic AI で構造化出力スキーマ (`name / role / relationship`) を定義してエージェントを走らせる。 第 1 走では精度 85%、 そこからプロンプトを工夫し、 さらに GEPA で自動最適化していく流れ。

面白いのが GEPA の比喩 — 「最高の競走馬を連れてきて繁殖させて、 もっと優れた競走馬を生む。 でも時々、 すごく遅い馬も混ぜて何が起こるかを見る」。 Pareto 多様性のために 「明らかに弱い候補も保持する」 という遺伝的アルゴリズムの本質を、 競馬比喩で 1 行で説明してしまう。 ちなみに講演冒頭で 「家庭の事情で、 この発表の大部分を一晩で書いた」 と告白する自虐的な始まり方も含めて、 全体に英国流の率直さが漂う。

個人的に面白かった点

「AI 観測性は信じていない」 (00:54)

観測性ベンダー創業者にしては異例の率直な発言。 「これは私たちのカテゴリの機能であり、 いつかは可観測性か AI のいずれかに食われる」。 売っているからには本気と冷静さの両立が必要、 という大人のスタンス。 この内省を踏まえると、 Pydantic Logfire が観測性で終わらず Managed Variables や GEPA 連携に進む理由が腑に落ちる — 観測性は通過点、 ゴールは最適化、 という構造的な見方。

競走馬の比喩で説明する Genetic Pareto (02:47)

GEPA の本質を 「最高の競走馬を繁殖させてもっと優れた競走馬を生む。 ただし、 時々遅い馬も混ぜる」 で 1 行に圧縮する手腕。 「最良の例だけ残すと多様性が消える、 だから明らかに弱い候補も保持する」 という Pareto フロンティア概念を、 専門用語ゼロで説明してしまう。 文字列 (プロンプト) を最適化するアルゴリズムだが、 GEPA で最適化されるのはテキストだけでなく Pydantic モデルで定義した任意のオブジェクト — Managed Variables の一般化と組み合わせると、 エージェントの 「何でも」 が最適化対象になる。

「LLM を裁判官にするのは精神病院を狂人に運営させるようなもの」 (18:38)

eval (評価) における LLM-as-judge への辛辣な指摘。 政治王朝の例なら 「ゴールデンデータセット (人間が確認した正解) と直接比較する決定論的 eval」 のほうが、 「LLM に正誤を判定させる」 より遥かに信頼できる。 自律最適化の話と矛盾するように見えるが、 「最適化のためには信頼できる評価指標が必要」 「評価指標自体を LLM に頼ると、 最適化が崩れる」 という構造的な指摘で、 むしろ整合的。

動画の構成

出典

Playground in Prod: Optimising Agents in Production Environments — Samuel Colvin, Pydantic (AI Engineer)

Pydantic 公式: pydantic.dev · Pydantic AI: ai.pydantic.dev · Pydantic Logfire: pydantic.dev/logfire

GEPA 論文 (Stanford、 2025-04): arXiv:2504.12462

講演者プロフィール: サミュエル・コルヴィン / Samuel Colvin