AIコーディングエージェントを
正しく使う

論文が教える設計原則とコスト戦略
arXiv × 11本 2025後半 – 2026初頭 SWE-bench / AGENTS.md / TTS
© 2026 渡邊
🤖

このスライドは純AI製です

Generated by claude-sonnet-4-6

アジェンダ

1 – 2
ベンチマーク動向 — 評価基盤の重心移動(SWE-bench Pro / ++)
3 – 4
AGENTS.md の実態 — 2,303件の実態調査と品質問題
5 – 7 ★
相反する研究結果 — 「書けばいい」は間違い / ドキュメント品質が性能を決める
8 – 9
TTS・コスト最適化 — Replay / Rubrics の今 / テスト生成の再考
10
疎な協調 — 小型×大型モデルのルーティング戦略
11 ★
最小実践プロトコル — 今すぐ使える 5 ステップ

ベンチマークの進化

SWE-bench の重心が「実務難度」へ移行している

従来
SWE-bench
2,294問題 単一リポ 短期修正
単一言語・比較的短期の修正
SWE-bench Pro
1,865問題 41リポ
長時間・多ファイル修正
高難度タスク中心
SWE-bench++
11,133件 11言語
PR由来・自動生成
多言語・大規模
既存モデルの Pass@1 は低水準 — 実務難度との乖離がまだ大きい
SWE-Universe: 80万件超の検証環境を自動生成 2602.02361

SWEへの示唆: 評価設計を2層化する

🔧
短期修正タスク
バグ修正・単一ファイル
数分〜数十分
🏗️
長期 / 多ファイルタスク
機能追加・リファクタリング
数時間〜数日
1層だけで評価すると「短期はできるが長期はボロボロ」を見落とす
社内評価セットに SWE-bench Pro 相当の難度差 を再現することが先決

コンテキストファイル(AGENTS.md)とは

エージェント運用ルールを自然言語で記述する設計ドキュメント層

AGENTS.md
├─ リポジトリの概要
├─ 使ってよいコマンド / 禁止コマンド
├─ テスト実行方法
├─ コーディング規約
└─ よくある失敗パターンと対処
2,303件の実態調査 2511.12884
機能要件の記述に偏りすぎ
性能・セキュリティ等の
 非機能指示が薄い
実運用に必要な情報が
 抜けているケースが多い

★ 相反する研究結果

2つの論文は測定対象が異なるため、結果が食い違って見える

📈 効率が改善 2601.20404
10リポ・124PR|開発者が書いた AGENTS.md
-28.6%
経過時間(中央値)
-20.1%
出力トークン(平均)
※ 解決率は測定対象外("comparable task completion" とのみ記載)
📉 成功率が悪化 2602.11988
138タスク・12リポ|LLM自動生成コンテキストファイル
-2%
成功率(AGENTbench)
+8〜50%
推論コスト増
(モデル・ベンチ依存)
※ 開発者手書きファイルでは成功率 +4%(同論文内 ablation)
⚠️ 真因: 「誰が書いたか」が効果を左右する
LLM自動生成 → 成功率低下・コスト増 / 開発者手書き → 効率改善・成功率微増

ドキュメント品質が性能を決める

67フレームワーク横断分析 2602.11988 の知見

性能と 相関しない もの
GitHub スター数・人気度
ドキュメントの分量・行数
詳細な手順説明(冗長になりがち)
性能と 相関する もの
行動境界の明示(禁止事項)
失敗時分岐の記述(エラー対処)
出力フォーマットの具体的指定
機械可読なルール構造

良い AGENTS.md の書き方

✗ NG — 曖昧・冗長
## テスト
テストは重要です。適切に
テストを書いてください。
なるべくカバレッジを高く
保つようにしてください。
→ 解釈ブレ・冗長処理 → 推論コスト +20%超
✓ OK — 具体的・機械可読
## テスト
- 実行: `pytest tests/ -x`
- 新機能には必ずユニットテスト
- カバレッジ閾値: 80%
- 既存テストを壊す変更は禁止
→ 解釈ブレなし・トークン節約 → 成功率向上
💡 最小限の具体的指示 > 大量の曖昧な指示

チェックリスト: AGENTS.md 品質監査

タスクのスコープが明示されているか
出力フォーマットが具体的に指定されているか
禁止事項・行動境界が書かれているか
非機能要件(性能・セキュリティ)が含まれているか
失敗時の分岐が書かれているか
冗長な説明文を削れないか(量より質)
🚫 追加する前に必ず A/B 検証 → 良化を確認してから増やす

推論時スケーリング(TTS)の今

brute-force 探索から 効率化 へ移行中

旧来
Brute-force
候補を大量並列生成して選別
性能は出るが
コスト大 💸
SWE-Replay
2601.22129
過去の成功軌跡を再利用して探索
-17.4%
コスト削減(最大)
+3.8%
性能向上(最大)
Agentic Rubrics
2601.04171
テスト実行なし・文脈ベース検証で並列TTS改善
環境構築コスト
を大幅削減 ⚡
⚠️ エージェントが大量にテストを書くことの寄与は限定的 — 観測目的の軽量テストへ偏る傾向 2602.07900

小型×大型モデルの疎な協調

SWE-Protégé が示す新戦略 2602.22124

🤏 小型モデル
安い・速い
→ 通常タスク →
✅ 解決
🤏 小型モデル
→ 迷ったときだけ →
🧠 大型モデル
高い・遅い
→ 相談して解決 →
✅ 解決
✅ 少数回の相談で性能向上
✅ 全タスクを大型モデルに投げるより大幅コスト削減
💡 SWEへの示唆
Opus / GPT-4 へのルーティングをタスク難度で制御する設計を考える

★ 自社コードベースで試す最小プロトコル

1
評価セットを2層化
短期修正タスク  /  長期・多ファイルタスク
2
比較条件を固定
baseline  /  Replay型  /  Rubrics型  /  軽量相談型(同一モデル基盤)
3
指標を三本柱化
解決率 コスト(時間/トークン) 副作用(差分肥大・既存テスト劣化)
4
Context file を A/B 検証
なし 最小版 詳細版 の3条件で同時評価
5
失敗原因を5分類して次サイクルへ
探索 検証 仕様解釈 実装修正 → 1カテゴリ絞って改善

まとめ

✅ やるべきこと
AGENTS.md は最小指示から開始
A/B 検証後にのみ増やす
評価セットに長期タスクを含める
指標は解決率+コスト+副作用の三本柱
モデルをタスク難度でルーティング
✗ やってはいけないこと
AGENTS.md をとりあえず詳しく書く
スター数・話題性でフレームワークを選ぶ
解決率だけで評価する
全タスクを最高性能モデルに投げる

References

2509.16941
SWE-Bench Pro: 長期・高難度ベンチ(1,865問題・41リポ)

2511.12884
Agent READMEs: 2,303件のcontext file実態調査

2512.17419
SWE-Bench++: PR由来・11言語・11,133件 多言語ベンチ

2601.04171
Agentic Rubrics: テスト実行なし文脈ベース検証

2601.20404
AGENTS.mdの効率影響: 経過時間中央値 -28.6%・出力トークン平均 -20.1% を報告

2601.22129
SWE-Replay: 軌跡再利用TTS — コスト最大 -17.4% / 性能最大 +3.8%

2602.02361
SWE-Universe: 80万件超の検証可能環境を自動生成

2602.03411
SWE-Master: 軌跡合成→SFT→RL→TTSを一体最適化

2602.07900
Agent-Generated Tests 再評価: テスト生成の寄与は限定的

2602.11988
Evaluating AGENTS.md: LLM自動生成ファイルで成功率 -2%・コスト +8〜50%。開発者手書きは +4%

2602.22124
SWE-Protégé: 小型+大型モデルの疎な協調設計

© 2026 渡邊

════════════════════ SLIDE 1: タイトル ════════════════════

════════════════════ SLIDE 0: 純AI生成通知 ════════════════════

════════════════════ SLIDE 2: アジェンダ ════════════════════

════════════════════ SLIDE 3: ベンチマーク進化 ════════════════════

════════════════════ SLIDE 4: SWEへの示唆 ════════════════════

════════════════════ SLIDE 5: AGENTS.md とは ════════════════════

════════════════════ SLIDE 6: 相反する研究結果 ════════════════════

════════════════════ SLIDE 7: ドキュメント品質が性能を決める ════════════════════

════════════════════ SLIDE 8: 良い AGENTS.md の書き方 ════════════════════

════════════════════ SLIDE 9: チェックリスト ════════════════════

════════════════════ SLIDE 10: TTS の今 ════════════════════

════════════════════ SLIDE 11: 疎な協調 ════════════════════

════════════════════ SLIDE 12: 最小プロトコル ════════════════════

════════════════════ SLIDE 13: まとめ ════════════════════

════════════════════ SLIDE 14: References ════════════════════