Google Jules・OpenAI Codex・Anthropic Claude Code Action・Devin・cursorと新興・OSS勢まで完全比較しました。
はじめに――「AI補完」から「自律開発パートナー」へ
AIコーディングエージェントとは、ソースコードを読み取り、要件を解釈し、機能実装・テスト生成・デプロイまで自律的にこなす開発支援AIのことです。
従来のオートコンプリート(入力補完)ツールとは異なり、タスク分解(task decomposition)やサンドボックス環境(隔離された仮想実行環境)での並列実行まで担えるのが特徴です。
AIエージェント業界地図:4つのカテゴリで俯瞰する
AIによるコーディング支援は急速に進化しており、その適用範囲や技術的特性によって大きく4つのカテゴリに分類できます。
以下の表では、それぞれのカテゴリの特徴と代表的なエージェントを比較形式で整理しています。
カテゴリ | 特徴 | 主なエージェント | 備考 |
---|---|---|---|
① フルスタック開発エージェント型 | ソースコードの記述だけでなく、ターミナル操作・依頼チケットの解釈・バグ修正・アプリのビルド・デプロイまでを自律的に実行可能。完全なソフトウェア開発工程の代行を目指す。 | – Cognition Devin– OpenDevin | Devinは自然言語からチケットを処理し、仮想開発環境上で全工程を自動化。OpenDevinはMITライセンスのGPU対応オープンソース。 |
② コーディングパートナー型(IDE統合) | 開発者が使用する統合開発環境(IDE)に組み込まれ、リアルタイムでコード補完、構文修正、リファクタリング提案、自然言語での対話を行う。 | – GitHub Copilot X– Cursor– AWS CodeWhisperer | Copilot Xは2025年6月以降、Agentモードが正式課金対象。CursorはClaudeと統合され、自然なコード会話が可能。CodeWhispererはJava/Kotlin/GoなどAWS向け言語で最適化。 |
③ チーム・CI/CD支援型(GitHub連携) | GitHub上のPull RequestやIssue単位でエージェントが自動レビュー、テストコード作成、バグ修正提案を行う。CI/CDワークフローに組み込みやすいのが特徴。 | – Anthropic Claude Code Action– OpenAI Codex– Google Jules | Codexは長文処理と並列実行が強み。JulesはGitHub統合・非同期型クラウド実行。Claude Codeは自然言語でGitHub操作可能。 |
④ 設計・研究用途特化型 | 一般的なアプリ開発支援よりも、競技プログラミングやアルゴリズム設計、複数AIエージェントの統制など、研究開発支援に焦点を当てた特化型ツール。 | – DeepMind AlphaCode 2– IBM watsonx Code Assistant– LangGraph | AlphaCode 2はCodeforcesスコアで上位10%に到達。watsonxはオンプレミス導入や規制業界への対応力に強み。LangGraphは複数のAIを状態遷移制御するOSS基盤。 |
今後は、これらのカテゴリがさらに細分化され、用途や導入スケールに応じて選択肢が分化していくと予測されます。
Cursor

概要:CursorはVS Code互換のAI搭載エディタです。AIとチャットしながらコードを書いたり、リファクタリングを依頼したりと、エディタ内で完結した体験が得られます。
主な機能:
- ソースコードに対してAIが修正提案や説明を提示
- 複数スレッドで会話履歴を保持し、文脈を引き継いだ対応が可能
- Claude Opusなどを選択して連携できる(Proプラン)
料金体系:
- Freeプランあり(モデル制限あり)
- Proプランは月20ドル〜
用語解説:リファクタリングとは、機能を変えずにコードを整理・最適化する手法で、可読性や保守性を向上させます。
Anthropic Claude Code Action
Anthropicが提供するClaude Code Actionは、GitHub Actionsと連携できるAIコーディングエージェントです。2025年5月に正式リリースされ、Pull RequestやIssueに@claude
とコメントするだけで、修正コードや解説を自動生成します。
主な特長
高精度なコード生成
Claude Opus 4やSonnet 4といった最新の大規模言語モデル(LLM)を活用しており、高度なコード理解と修正が可能です。
GitHub上での自動対応
Pull RequestやIssue上での@claude
コメントをトリガーとして、AIが自動でコードの修正案や新規実装を提案します。
CI/CD環境との統合
.github/workflows/claude.yml
に1行追加するだけで、GitHub Actionsとして簡単に統合できます。
日本語対応の自然な出力
説明文やコード背景の解説も日本語で自然に生成でき、国際チームでも有用です。
セキュアな構成
ローカルのGitHub Actionsランナーを介して実行され、Anthropic APIへはセキュアにアクセスされます。
Claude Code SDKと連携
同時に提供されているClaude Code SDKを使えば、TypeScript、Python、CLIでのカスタム実行も可能です。claude
CLIによってローカル開発でもAIエージェントを呼び出せます。
高速実行のための最適化
Depotなどの高速GitHub Actionsランナーとの併用により、処理時間の短縮とリソース効率化が実現できます。
インストール手順
- CLIインストール
npm install -g @anthropic-ai/claude-code
- GitHub Appインストール
claude install-github-app
- Secretsの設定
GitHubリポジトリのSecretsにANTHROPIC_API_KEY
を設定します。 - Workflowの設定
.github/workflows/claude.yml
に以下を追加:
name: Claude Code Action
on:
issue_comment:
types: [created]
jobs:
run_claude:
runs-on: ubuntu-latest
steps:
- uses: anthropic/claude-code-action@v1
Anthropic Claude Code Action 料金比較表
プラン名 | 月額料金(個人) | 対象ユーザー | 含まれるコード利用枠 | 主な用途・備考 |
---|---|---|---|---|
Pro | $17(年払い割:$200/年)$20(月払い) | 個人・小規模チーム | Claude Sonnet 4 ベースで日常開発向け | ショートタスクやスクリプト生成に最適 (docs.anthropic.com, anthropic.com) |
Max 5× | $100/月 | 開発者・中規模チーム | Sonnet 4 + Opus 4の一部利用可能 | 長文リファクタリングや複雑開発に適したパワーユーザー向け |
Max 20× | $200/月 | 上級開発者・大規模チーム | Opus 4を含む高頻度利用枠 | 高度なコードエージェント用途・優先アクセス付き |
トークン課金(API 利用/バックグラウンド処理)
モデル名 | インプット料金 | アウトプット料金 | 備考 |
---|---|---|---|
Opus 4 | $15 / million tokens | $75 / million tokens | 大規模文脈や連続タスク処理に最適 (anthropic.com) |
Sonnet 4 | $3 / million tokens | $15 / million tokens | 日常開発にコスト効率の高い選択肢 |
用語解説
Pull Request(PR)
コードの変更を開発チームに提案・レビュー・統合するためのGitHubの機能。
CI/CD
ビルド・テスト・デプロイを自動化する開発手法(Continuous Integration / Continuous Deployment)。
トークン
LLMが扱うテキスト単位。課金の基準となり、1Mトークンは約75万〜100万語程度に相当。
市場での注目度
MicrosoftはClaude Code ActionをGitHub上で正式に採用する予定であると発表しており、競合するOpenAI製エージェントとの共存も視野に入れた運用が進められています。
出典:Reuters
OpenAI Codex

概要:OpenAI Codexは、GPT-4oベースのコーディングエージェントで、ChatGPTやAPI経由で利用可能です。2025年5月より研究プレビューが提供されており、開発作業の大部分を自動化できます。
主な機能:
- 最大150万トークンの入力と40万トークンの出力に対応する広大な文脈処理能力
- 複数の開発タスク(テスト作成、バグ修正、機能追加など)を同時に処理可能
- AGENTS.mdなどの構成ファイルからプロジェクト方針を自動学習
- CLIやVS Codeなどのエディタとも連携可能
ベンチマーク:HumanEval+でpass@1が87.5%を記録し、前世代モデルより+8.2ポイント向上
料金体系:
- ChatGPT経由:Pro/Teamユーザーに無料で提供(研究プレビュー中)
- API:入力1Mトークンあたり1.5ドル、出力1Mトークンあたり6ドル。キャッシュ適用で最大75%割引
用語解説:AGENTS.mdは、プロジェクトの構成方針や命名規則を記述するファイルで、Codexが意図を理解する手がかりになります。
Google Jules
Google Julesは、Googleが開発したAIソフトウェアエージェントで、2025年5月20日にGoogle I/Oにてベータ版が公開されました(一次情報:Google公式ブログ・I/O発表資料に基づく)。
Gemini 1.5 Pro(当時)をベースに構築され、Google Cloudインフラ上で非同期に実行されるAI開発支援エージェントとして紹介されています。
項目 | 内容 |
---|---|
利用料金 | 無料(ベータ版) |
課金プラン | 未発表 |
ベータ利用制限 | 1日5タスク程度の制限の可能性 ※ただし数値は非公式 |
有料化予定 | 正式発表なし |
データ利用方針 | ユーザーデータは学習用途に使用されない(公式明言) |
主な機能
- GitHubリポジトリ全体をクローンし、プロジェクトの文脈を解析
- バグ修正、テスト作成、依存性更新、機能追加などを非同期で処理
- 作業結果としてdiffとPR(Pull Request)を自動生成
- **音声によるコード変更説明(audio changelog)**機能を搭載
- すべての作業はGoogle Cloud VM内で行われ、ユーザーのソースコードは他と共有されないことが明言されています(Geminiは当該データを学習に利用しない)
提供形態・制限事項(ベータ時点)
- 誰でも利用可能な無料ベータとして公開中(対象地域でアクセス可能)
- 実行はGoogle Cloud上の仮想環境内で行われる(ローカル環境ではない)
- 一部メディアによる報道では、「1日5リクエスト程度まで」に制限されているケースがあるとされるが、これはGoogle公式による明示的な数値ではないためここでは記載を控える
- 処理は非同期で、ユーザーが指示した後はバックグラウンドで実行される(リアルタイム対話型ではない)
料金(2025年6月時点)
- Julesは2025年6月現在、無料で提供されているベータ版プロダクトであり、正式な課金プランやAPI公開は行われていません
- 料金が発生するのは、Google Cloud Platform自体の利用とは別の枠組みとして扱われている
用語解説
非同期エージェント
ユーザーの操作に対し、即座に応答するのではなく、指示を受けたあとバックグラウンドで処理を進めるAIのこと。Julesは、対話ではなく”指示を渡して任せる”スタイルを採用している。
audio changelog
変更点を音声で読み上げる自動要約機能。Julesはこの音声生成により、コードレビューや共有を効率化できるとされている。
Cognition Devin
Cognition社が開発したDevinは、エンドツーエンドの開発タスクを実行可能なAIエージェントです。2024年3月12日に発表され、「自律型ソフトウェアエンジニア(Autonomous Software Engineer)」として紹介されました。
主な機能
- 仮想マシン(VM)内で動作し、開発環境全体を自己管理
- Linuxターミナル、コードエディタ、ブラウザを自動操作
- チケットベースでタスクを受け取り、コード実装・テスト・デプロイを一貫して実行
- GitHubリポジトリ操作、Webアプリのビルドやバグ修正も可能
- Ask Devin機能による自然言語質問への応答、Devin Wikiによる補助情報の提供
プランと利用条件(2025年6月時点・公式サイトに基づく)
プラン名 | 月額料金 | 主な対象 | 主な機能 |
---|---|---|---|
Core | 従量課金(Pay as you go) | 個人・小規模利用 | – 自律タスク実行(Autonomous task completion)\n- Devin IDE、Ask Devin、Devin Wiki\n- 学習機能(Learns over time)\n- 最大10セッション同時実行\n- 月額固定なし、オンデマンド課金制 |
Team | $500 / 月 | 開発チーム | – Coreプラン全機能 + Devin API\n- 新機能・研究プレビュー先行提供\n- 無制限セッション\n- 月250 ACU(Autonomous Compute Units)付属\n- Slackサポート、オンボーディングあり |
Enterprise | カスタム見積もり | 大企業・機関 | – Teamプラン全機能 + Devin Enterprise/Custom Devins\n- VPCデプロイ\n- SAML/OIDC SSO、管理者統制、Teamspace分離\n- 専任担当とカスタム契約・請求管理 |
補足
- Coreプランは登録すれば誰でも利用可能で、個人向けに提供されています。
- Team以上のプランではACU(Devinの処理単位)が付属し、大規模な非同期処理や連携が可能になります。
- Cognition社はOpenAIやGoogle DeepMind出身者が参加するAIスタートアップです。
用語解説
仮想マシン(VM: Virtual Machine)
物理マシンの中に構築された仮想的な計算環境。Devinはこの中でIDEやターミナルを起動し、実開発者のような操作を行います。
ACU(Autonomous Compute Unit)
Devinが内部処理を行う際の仮想的な計算リソース単位。Teamプランには毎月250 ACUが含まれます。
GitHub Copilot X
GitHubが提供するCopilot Xは、Visual Studio CodeなどのIDE(統合開発環境)上で動作するAIコードアシスタントです。従来のCopilotよりも強化され、コード補完だけでなく、Pull Request作成、テストコード生成、自然言語での操作など、開発フロー全体を一気通貫で支援します。
2025年6月以降、Copilot Xの中でも「Agentモード(会話型エージェント機能)」は有料機能として提供されています。
主な機能
高精度なコード補完
自然言語のプロンプトに応じて、コード全体や関数単位での補完を提供。従来のTab補完よりも文脈理解に優れ、より自然で正確な提案を実現します。
テストコードの自動生成
関数やクラスに対応するテストコードをAIが生成。既存テストに対する改善提案やリファクタリング支援も行います。
PR作成の自動化
GitHub CLIと連携し、PR(Pull Request)の作成・説明文・コミットメッセージなどをAIが自動生成します。
会話型のAgentモード
IDE上でChatGPTのように対話しながら開発を進められる機能。コードレビュー、リファクタ提案、API仕様説明などをチャット形式で行うことが可能です。
対応IDEと統合機能
- Visual Studio Code(vscode)
- JetBrains製品(一部機能)
- Neovim(プラグイン経由)
各IDE内でCopilot ChatやPRアシスタントとして機能します。
導入と利用条件
- GitHub Copilotのサブスクリプションが必要(個人・企業向けに提供)
- Visual Studio Code拡張機能またはGitHub CLIとの連携が必要
GitHub Copilot X 料金比較表
プラン名 | 月額料金(USD) | 利用対象 | 含まれるプレミアムリクエスト | 主な用途・機能 |
---|---|---|---|---|
Copilot Pro | $10 | 個人 | 月300回 | 基本的なコード補完、PR支援、簡易チャット |
Copilot Pro+ | $39 | 個人(上級) | 月1,500回 | ClaudeやGPT-4.5など高度なAIエージェントの多用 |
Copilot Business | $19 | 企業・チーム | 月300回/ユーザー | Business向けの管理機能、統合CI支援 |
Copilot Enterprise | $39 | 大企業 | 月1,000回/ユーザー | エンタープライズ対応、SAML/SSO、強力な統合制御 |
プレミアムリクエストとは?
項目 | 内容 |
---|---|
定義 | Claude, GPT-4 Turbo, GPT-4.5 など高性能モデルによるエージェント呼び出し |
上限超過時の課金 | $0.04/1リクエスト |
主な利用機能例 | Agentモードでのコードレビュー、自然言語からのAPI仕様理解など |
用語解説
CLI(Command Line Interface)
コマンドラインインタフェースの略。GUI(グラフィカルユーザインタフェース)とは異なり、テキスト入力で操作を行う形式。GitHub CLIは、GitHub上でPR作成やIssue管理をターミナルから行えるツールです。
PR(Pull Request)
コードの変更を共有・レビュー・統合するGitHubの基本的な仕組み。CIとの連携によって自動テスト・デプロイが行われることもあります。
AWS CodeWhisperer
概要:AWSが提供するCodeWhispererは、特にクラウド向け言語(Java, Kotlin, Go など)で強みを持つコード補完AIです。SWE-PolyBenchという評価基準において41%の問題解決率を記録しています。
主な機能:
- AWS CLIやSDKとの親和性が高く、クラウドインフラ構成の提案が得意
- 機密情報検出機能やセキュリティ分析機能を搭載
- オンライン/オフラインの両環境で補完が可能
料金体系:
- Free Tierあり。Proプランは月19ドル(2025年時点)
用語解説:SDKとはソフトウェア開発キット(Software Development Kit)の略で、特定の環境向けのライブラリやツール群を指します。
IBM watsonx Code Assistant
概要:IBMのCode Assistantは、特に金融・医療などの規制産業に特化したエンタープライズ向けAIエージェントです。オンプレミス環境への対応や、ガバナンス機能が評価されています。
主な機能:
- オンプレ環境に対応したLLMのデプロイ
- ソースコードの説明・要約・文書化
- 法規制に準拠したセキュリティチェックやレポート機能
料金体系:
- 要問い合わせ(導入規模により変動)
用語解説:オンプレミスとは、クラウドではなく企業の自社内サーバーなどにソフトを導入・運用する形態のことです。
DeepMind AlphaCode 2
概要:AlphaCode 2は、DeepMindが開発した競技プログラミング向けAIです。Codeforcesという競技プラットフォームにおいて、上位10%の人間と同等のスコアを記録しています。
主な機能:
- 自然言語の問題文を解析し、最適なアルゴリズムを自動生成
- 数百通りの解法候補を出力し、最適なものを選定
- 通常のIDEには非対応(研究目的向け)
用語解説:Codeforcesとは、世界的な競技プログラミングのオンラインジャッジシステムで、多くの開発者がスキルを競う場です。
OpenDevin(OSS版 Devin)
概要:OpenDevinは、商用版Devinの仕組みをオープンソースで再現したプロジェクトです。MITライセンスで誰でも改変・商用利用が可能となっています。
主な機能:
- ローカルGPU上でのエージェント実行
- フロントエンド+エージェント制御+コード実行エリアを統合
- LLMにClaudeやGPT-4などを自由に接続可能
用語解説:MITライセンスとは、オープンソースソフトウェアの最も寛容なライセンスの一つで、再配布・商用利用・改変が自由に許可されています。
LangGraph
概要:LangGraphは、複数のAIエージェントを状態遷移グラフ(ステートマシン)として接続するフレームワークです。複雑なAIワークフローを視覚的に設計・運用できます。
主な機能:
- LangChainベースの構成で複数のLLMを連携制御
- フロー図による可視化とデバッグが可能
- Pythonによる柔軟な制御と拡張性
用語解説:状態遷移グラフ(State Machine)とは、条件に応じて動作が切り替わる論理モデルで、AIエージェントの制御ロジックを定義するのに適しています。
AIエージェント導入時の選定ポイント
AIエージェントの選定は、単に性能だけではなく、自社環境との適合性を踏まえて行う必要があります。以下の観点から導入判断を行うことで、より効果的かつセキュアな活用が可能になります。
選定ポイント | 説明 |
---|---|
コードの外部送信可否 | クラウド型(例:Copilot X、Claude)はコードが外部に送信される。一方、オンプレ型(例:watsonx、OpenDevin)はローカル環境で完結可能。情報漏洩リスクと利便性のバランスが重要。 |
チーム構成 | 非エンジニアを含むチームでは、自然言語で操作できるClaudeやJulesなどの直感的UIが有利。技術者主体ならDevinのような高度機能も有効。 |
主な使用言語 | Python主体ならCodexやCopilotが有力。Java/KotlinならCodeWhisperer、Go言語ならLangGraphやJulesとの親和性が高い。 |
運用形態(CI/CD前提) | GitHub ActionsやCI/CDパイプラインに自動統合したい場合は、Claude Code ActionやGoogle Julesが向いている。 |
予算とレート制限への耐性 | DevinやClaudeの商用版は従量課金制のため、利用頻度が高い環境ではコストが膨らむ。OpenDevinやLangGraphなどOSS系は初期投資が低く抑えられる。 |
導入前には、利用目的に応じたPoC(概念実証)を実施し、セキュリティポリシーや社内スキルセットとの整合性を確認することが望ましいです。
今後の潮流
- マルチモーダル化:Meta Llama 4 Scoutは画像+コード同時処理を可能にしつつある
- エージェントチームの一般化:LangGraphやAutoGenによるAI役割分担開発が広がる
- オンプレ回帰:セキュリティ要件からクラウドを避ける動きも拡大。OSSが再評価されている
総評と今後の指針
AIコーディングエージェントは、2025 年時点で 「開発フローの自律化」 という新しいフェーズに入りました。すでにコーディング補完を超え、要件定義 ➝ 実装 ➝ テスト ➝ デプロイ までを担うフルスタック型エージェント(例:Devin)さえ登場しています。ここでは、技術的・経営的観点から、導入を検討する際の核心ポイントと今後 2〜3 年の動向を整理します。
1. 依存モデルとデータ主権
- クラウド依存: Copilot X / Codex / Claude はクラウド側 LLM(大規模言語モデル)へコードを送信する設計です。機密保持ポリシーが厳しい場合は、データ暗号化やリダクション(秘匿化)層を設けるか、オンプレ型を選択する必要があります。
- オンプレ/ハイブリッド: watsonx Code Assistant や OpenDevin はローカル GPU+社内ストレージで完結できるため、データ主権(Data Sovereignty)を重視する業界で有利です。
用語補足:データ主権とは、企業や組織が所有するデータを自国内または自社のインフラに保持し、第三者に容易に移転できないよう制御する考え方です。
2. ROI(投資対効果)とコスト構造
- 従量課金 vs 定額: Claude / Devin のような高機能エージェントはトークン課金で費用が跳ね上がりがちです。呼び出し頻度が高い場合は、OSS(OpenDevin・LangGraph+自社LLM)で初期投資を抑えつつ、モデルを差し替える戦略も有効です。
- 人件費換算: テスト自動生成やリファクタリング時間の短縮が、月×人件費でどこまで回収できるかを PoC で定量評価することが重要です。
3. スキルセット適合
- 非エンジニア比率が高いチーム → Claude Code Action や Jules のように、自然言語指示で動く UI が適合。
- アルゴリズム志向の R&D チーム → AlphaCode 2 や Codex の広コンテキスト処理を活用し、複雑なロジックを自動検証。
4. 未来予測:2025〜2027
項目 | 予測 | 実務への影響 |
---|---|---|
マルチモーダル LLM | 画像・図表・コードを同時理解するモデルが商用化(例:Meta Llama 4 Scout) | UI/UX 設計や図解付きドキュメント生成を AI が一貫して担当 |
エージェント協働基盤の標準化 | LangGraph / AutoGen のような OSS で、複数エージェントのプロトコルが共通化 | 開発チームが「AIロール」を自由に増減し、プロジェクトに応じて組み替え可能 |
オンプレ向け小型モデルの高精度化 | 20B パラメータ以下でも高性能な LLM が登場し、GPU 1〜2 枚で動作 | 地方自治体や中小企業でもオンサイト AI コーディング支援が現実的に |
5. 実践的な導入ステップ(推奨)
- パイロットプロジェクトを設定(期間 1〜2 か月)し、対象タスクを限定してPoCを実施。
- **KPI(例:バグ修正時間、レビュー工数、テストカバレッジ)**を計測し、エージェント利用前後で比較。
- セキュリティ・ガバナンス部門と連携し、データ送信ポリシーとアクセス権限を明文化。
- OSSを含むハイブリッド構成(クラウド+ローカルモデル)で、コストと性能のバランスを最適化。
まとめ
- 短期的(〜1年):自然言語によるレビュー&テスト生成の自動化が即効でROIを生む領域。Claude Code Action や Codex を小規模に導入して効果を測定。
- 中期的(1〜2年):フルスタック型エージェント(Devin系)を一部の新規プロジェクトに実戦投入し、工数削減と品質向上を並行して検証。
- 長期的(2年以上):オンプレ向け高精度モデルとエージェント協働基盤が標準化。社内 LLM+LangGraph で 「AIチーム」 を常設し、人間開発者は設計と意思決定に集中。
最終的な指針:AIエージェントは単独で選ぶのではなく、クラウド型・オンプレ型・OSS型の三層構造で組み合わせ、用途とセキュリティ要件に応じて動的に切り替えるアーキテクチャが最も堅牢かつ経済的です。
Comment