Computer Use〜OpenAIとAnthropicの比較と将来の展望〜

PharmaX（旧YOJO Technologies）開発チーム

May 01, 2025

940

Computer Use〜OpenAIとAnthropicの比較と将来の展望〜

PharmaX（旧YOJO Technologies）開発チーム

May 01, 2025

Tweet

More Decks by PharmaX（旧YOJO Technologies）開発チーム

See All by PharmaX（旧YOJO Technologies）開発チーム

AIコーディングの最前線〜活用のコツと課題〜

4

2.9k

AIエージェント開発のノウハウと課題

10

7.1k

AIエージェントについてまとめてみた

24

17k

完全自律型AIエージェントとAgentic Workflow〜ワークフロー構築という現実解

1

1.8k

LLMアプリケーションの Fine-tunningと蒸留を活用した改善

7

2.3k

OpenAIの蒸留機能(Model Distillation)を使用して運用中のLLMのコストを削減する取り組み

5

860

EMとして自分の弱さと向きあい人に背中を任せられるようになった話

4

710

LLMアプリケーションの継続的改善のためのFine-tuningの活用

0

110

LLMアプリケーションの評価と継続的改善

3

530

Other Decks in Technology

See All in Technology

コスト最適重視でAurora PostgreSQLのログ分析基盤を作ってみた #jawsug_tokyo

1

840

CodePipelineのアクション統合から学ぶAWS CDKの抽象化技術 / codepipeline-actions-cdk-abstraction

5

340

日経電子版 for Android の技術的課題と取り組み(令和最新版)/android-20250423

nikkei_engineer_recruiting

1

600

Running JavaScript within Ruby

3

430

Notion x ポストモーテムで広げる組織の学び / Notion x Postmortem

1

140

Oracle Cloud Infrastructure：2025年4月度サービス・アップデート

oracle4engineer

0

290

ここはMCPの夜明けまえ

32

13k

営業向け誰でも話せるOCIセールストーク

oracle4engineer

2

140

Compose におけるパスワード自動入力とパスワード保存

0

180

AIとSREで「今」できること

3

680

Simplify! 10 ways to reduce complexity in software development

1

170

テストって楽しい！開発を加速させるテストの魅力 / Testing is Fun! The Fascinating of Testing to Accelerate Development

0

160

Featured

See All Featured

[RailsConf 2023] Rails as a piece of cake

54

5.5k

Writing Fast Ruby

628

61k

Building Flexible Design Systems

yeseniaperezcruz

329

39k

A better future with KSS

239

17k

Embracing the Ebb and Flow

85

4.7k

Why Our Code Smells

336

57k

How GitHub (no longer) Works

314

140k

The Art of Delivering Value - GDevCon NA Keynote

14

1.4k

Making Projects Easy

116

6.1k

Fight the Zombie Pattern Library - RWD Summit 2016

233

17k

Fashionably flexible responsive web design (full day workshop)

407

66k

I Don’t Have Time: Getting Over the Fear to Launch Your Podcast

32

2.3k

Transcript

2025.5.1 #studyco Computer Use〜OpenAIと Anthropicの比較と将来の展望〜
（C）PharmaX Inc. 2025 All Rights Reserve 2 自己紹介上野彰大 PharmaX共同創業者・エンジニアリング責任者
好きな料理はオムライスと白湯とコーラマイブームはLLMとRust X：@ueeeeniki
（C）PharmaX Inc. 2025 All Rights Reserve 3 自社としては LLMを中心に勉強会を月 1回程度開催
4 （C）PharmaX Inc. 2025 All Rights Reserve We're hiring!!! •
AXカンパニーのカンパニーCTO • AXカンパニーのPdM などを募集しております！！医療・ヘルスケア業界で AIエージェントを実装していく toB事業を行うAXカンパニーを立ち上げました
5 （C）PharmaX Inc. 2025 All Rights Reserve Computer Useについて
（C）PharmaX Inc. 2025 All Rights Reserve 6 Computer Useのデモ Anthropicのデモでは仮想環境を使っている
（C）PharmaX Inc. 2025 All Rights Reserve 7 AIエージェントは SaaSを飲み込むか •
AIエージェントがSaaSを操作するようになると、SaaSのUI/UXは人の使用を前提としていた時ほどは競争優位性ではなくなる可能性はある ◦ SaaSは所詮データベースのラッパーに過ぎないと考えることもできる ◦ 社内業務用のSaaSを考えると、どのSaaSを使っても必要なデータが貯まれば同じという考え方もできるようになる ◦ 一方で、人材系のマッチング（スカウト）ツールのように DBの量や質そのものに差がある場合には、これまで通り十分価値になり得る • 既存SaaSをまたがって業務を自動化するAIエージェントの開発競争が始まる可能性あり ◦ 医療業界のように業務ごとにシステムが乱立していて、システム連携が難しいという問題を強引に解決できる可能性もある computer/browser useによりAPI連携せずとも複数ツールをまたいだ操作の自動化が可能に
（C）PharmaX Inc. 2025 All Rights Reserve 8 Anthropicのポケモン生配信によるマルチモーダル &推論モデルのデモ •
利用可能なボタン操作は、上，下，左，右，A，B，START，SELECT • アクションを選択する際にはどのアクションを取るのかを思考して決定する • ゲーム内のメモリ値を渡しているのではなく、画面の画像を渡している Claude 3.7 Sonnetにポケモンを使ってプレイさせ、ジムリーダー 3人の撃破に成功した
（C）PharmaX Inc. 2025 All Rights Reserve 9 Computer/browser Useの課題期待も大きいComputer
Use/browserだが、実運用するには課題も多い • 現実的には動作速度もかなり遅く、ポケモンのプレイの例では、 17時間かかって（2つ目の街である）ニビシティまでしか進んでいなかった ◦ ポケモンの例では拡張思考モードが使われており、次の行動を選ぶのに熟考を繰り返している ◦ 実際にcomputer useを使う場合には、PCを占有してしまうことになるので、処理速度の向上や仮想環境での並列化などが求められる • コストの課題もまだ大きく、コスパ高く人の業務を代替させられるかはかなり怪しい水準 ◦ ポケモンの例では、3人目のジムリーダー撃破までに推定 35,000回以上のアクションを実行しており、相当なコストがかかっているとされている • 視覚認識の精度や文脈の理解もまだ不安定なのでミスも多い ◦ どのようにして精度高く実行させるか？というところに工夫は必要 ◦ Computer/browser Useでもワークフローを組む方法は引き続き有効
（C）PharmaX Inc. 2025 All Rights Reserve 10 推論：CUAは、現在および過去のスクリーンショットや行動を考慮しながら、思考の連鎖を用いて次のステップを推論します。この内なる
独白により、モデルは観察結果を評価し、中間ステップを追跡し、動的に適応することで、タスクのパフォーマンスが向上します。認識: コンピューターのスクリーンショットがモデルのコンテキストに追加され、コンピューターの現在の状態の視覚的なスナップショットが提供されます。 Computer Use Agent（CUA）の仕組み仮想環境アクションスクリーンショットテキストでタスクを指示インプットアクションを生成アクション：クリック、スクロール、入力といったアクションを、タスクが完了したかユーザー入力が必要と判断されるまで実行します。 CUA はほとんどのステップを自動的に処理しますが、ログイン情報の入力や CAPTCHAフォームへの回答といった機密性の高いアクションについては、ユーザーの確認を求めます。 CUAは、生のピクセルデータを処理し、画面上で何が起こっているかを理解し、仮想マウスとキーボードを使用してアクションを実行します。複数のステップからなるタスクをナビゲートし、エラーを処理し、予期しない変更にも適応できます。 https://openai.com/index/computer-using-agent/ click(x,y)、scroll(delta)、 type("text") などを出力
（C）PharmaX Inc. 2025 All Rights Reserve 11 Computer UseとBrowser Use
現実的にはComputer Useの精度はBrowser Useと比べてもかなり低い https://openai.com/index/computer-using-agent/ オフラインでセルフホスト型のオープンソースウェブサイトを利用し、 eコマース、オンラインストアコンテンツ管理（ CMS）、ソーシャルフォーラムプラットフォームなどの実際のシナリオを模倣する Amazon、GitHub、Googleマップなどのオンラインライブウェブサイトでモデルのパフォーマンスをテストする Ubuntu、Windows、macOSなどのオペレーティングシステム全体を制御するモデルの能力を評価する
（C）PharmaX Inc. 2025 All Rights Reserve 12 CUAの安全性リスク Computer Use/browserは安全性へのリスクも非常に注目されている
• 悪用（Misuse） ◦ 想定リスク：ギャンブルや違法取引、成人向けサイトなど不適切タスクへの利用 ◦ 主な緩和策 ▪ 拒否応答：CUA は危険または規制対象タスクを検知すると実行を拒否するよう訓練 ▪ ブロックリスト：賭博・銃器・アダルト等、事前に指定したドメインにはアクセス不可 • モデルの誤動作（Model Mistakes） ◦ 想定リスク：誤クリックでメール誤送信や誤購入、削除操作、フィッシングに引っかかるなど ◦ 主な緩和策 ▪ ユーザー確認：決済や送信など外部に影響する操作前に必ず確認ダイアログで同意を取る ▪ 高リスク作業の制限：銀行取引など機微なタスクは現在サポート外として拒否 ▪ ウォッチモード：メール等センシティブなサイトでは常にユーザーの画面監視を要求 • フロンティア・リスク（Frontier Risks） ◦ 想定される害 ◦ 主な緩和策 ▪ Preparedness Framework 評価 ― 自律複製やバイオリスク支援などの高度リスクについて GPT-4o から追加の危険がないと検証済み
（C）PharmaX Inc. 2025 All Rights Reserve 13 CUAのリスク対策悪用対策：有害なタスクの拒否モデルの誤動作対策：確認
https://openai.com/index/operator-system-card/
（C）PharmaX Inc. 2025 All Rights Reserve 14 • OpenAI ◦
https://github.com/openai/openai-cua-sample-app ◦ playwrightを使用してブラウザ操作する • Claude ◦ https://github.com/anthropics/anthropic-quickstarts/tree/main/computer-use-demo ◦ 仮想環境を立ち上げて computer useする OpenAIとAnthropicのデモ期待も大きいComputer Use/browserだが、実運用するには課題も多い

	
		OSZAR »