独白により、モデルは観察結果を評価し、中 間ステップを追跡し、動的に適応することで、 タスクのパフォーマンスが向上します。 認識: コンピューターのスクリーンショットがモ デルのコンテキストに追加され、コンピュー ターの現在の状態の視覚的なスナップショット が提供されます。 Computer Use Agent(CUA)の仕組み 仮想環境 アクション スクリーンショット テキストでタスクを指示 インプット アクションを生成 アクション:クリック、スクロール、入力といった アクションを、タスクが完了したかユーザー入 力が必要と判断されるまで実行します。 CUA はほとんどのステップを自動的に処理します が、ログイン情報の入力や CAPTCHAフォーム への回答といった機密性の高いアクションに ついては、ユーザーの確認を求めます。 CUAは、生のピクセルデータを処理し、画面上で何が起こっているかを理解し、仮想マウスとキーボードを使用してアクションを実行します。複数のステップからなるタスク をナビゲートし、エラーを処理し、予期しない変更にも適応できます。 https://openai.com/index/computer-using-agent/ click(x,y)、scroll(delta)、 type("text") などを出力