Rustで強化学習アルゴリズムを実装する vol3

NearMeの技術発表資料です

May 09, 2025

11

Rustで強化学習アルゴリズムを実装する vol3

NearMeの技術発表資料です
PRO

May 09, 2025

Tweet

More Decks by NearMeの技術発表資料です

See All by NearMeの技術発表資料です

Build an AI agent with Mastra

0

16

Webアプリケーションにおけるクラスの設計再入門

1

55

AIエージェント for 予約フォーム

2

110

ULID生成速度を40倍にしたった

2

42

Amazon AuroraとMongoDBのアーキテクチャを比較してみたら結構違った件について

0

16

GitHub Custom Actionのレシピ

0

12

RustでDeepQNetworkを実装する

1

19

より良い解に辿り着くカギ-近傍設定の重要性

0

88

ルートの質を評価する指標について

0

22

Featured

See All Featured

sergeychernyshev

30

960

Build your cross-platform service in a week with App Engine

231

18k

Site-Speed That Sticks

6

570

Making the Leap to Tech Lead

133

9.3k

Building a Scalable Design System with Sketch

462

33k

GitHub's CSS Performance

1031

460k

Building an army of robots

305

45k

88

9.6k

We Have a Design System, Now What?

52

7.6k

The Art of Programming - Codeland 2020

54

13k

The Web Performance Landscape in 2024 [PerfNow 2024]

5

600

Unsuck your backbone

671

58k

Transcript

0 2025-05-09 第121回NearMe技術勉強会 Takuma KAKINOUE Rustで強化学習アルゴリズムを実装する vol3
1 今回、実装するアルゴリズム • Proximal Policy Optimization (PPO) ◦ Actor-Critic系に分類される⼿法 ◦
効率的かつ安定した学習が可能で、オンポリシーな強化学習アルゴリズムではデファクトスタンダード的な存在 ※論⽂（https://arxiv.org/abs/1707.06347） ※git (https://github.com/kakky-hacker/reinforcex) ※参考資料 →https://jp.mathworks.com/content/dam/mathworks/ebook/gated/jp-reinfor cement-learning-ebook-all-chapters.pdf
2 価値ベースと⽅策ベースの違い • 価値ベース ◦ ある状態において、ある⾏動を選択する価値を推定する ▪ 連続⾏動空間に対応できないという弱点がある • ⽅策ベース
← PPOはこっちに属する ◦ ある状態において、選択すべき⾏動の確率分布を推定する ▪ 連続⾏動空間に対応可能
3 ⽅策ベースの弱点 • 状態 → ⾏動の関数を直接モデル化するために選択する⾏動が⼤胆に変わりやすい ◦ → 学習が不安定
• PPOでは⾏動の選択確率が重みの更新前後で⼤きく変わらないようにclipする仕組みを導⼊して上記の問題を解決している！ ◦ 実装 https://github.com/kakky-hacker/reinforcex/blob/master/src/agents/p po.rs#L91
4 実装する上で詰まったところ • softmaxのlogitのスケールが⼤きすぎた ◦ logitのスケールが⼤きいほど決定論的な⾏動選択になり、探索が促進されにくくなる • logitを⼩さくするだけでは、逆に⾏動の確率分布の分散が中々⼩さくならず、学習の収束が遅い
◦ ⽬的関数に⾏動の確率分布のエントロピーも⼊れて、同時に最⼩化した ◦ https://github.com/kakky-hacker/reinforcex/blob/master/src/agents/p po.rs#L97
5 今後の展望 • 汎⽤的なよく使われるアルゴリズム（REINFORCE, DQN, PPO, SAC）は実装できたので、並列化の実装を進める • 並列化は、Rustを使う⼀番のメリットが出てくるポイント
6 Thank you

	
		OSZAR »