課程描述INTRODUCTION
強(qiang)化學(xue)(xue)(xue)習是(shi)當前最熱門的(de)(de)(de)研究方向之一,廣(guang)泛(fan)應用于機器(qi)人(ren)學(xue)(xue)(xue)、電(dian)子競技等(deng)領域(yu)。本課程系(xi)統(tong)性的(de)(de)(de)介(jie)紹了(le)強(qiang)化學(xue)(xue)(xue)習(深度(du)強(qiang)化學(xue)(xue)(xue)習)的(de)(de)(de)基本理論和關(guan)鍵算(suan)法(fa),包括(kuo):馬爾科夫(fu)決策(ce)過程、動態(tai)規劃法(fa)、蒙(meng)特卡羅法(fa)、時間差(cha)分法(fa)、值函數逼(bi)近法(fa),策(ce)略梯度(du)法(fa)等(deng);以及(ji)該領域(yu)的(de)(de)(de)*前沿發展,包括(kuo):DQN及(ji)其變種、信賴域(yu)系(xi)方法(fa)、Actor-Critic類方法(fa)、多(duo)Agent深度(du)強(qiang)化學(xue)(xue)(xue)習等(deng);同時也(ye)介(jie)紹大(da)量的(de)(de)(de)實際案例,包括(kuo)深度(du)強(qiang)化學(xue)(xue)(xue)習中最*的(de)(de)(de)工程應用:Alpha Go。
日程安排SCHEDULE
課程大綱Syllabus
強化學習課程
第一天 強化學習
第一課 強化學習綜述
1.強化學習要解決的問題
2.強化學習方法的分類
3.強化學習方法的發展趨勢
4.環境搭建實驗(Gym,TensorFlow等)
5.Gym環境的基本使(shi)用方法
第二課 馬爾科夫決策過程
1.基本概念:馬爾科夫性、馬爾科夫過程、馬爾科夫決策過程
2.MDP基本元素:策略、回報、值函數、狀態行為值函數
3.貝爾曼方程
4.最優策略
案(an)例:構建機器人找金幣和迷宮(gong)的環(huan)境
第三課 基于模型的動態規劃方法
1.動態規劃概念介紹
2.策略評估過程介紹
3.策略改進方法介紹
4.策略迭代和值迭代
案(an)例(li):實現基(ji)于模型的(de)強(qiang)化學習算(suan)法
第四課 蒙特卡羅方法
1.蒙特卡羅策略評估
2.蒙特卡羅策略改進
3.基于蒙特卡羅的強化學習
4.同策略和異策略
案例(li):利(li)用蒙特卡(ka)羅方法實現(xian)機器人找金(jin)幣和迷宮
第五課 時序差分方法
1.DP,MC和TD方法比較
2.MC和TD方法偏差與方差平衡
3.同策略TD方法:Sarsa 方法
4.異策略TD方法:Q-learning 方法
案例(li):Q-learning和(he)Sarsa的(de)實(shi)現
第二天 從強化學習到深度強化學習
第一課 基于值函數逼近方法(強化學習)
1.維數災難與表格型強化學習
2.值函數的參數化表示
3.值函數的估計過程
4.常用(yong)的(de)基函(han)數(shu)
第二課 基于值函數逼近方法(深度學習與強化學習的結合)
1.簡單提一下深度學習
2.深度學習與強化學習的結合
3.DQN 方法介紹
4.DQN變種:Double DQN, Prioritized Replay, Dueling Network
案例:用DQN玩游戲——flappy bird
第三課 策略梯度方法(強化學習)
1.策略梯度方法介紹
2.常見的策略表示
3.常見的減小方差的方法:引入基函數法,修改估計值函數法
案(an)例:利(li)用(yong)gym和tensorflow實現小車(che)倒立擺系統等(deng)
第四課 Alpha Go(深度學習與強化學習的結合)
1.MCTS
2.策略網絡與價值網絡
3.Alpha Go的完整架構
第五課 GAN(深度學習)
1.VAE與基本GAN
2.DCGAN
3.WGAN
案例(li):生成手寫數字的GAN
第三天 深度強化學習進階
第一課 AC類方法-1
1. PG的問題與AC的思路
2. AC類方法的發展歷程
3. Actor-Critic基本原理
第二課 AC類方法-2
1. DPG方法
2. DDPG方法
3. A3C方法
案(an)例:AC類方法的案(an)例
第三課 信賴域系方法-1
1.信賴域系方法背景
2.信賴域系方法發展路線圖
3.TRPO方法
案(an)例(li):TRPO方法的(de)案(an)例(li)
第四課 信賴域系方法-2
1.PPO方法
2.DPPO方法簡介
3.ACER方法
案(an)例:PPO方法的案(an)例
第五課 多Agent強化學習
1.矩陣博弈
2.納什均衡
3.多人隨機博弈學習
4.完全合作、完全競爭與混合任務
5.MADDPG
案(an)例:MADDPG的案(an)例等(deng)
強化學習課程
轉載://bamboo-vinegar.cn/gkk_detail/65029.html
已開課時(shi)間Have start time
- 葉梓
其它課程公開培訓班
- 勝任力模型建構與應用 陸老師
- 土地一級開發、PPP合作模
- 完美合同-采購及銷售人員合 田老師
- 80、90后員工職業素養提 張(zhang)金(jin)洋
- You&Number生命密 鐘(zhong)繕夤
- “智能樓宇管理師”國家職業 培訓專
- “公共營養師、健康管理師” 培訓專
- “理財規劃師”國家職業資格 培訓專
- “汽車修理工(一級)”國家 培訓專
- “二手車鑒定評估師”國家職 培訓專
- 結構化思維—高效人士的思考 姚蘇陽
- NPI-新產品導入 王老師
其它課程內訓
- 《社會研究方法及其應用》 孫海濤
- 銀行在不良貸款清收過程中需 林謙
- 總裁夫人班:夫妻共修與子女 余(yu)世維(wei)
- 酒店OTA運營與收益管理實 徐老師
- 基金從業人員資格考試考前精 邱(qiu)明
- 白酒品鑒與白酒文化 檀嫻穎
- 《智能協作提效:Copil 黃林
- 品味涵養提升(紅酒+白酒) 肖(xiao)珂
- 復盤——在工作中學習和成長 李(li)巖偉
- 講文明樹新風 李進麗
- 《職業衛生體系》 付強
- 當前形勢下商業銀行合規風險 林(lin)謙