123,123

內(nèi)容簡(jiǎn)介

　　本書從原理的角度，力求講解清楚深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、深度強(qiáng)化學(xué)習(xí)中的一些精選方法，并從實(shí)踐的角度，通過一系列循序漸進(jìn)的原創(chuàng)實(shí)驗(yàn)，引領(lǐng)讀者獨(dú)立編程實(shí)現(xiàn)這些方法，以期為讀者精通深度強(qiáng)化學(xué)習(xí)并應(yīng)用深度強(qiáng)化學(xué)習(xí)方法解決實(shí)際問題奠定堅(jiān)實(shí)基礎(chǔ)。本書不僅適合計(jì)算機(jī)科學(xué)與技術(shù)、人工智能、物聯(lián)網(wǎng)工程、數(shù)據(jù)科學(xué)與大數(shù)據(jù)、軟件工程、通信工程、電子信息、機(jī)器人工程、自動(dòng)化、智能制造等相關(guān)專業(yè)高年級(jí)本科生及研究生教學(xué)與自學(xué)使用，也適合機(jī)器學(xué)習(xí)等領(lǐng)域的從業(yè)者、科研人員及愛好者自學(xué)與參考使用。

作者簡(jiǎn)介

暫缺《深度強(qiáng)化學(xué)習(xí)原理與實(shí)踐》作者簡(jiǎn)介

圖書目錄

第1章引言1
1.1深度強(qiáng)化學(xué)習(xí)及其簡(jiǎn)史1
1.2深度強(qiáng)化學(xué)習(xí)的應(yīng)用領(lǐng)域3
1.3深度強(qiáng)化學(xué)習(xí)方法的實(shí)現(xiàn)4
1.3.1NumPy庫(kù)和Matplotlib庫(kù)4
1.3.2PyTorch框架7
1.4本章實(shí)驗(yàn)解析11
1.5本書各章聯(lián)系14
1.6本章小結(jié)14
1.7思考與練習(xí)15
第2章從神經(jīng)網(wǎng)絡(luò)到深度學(xué)習(xí)16
2.1神經(jīng)網(wǎng)絡(luò)回顧16
2.1.1神經(jīng)網(wǎng)絡(luò)的推測(cè)過程17
2.1.2神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程18
2.1.3神經(jīng)網(wǎng)絡(luò)實(shí)踐23
2.2從神經(jīng)網(wǎng)絡(luò)到深度神經(jīng)網(wǎng)絡(luò)26
2.3深度神經(jīng)網(wǎng)絡(luò)29
2.3.1深度神經(jīng)網(wǎng)絡(luò)的推測(cè)過程29
2.3.2深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程30
2.3.3反向模式自動(dòng)微分34
2.3.4深度神經(jīng)網(wǎng)絡(luò)實(shí)踐及分析35
2.4卷積神經(jīng)網(wǎng)絡(luò)37
2.4.1卷積層和合并層38
2.4.2卷積神經(jīng)網(wǎng)絡(luò)實(shí)踐41
2.5循環(huán)神經(jīng)網(wǎng)絡(luò)42
2.6本章實(shí)驗(yàn)解析45
2.7本章小結(jié)51
2.8思考與練習(xí)52第3章強(qiáng)化學(xué)習(xí)基礎(chǔ)53
3.1強(qiáng)化學(xué)習(xí)概述53
3.1.1多老虎機(jī)問題53
3.1.2利用與探索57
3.1.3強(qiáng)化學(xué)習(xí)的要素58
3.2有限馬爾可夫決策過程59
3.2.1狀態(tài)與馬爾可夫性59
3.2.2什么是有限馬爾可夫決策過程60
3.2.3收益與策略63
3.3求解MDP65
3.3.1貝爾曼方程與貝爾曼最優(yōu)方程65
3.3.2價(jià)值迭代69
3.3.3策略評(píng)估74
3.3.4策略迭代77
3.3.5廣義策略迭代82
3.4本章實(shí)驗(yàn)解析85
3.5本章小結(jié)90
3.6思考與練習(xí)90
深度強(qiáng)化學(xué)習(xí)原理與實(shí)踐目錄第4章行動(dòng)價(jià)值方法92
4.1行動(dòng)價(jià)值與最優(yōu)行動(dòng)價(jià)值92
4.1.1行動(dòng)價(jià)值92
4.1.2最優(yōu)行動(dòng)價(jià)值96
4.2蒙特卡洛方法99
4.3Q學(xué)習(xí)107
4.4DynaQ114
4.5使用監(jiān)督學(xué)習(xí)方法推測(cè)最優(yōu)行動(dòng)價(jià)值的極限值118
4.6使用深度神經(jīng)網(wǎng)絡(luò)推測(cè)最優(yōu)行動(dòng)價(jià)值的極限值124
4.7本章實(shí)驗(yàn)解析129
4.8本章小結(jié)136
4.9思考與練習(xí)136
第5章策略梯度方法138
5.1策略梯度基本方法138
5.2蒙特卡洛策略梯度方法142
5.2.1各個(gè)行動(dòng)的蒙特卡洛策略梯度方法142
5.2.2單個(gè)行動(dòng)的蒙特卡洛策略梯度方法147
5.2.3平移的蒙特卡洛策略梯度方法149
5.3行動(dòng)評(píng)價(jià)方法154
5.4不完全觀測(cè)160
5.5本章實(shí)驗(yàn)解析163
5.6本章小結(jié)168
5.7思考與練習(xí)169
附錄A實(shí)驗(yàn)參考程序及注釋171
參考文獻(xiàn)231