注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)操作系統(tǒng)深度強(qiáng)化學(xué)習(xí)原理與實(shí)踐

深度強(qiáng)化學(xué)習(xí)原理與實(shí)踐

深度強(qiáng)化學(xué)習(xí)原理與實(shí)踐

定 價(jià):¥59.00

作 者: 陳喆
出版社: 清華大學(xué)出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

ISBN: 9787302660705 出版時(shí)間: 2024-05-01 包裝: 平裝-膠訂
開本: 16開 頁數(shù): 字?jǐn)?shù):  

內(nèi)容簡介

  本書從原理的角度,力求講解清楚深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、深度強(qiáng)化學(xué)習(xí)中的一些精選方法,并從實(shí)踐的角度,通過一系列循序漸進(jìn)的原創(chuàng)實(shí)驗(yàn),引領(lǐng)讀者獨(dú)立編程實(shí)現(xiàn)這些方法,以期為讀者精通深度強(qiáng)化學(xué)習(xí)并應(yīng)用深度強(qiáng)化學(xué)習(xí)方法解決實(shí)際問題奠定堅(jiān)實(shí)基礎(chǔ)。本書不僅適合計(jì)算機(jī)科學(xué)與技術(shù)、人工智能、物聯(lián)網(wǎng)工程、數(shù)據(jù)科學(xué)與大數(shù)據(jù)、軟件工程、通信工程、電子信息、機(jī)器人工程、自動化、智能制造等相關(guān)專業(yè)高年級本科生及研究生教學(xué)與自學(xué)使用,也適合機(jī)器學(xué)習(xí)等領(lǐng)域的從業(yè)者、科研人員及愛好者自學(xué)與參考使用。

作者簡介

暫缺《深度強(qiáng)化學(xué)習(xí)原理與實(shí)踐》作者簡介

圖書目錄

第1章引言1
1.1深度強(qiáng)化學(xué)習(xí)及其簡史1
1.2深度強(qiáng)化學(xué)習(xí)的應(yīng)用領(lǐng)域3
1.3深度強(qiáng)化學(xué)習(xí)方法的實(shí)現(xiàn)4
1.3.1NumPy庫和Matplotlib庫4
1.3.2PyTorch框架7
1.4本章實(shí)驗(yàn)解析11
1.5本書各章聯(lián)系14
1.6本章小結(jié)14
1.7思考與練習(xí)15
第2章從神經(jīng)網(wǎng)絡(luò)到深度學(xué)習(xí)16
2.1神經(jīng)網(wǎng)絡(luò)回顧16
2.1.1神經(jīng)網(wǎng)絡(luò)的推測過程17
2.1.2神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程18
2.1.3神經(jīng)網(wǎng)絡(luò)實(shí)踐23
2.2從神經(jīng)網(wǎng)絡(luò)到深度神經(jīng)網(wǎng)絡(luò)26
2.3深度神經(jīng)網(wǎng)絡(luò)29
2.3.1深度神經(jīng)網(wǎng)絡(luò)的推測過程29
2.3.2深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程30
2.3.3反向模式自動微分34
2.3.4深度神經(jīng)網(wǎng)絡(luò)實(shí)踐及分析35
2.4卷積神經(jīng)網(wǎng)絡(luò)37
2.4.1卷積層和合并層38
2.4.2卷積神經(jīng)網(wǎng)絡(luò)實(shí)踐41
2.5循環(huán)神經(jīng)網(wǎng)絡(luò)42
2.6本章實(shí)驗(yàn)解析45
2.7本章小結(jié)51
2.8思考與練習(xí)52第3章強(qiáng)化學(xué)習(xí)基礎(chǔ)53
3.1強(qiáng)化學(xué)習(xí)概述53
3.1.1多老虎機(jī)問題53
3.1.2利用與探索57
3.1.3強(qiáng)化學(xué)習(xí)的要素58
3.2有限馬爾可夫決策過程59
3.2.1狀態(tài)與馬爾可夫性59
3.2.2什么是有限馬爾可夫決策過程60
3.2.3收益與策略63
3.3求解MDP65
3.3.1貝爾曼方程與貝爾曼最優(yōu)方程65
3.3.2價(jià)值迭代69
3.3.3策略評估74
3.3.4策略迭代77
3.3.5廣義策略迭代82
3.4本章實(shí)驗(yàn)解析85
3.5本章小結(jié)90
3.6思考與練習(xí)90
深度強(qiáng)化學(xué)習(xí)原理與實(shí)踐目錄第4章行動價(jià)值方法92
4.1行動價(jià)值與最優(yōu)行動價(jià)值92
4.1.1行動價(jià)值92
4.1.2最優(yōu)行動價(jià)值96
4.2蒙特卡洛方法99
4.3Q學(xué)習(xí)107
4.4DynaQ114
4.5使用監(jiān)督學(xué)習(xí)方法推測最優(yōu)行動價(jià)值的極限值118
4.6使用深度神經(jīng)網(wǎng)絡(luò)推測最優(yōu)行動價(jià)值的極限值124
4.7本章實(shí)驗(yàn)解析129
4.8本章小結(jié)136
4.9思考與練習(xí)136
第5章策略梯度方法138
5.1策略梯度基本方法138
5.2蒙特卡洛策略梯度方法142
5.2.1各個(gè)行動的蒙特卡洛策略梯度方法142
5.2.2單個(gè)行動的蒙特卡洛策略梯度方法147
5.2.3平移的蒙特卡洛策略梯度方法149
5.3行動評價(jià)方法154
5.4不完全觀測160
5.5本章實(shí)驗(yàn)解析163
5.6本章小結(jié)168
5.7思考與練習(xí)169
附錄A實(shí)驗(yàn)參考程序及注釋171
參考文獻(xiàn)231

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) www.leeflamesbasketballcamps.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號