全書分為三個部分:?第1章:從零開始介紹強化學習的背景知識,介紹環(huán)境庫Gym的使用。?第2~15章:基于折扣獎勵離散時間Markov決策過程模型,介紹強化學習的主干理論和常見算法。采用數學語言推導強化學習的基礎理論,進而在理論的基礎上講解算法,并為算法提供配套代碼實現?;A理論的講解突出主干部分,算法講解全面覆蓋主流的強化學習算法,包括經典的非深度強化學習算法和近年流行的強化學習算法。Python實現和算法講解一一對應,對于深度強化學習算法還給出了基于TensorFlow 2和PyTorch 1的對照實現。?第16章:介紹其他強化學習模型,包括平均獎勵模型、連續(xù)時間模型、非齊次模型,半Markov模型、部分可觀測模型等,以便更好了解強化學習研究的全貌。