注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計算機/網(wǎng)絡(luò)圖形圖像、多媒體、網(wǎng)頁制作圖強化學(xué)習(xí):原理與實踐入門

圖強化學(xué)習(xí):原理與實踐入門

圖強化學(xué)習(xí):原理與實踐入門

定 價:¥69.00

作 者: 謝文杰、周煒星
出版社: 清華大學(xué)出版社
叢編項:
標(biāo) 簽: 暫缺

ISBN: 9787302655992 出版時間: 2024-03-01 包裝: 平裝-膠訂
開本: 16開 頁數(shù): 字?jǐn)?shù):  

內(nèi)容簡介

  圖強化學(xué)習(xí)是深度強化學(xué)習(xí)的重要分支領(lǐng)域。本書作為該領(lǐng)域的入門教材,在內(nèi)容上盡可能覆蓋圖強化學(xué)習(xí)的基礎(chǔ)知識,并提供應(yīng)用實踐案例。全書共 10章,大致分為三部分:第一部分(第 1~ 3章)介紹圖強化學(xué)習(xí)研究對象(復(fù)雜系統(tǒng)、圖和復(fù)雜網(wǎng)絡(luò));第二部分(第 4~7章)介紹圖強化學(xué)習(xí)基礎(chǔ)知識(圖嵌入、圖神經(jīng)網(wǎng)絡(luò)和深度強化學(xué)習(xí));第三部分(第 8~10章)介紹圖強化學(xué)習(xí)模型框架和應(yīng)用實踐案例,并進(jìn)行總結(jié)和展望。每章都附有習(xí)題并介紹了相關(guān)閱讀材料,以便有興趣的讀者進(jìn)一步深入探索。本書可作為高等院校計算機、圖數(shù)據(jù)挖掘及相關(guān)專業(yè)的本科生或研究生教材,也可供對圖強化學(xué)習(xí)感興趣的研究人員和工程技術(shù)人員閱讀參考。

作者簡介

  謝文杰,男,湖南瀏陽人,應(yīng)用數(shù)學(xué)博士,上海市晨光學(xué)者?,F(xiàn)任職華東理工大學(xué)商學(xué)院金融學(xué)系副教授、碩士研究生導(dǎo)師、金融物理研究中心成員,主要研究復(fù)雜金融網(wǎng)絡(luò)、機器學(xué)習(xí)、深度強化學(xué)習(xí)、金融風(fēng)險管理等。獲2016年度上海市自然科學(xué)獎二等獎(4/5),主持完成4項國家或省部級科研項目。周煒星,男,浙江諸暨人。青年長江學(xué)者、上海領(lǐng)軍人才、新世紀(jì)優(yōu)秀人才、上海市曙光學(xué)者、上海市青年科技啟明星?,F(xiàn)任職于華東理工大學(xué)商學(xué)院、數(shù)學(xué)學(xué)院,二級教授,博士生導(dǎo)師,金融物理研究中心主任?,F(xiàn)兼任中國優(yōu)選法統(tǒng)籌法與經(jīng)濟數(shù)學(xué)研究會理事、風(fēng)險管理分會副理事長,中國系統(tǒng)工程學(xué)會理事、金融系統(tǒng)工程專業(yè)委員會副主任,管理科學(xué)與工程學(xué)會理事、金融計量與風(fēng)險管理分會副理事長,中國工業(yè)統(tǒng)計教學(xué)研究會金融科技與大數(shù)據(jù)技術(shù)分會副理事長,中國數(shù)量經(jīng)濟學(xué)會經(jīng)濟復(fù)雜性專業(yè)委員會副理事長,中國復(fù)雜性科學(xué)學(xué)會副理事長。主要從事金融物理學(xué)、經(jīng)濟物理學(xué)和社會經(jīng)濟系統(tǒng)復(fù)雜性研究,以及相關(guān)領(lǐng)域大數(shù)據(jù)分析。

圖書目錄

第一部分  圖強化學(xué)習(xí)研究對象
第1章  圖與復(fù)雜系統(tǒng)  3
1.1  為什么是圖  3
1.1.1  圖的普遍性  3
1.1.2  圖的表示性  4
1.1.3  圖的抽象性  4
1.2  圖與復(fù)雜系統(tǒng)  5
1.2.1  復(fù)雜系統(tǒng)定義  5
1.2.2  復(fù)雜系統(tǒng)的圖表示  6
1.2.3  復(fù)雜系統(tǒng)問題與圖  7
1.3  復(fù)雜系統(tǒng)與強化學(xué)習(xí)  7
1.3.1  強化學(xué)習(xí)  8
1.3.2  智能決策  8
1.3.3  基于強化學(xué)習(xí)的智能決策  9
1.4  復(fù)雜系統(tǒng)與智能決策  9
1.4.1  復(fù)雜金融系統(tǒng)風(fēng)險管理問題  10
1.4.2  復(fù)雜社會系統(tǒng)輿情傳播和虛假信息防控問題  12
1.5  應(yīng)用實踐  12
1.5.1  圖數(shù)據(jù)集  13
1.5.2  圖可視化和分析工具  13
第1章習(xí)題  14
第2章  圖論基礎(chǔ)  15
2.1  圖論的起源  15
2.1.1  提出問題  16
2.1.2  形式化問題  16
2.1.3  求解問題  16
2.2  圖論的發(fā)展  17
2.2.1  隨機圖理論  17
2.2.2  拓?fù)鋱D論  17
2.2.3  幾何圖論  18
2.2.4  代數(shù)圖論  18
2.3  圖論的概念  18
2.3.1  圖定義  19
2.3.2  節(jié)點  19
2.3.3  連邊  19
2.3.4  鄰接矩陣  20
2.3.5  度  20
2.3.6  鄰域  20
2.3.7  途徑  21
2.3.8  最短路  22
2.3.9  帶自環(huán)圖  23
2.3.10  圈  23
2.3.11  子圖  24
2.3.12  連通分量  24
2.3.13  最大連通子圖  25
2.3.14  簡單圖  25
2.3.15  平面圖  26
2.3.16  對偶圖  26
2.3.17  樹  28
2.4  經(jīng)典圖示例  29
2.4.1  完全圖  29
2.4.2  二部圖  30
2.4.3  彼得森圖  31
2.4.4  星狀圖  31
2.4.5  網(wǎng)格圖  32
2.4.6  正十二面體圖  33
2.5  經(jīng)典問題示例  33
2.5.1  圖同構(gòu)  33
2.5.2  TSP問題  34
2.5.3  最小點覆蓋問題  35
2.5.4  最大割問題  35
2.5.5  最大獨立集問題  35
2.6  可視圖  35
2.6.1  可視圖算法  36
2.6.2  水平可視圖算法  36
2.6.3  水平可視圖度分布  37
2.6.4  有向水平可視圖度分布 39
2.7  應(yīng)用實踐  41
第2章習(xí)題  42
第3章  圖與復(fù)雜網(wǎng)絡(luò)  44
3.1  復(fù)雜網(wǎng)絡(luò)背景  44
3.1.1  復(fù)雜網(wǎng)絡(luò)簡介  44
3.1.2  復(fù)雜網(wǎng)絡(luò)簡史  45
3.1.3  復(fù)雜網(wǎng)絡(luò)應(yīng)用  45
3.1.4  復(fù)雜網(wǎng)絡(luò)分析概述  46
3.1.5  網(wǎng)絡(luò)表示  47
3.2  節(jié)點指標(biāo)  48
3.2.1  節(jié)點的度  48
3.2.2  節(jié)點的強度  49
3.2.3  聚簇系數(shù)  49
3.2.4  接近中心性  50
3.2.5  介數(shù)中心性  50
3.2.6  特性向量中心性  50
3.2.7  PageRank中心性  51
3.2.8  權(quán)威值得分和樞紐值得分  51
3.2.9  k核中心性  52
3.3  網(wǎng)絡(luò)連邊指標(biāo)  53
3.3.1  連邊權(quán)重  53
3.3.2  顯著性測度  53
3.3.3  邊介數(shù)中心性  55
3.3.4  共同鄰居數(shù)  55
3.3.5  網(wǎng)絡(luò)關(guān)系A(chǔ)damic/Adar量  56
3.3.6  網(wǎng)絡(luò)關(guān)系Resource Allocation量  56
3.4  網(wǎng)絡(luò)模體結(jié)構(gòu)  56
3.4.1  模體的定義  56
3.4.2  無向網(wǎng)絡(luò)的四元模體  56
3.4.3  有向網(wǎng)絡(luò)的三元模體  57
3.4.4  有向網(wǎng)絡(luò)三元模體與節(jié)點位置結(jié)構(gòu)  58
3.5  網(wǎng)絡(luò)模塊結(jié)構(gòu)  59
3.5.1  網(wǎng)絡(luò)模塊定義  60
3.5.2  模塊內(nèi)度  60
3.5.3  參與系數(shù)  61
3.5.4  模塊外度  61
3.5.5  模塊穩(wěn)定性  61
3.6  網(wǎng)絡(luò)全局結(jié)構(gòu)  62
3.6.1  網(wǎng)絡(luò)密度  62
3.6.2  網(wǎng)絡(luò)同配性和異配性  63
3.6.3  網(wǎng)絡(luò)穩(wěn)健性  63
3.6.4  網(wǎng)絡(luò)效率  64
3.7  復(fù)雜網(wǎng)絡(luò)分類  65
3.7.1  異質(zhì)網(wǎng)絡(luò)  65
3.7.2  多層網(wǎng)絡(luò)  66
3.7.3  多重網(wǎng)絡(luò)  66
3.7.4  超圖網(wǎng)絡(luò)  66
3.7.5  動態(tài)網(wǎng)絡(luò)  67
3.8  復(fù)雜網(wǎng)絡(luò)任務(wù)  68
3.8.1  節(jié)點任務(wù)  68
3.8.2  網(wǎng)絡(luò)連邊任務(wù)  68
3.8.3  全局網(wǎng)絡(luò)任務(wù)  69
3.9  復(fù)雜網(wǎng)絡(luò)生成  69
3.9.1  隨機網(wǎng)絡(luò)模型  69
3.9.2  隨機模塊模型  70
3.9.3  優(yōu)先連接模型  72
3.9.4  同質(zhì)性偏好連接模型  73
3.9.5  異質(zhì)性或互補性偏好連接模型  74
3.9.6  機器學(xué)習(xí)或智能算法類模型  74
3.10  網(wǎng)絡(luò)建模實例  74
3.10.1  效用函數(shù)  75
3.10.2  成本函數(shù)  76
3.10.3  決策函數(shù)  77
3.11  應(yīng)用實踐  79
第3章習(xí)題  81
第二部分  圖強化學(xué)習(xí)基礎(chǔ)知識
第4章  圖嵌入與網(wǎng)絡(luò)嵌入  85
4.1  圖的特征表示  85
4.1.1  多尺度圖特征表示  85
4.1.2  如何表示復(fù)雜系統(tǒng)  86
4.1.3  如何表示復(fù)雜圖或復(fù)雜網(wǎng)絡(luò)  86
4.1.4  如何表示圖節(jié)點  86
4.1.5  如何表示圖連邊  87
4.1.6  多層次的圖特征表示方法  87
4.2  圖與機器學(xué)習(xí)  88
4.2.1  機器學(xué)習(xí)簡介  88
4.2.2  機器學(xué)習(xí)分類  88
4.3  機器學(xué)習(xí)框架  89
4.3.1  框架簡介  89
4.3.2  目標(biāo)函數(shù)  89
4.3.3  優(yōu)化參數(shù)  90
4.4  自編碼器框架  90
4.4.1  自編碼器模型介紹  90
4.4.2  簡單應(yīng)用  91
4.5  機器學(xué)習(xí)模型  91
4.5.1  典型的數(shù)據(jù)類型  92
4.5.2  多層感知機網(wǎng)絡(luò)  92
4.5.3  卷積神經(jīng)網(wǎng)絡(luò)  92
4.5.4  循環(huán)神經(jīng)網(wǎng)絡(luò)  94
4.6  圖表示學(xué)習(xí)  94
4.6.1  圖表示學(xué)習(xí)的一般框架  94
4.6.2  編碼-解碼框架  95
4.6.3  編碼器  95
4.6.4  解碼器  96
4.6.5  模型優(yōu)化  97
4.7  基于矩陣分解的圖嵌入  97
4.7.1  圖分解方法  98
4.7.2  GraRep方法  98
4.7.3  HOPE方法  99
4.8  基于隨機游走的圖嵌入  99
4.8.1  DeepWalk算法  99
4.8.2  Node2Vec方法  102
4.9  可解釋性圖嵌入  104
4.9.1  問題背景介紹  105
4.9.2  天然氣貿(mào)易決策模型  105
4.9.3  效用函數(shù)  106
4.9.4  收益函數(shù)  106
4.9.5  成本函數(shù)  106
4.9.6  機器學(xué)習(xí)模型損失函數(shù)  107
4.9.7  模型優(yōu)化  108
4.10  應(yīng)用實踐  108
第4章習(xí)題  109
第5章  圖神經(jīng)網(wǎng)絡(luò)  110
5.1  圖神經(jīng)網(wǎng)絡(luò)介紹  110
5.2  圖神經(jīng)網(wǎng)絡(luò)特征  111
5.2.1  圖數(shù)據(jù)特征  111
5.2.2  端到端學(xué)習(xí)特征  112
5.2.3  歸納學(xué)習(xí)特征  112
5.3  圖神經(jīng)網(wǎng)絡(luò)框架  113
5.3.1  圖神經(jīng)網(wǎng)絡(luò)框架簡介  113
5.3.2  消息傳遞神經(jīng)網(wǎng)絡(luò)框架  113
5.3.3  鄰域信息匯聚函數(shù)  114
5.3.4  信息更新函數(shù)  114
5.3.5  圖信息池化函數(shù)  115
5.4  圖卷積神經(jīng)網(wǎng)絡(luò)  115
5.4.1  譜圖理論介紹 115
5.4.2  拉普拉斯矩陣定義  116
5.4.3  隨機游走歸一化拉普拉斯矩陣  116
5.4.4  對稱歸一化拉普拉斯矩陣  116
5.4.5  拉普拉斯矩陣簡單應(yīng)用  117
5.4.6  圖信號處理  118
5.4.7  圖傅里葉變換  118
5.4.8  圖傅里葉逆變換  119
5.4.9  圖濾波器  120
5.4.10  圖譜濾波  121
5.4.11  K階截斷多項式濾波算子  123
5.4.12  切比雪夫多項式濾波算子  124
5.4.13  圖卷積神經(jīng)網(wǎng)絡(luò)  125
5.5  圖注意力神經(jīng)網(wǎng)絡(luò)  127
5.5.1  注意力機制簡介  127
5.5.2  基于注意力機制的信息匯聚函數(shù)  127
5.5.3  多頭注意力模型框架  129
5.6  圖網(wǎng)絡(luò)  129
5.6.1  更新連邊信息  130
5.6.2  匯聚連邊信息  130
5.6.3  更新節(jié)點信息  130
5.6.4  匯聚全局信息  130
5.7  應(yīng)用實踐 131
第5章習(xí)題  133
第6章  強化學(xué)習(xí)基礎(chǔ)  134
6.1  強化學(xué)習(xí)背景  134
6.1.1  強化學(xué)習(xí)與圖神經(jīng)網(wǎng)絡(luò)  135
6.1.2  強化學(xué)習(xí)與序貫決策問題  135
6.1.3  強化學(xué)習(xí)求解序貫決策問題  135
6.1.4  強化學(xué)習(xí)特征  136
6.2  強化學(xué)習(xí)與圖  136
6.2.1  圖上決策問題  136
6.2.2  強化學(xué)習(xí)與圖上決策問題  137
6.3  強化學(xué)習(xí)概念  138
6.3.1  馬爾可夫決策過程  138
6.3.2  狀態(tài)和狀態(tài)空間  139
6.3.3  動作和動作空間  139
6.3.4  狀態(tài)轉(zhuǎn)移函數(shù)  140
6.3.5  即時回報函數(shù)  140
6.3.6  回報折扣系數(shù)  140
6.3.7  策略函數(shù)  141
6.3.8  狀態(tài)值函數(shù)  141
6.3.9  狀態(tài)--動作值函數(shù)  142
6.4  蒙特卡洛方法  142
6.4.1  蒙特卡洛采樣  143
6.4.2  狀態(tài)值函數(shù)估計  143
6.4.3  狀態(tài)--動作值函數(shù)估計  143
6.4.4  值函數(shù)增量更新方法  144
6.4.5  蒙特卡洛強化學(xué)習(xí)偽代碼  146
6.5  時序差分學(xué)習(xí)  147
6.5.1  時序差分簡介  148
6.5.2  Q--learning算法簡介  149
6.5.3  Q--learning算法偽代碼  150
6.5.4  SARSA算法簡介  151
6.5.5  SARSA算法偽代碼  151
6.5.6  SARSA與Q--learning對比分析  152
6.6  策略梯度方法  153
6.6.1  軌跡概率  153
6.6.2  策略梯度  154
6.6.3  目標(biāo)函數(shù)  154
6.6.4  蒙特卡洛策略梯度算法  155
6.6.5  REINFORCE算法偽代碼  156
6.7  強化學(xué)習(xí)分類  156
6.7.1  值函數(shù)方法和策略函數(shù)方法  157
6.7.2  On-policy 和 Off-policy強化學(xué)習(xí)  157
6.7.3  Online 和 Offline強化學(xué)習(xí)  157
6.7.4  Model-based 和 Model-free強化學(xué)習(xí)  157
6.8  應(yīng)用實踐  158
6.8.1  狀態(tài)空間  158
6.8.2  動作空間  159
6.8.3  狀態(tài)轉(zhuǎn)換  159
6.8.4  即時獎勵  159
6.8.5  折扣系數(shù)  160
6.8.6  狀態(tài)價值函數(shù)  160
6.8.7  最優(yōu)策略函數(shù)  161
第6章習(xí)題  161
第7章  深度強化學(xué)習(xí)  163
7.1  深度強化學(xué)習(xí)背景  163
7.1.1  深度學(xué)習(xí)  163
7.1.2  深度強化學(xué)習(xí)  164
7.2  深度Q網(wǎng)絡(luò)方法  165
7.2.1  Q表格  165
7.2.2  軌跡采樣  165
7.2.3  深度神經(jīng)網(wǎng)絡(luò)近似策略函數(shù)  166
7.2.4  TD目標(biāo)  167
7.2.5  TD誤差  167
7.2.6  目標(biāo)函數(shù)  167
7.2.7  目標(biāo)函數(shù)梯度  168
7.2.8  深度神經(jīng)網(wǎng)絡(luò)參數(shù)更新  168
7.2.9  最優(yōu)策略  169
7.3  深度Q網(wǎng)絡(luò)算法關(guān)鍵技術(shù)  169
7.3.1  -貪心策略  169
7.3.2  目標(biāo)網(wǎng)絡(luò)  170
7.3.3  經(jīng)驗回放  170
7.3.4  DQN算法偽代碼  170
7.4  深度Q網(wǎng)絡(luò)算法面臨的挑戰(zhàn)  171
7.4.1  離策略  172
7.4.2  自舉  172
7.4.3  函數(shù)近似  172
7.5  深度策略梯度方法  172
7.5.1  深度Q神經(jīng)網(wǎng)絡(luò)算法的局限  172
7.5.2  深度策略梯度算法簡介  173
7.6  深度策略梯度算法關(guān)鍵技術(shù)  174
7.6.1  策略梯度估計  174
7.6.2  策略函數(shù)參數(shù)更新  175
7.6.3  優(yōu)勢函數(shù)估計  175
7.6.4  狀態(tài)值函數(shù)估計  176
7.6.5  深度策略梯度算法偽代碼  177
7.7  行動者--評論家方法  178
7.7.1  AC(Actor--Critic)算法簡介  178
7.7.2  A2C算法簡介  178
7.7.3  A2C算法偽代碼  179
7.8  應(yīng)用與實踐的通用框架  180
7.8.1  馬爾可夫決策過程模型  180
7.8.2  狀態(tài)空間  181
7.8.3  動作空間  181
7.8.4  狀態(tài)轉(zhuǎn)移函數(shù)  181
7.8.5  即時獎勵函數(shù)  181
7.8.6  折扣系數(shù)  182
7.9  基于策略梯度算法的應(yīng)用與實踐  182
7.9.1  復(fù)雜環(huán)境模型  182
7.9.2  深度學(xué)習(xí)模型  182
7.9.3  深度強化學(xué)習(xí)算法  183
7.9.4  智能體模型  185
7.9.5  深度強化學(xué)習(xí)模型訓(xùn)練結(jié)果  186
7.10  基于深度Q網(wǎng)絡(luò)算法的應(yīng)用與實踐  187
7.10.1  游戲環(huán)境狀態(tài)空間  187
7.10.2  智能體動作空間  188
7.10.3  游戲即時獎勵  188
7.10.4  游戲狀態(tài)轉(zhuǎn)移模型  189
7.10.5  游戲環(huán)境模型  189
7.10.6  游戲策略模型  189
7.10.7  深度強化學(xué)習(xí)算法  189
7.10.8  模型訓(xùn)練分析  190
7.10.9  模型結(jié)果分析  191
7.10.10  模型改進(jìn)分析  192
第7章習(xí)題 194
第三部分  圖強化學(xué)習(xí)模型框架和應(yīng)用實踐
第8章  圖強化學(xué)習(xí)基礎(chǔ)  197
8.1  圖強化學(xué)習(xí)背景  197
8.1.1  多學(xué)科交叉融合  197
8.1.2  多學(xué)科關(guān)聯(lián)關(guān)系圖  198
8.1.3  圖與網(wǎng)絡(luò)的基礎(chǔ)理論和方法  199
8.1.4  圖與機器學(xué)習(xí)的基礎(chǔ)理論和方法  199
8.1.5  圖神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)理論和方法  199
8.1.6  深度強化學(xué)習(xí)的基礎(chǔ)理論和方法  199
8.2  圖神經(jīng)網(wǎng)絡(luò)和強化學(xué)習(xí)  200
8.2.1  圖神經(jīng)網(wǎng)絡(luò)和強化學(xué)習(xí)的融合  200
8.2.2  圖強化學(xué)習(xí)和強化學(xué)習(xí)的區(qū)別  201
8.2.3  圖神經(jīng)網(wǎng)絡(luò)提升強化學(xué)習(xí)性能  201
8.2.4  強化學(xué)習(xí)提升圖神經(jīng)網(wǎng)絡(luò)性能  202
8.3  圖強化學(xué)習(xí)模型概要  202
8.3.1  復(fù)雜系統(tǒng)  203
8.3.2  環(huán)境模型  203
8.3.3  圖和網(wǎng)絡(luò)  203
8.3.4  深度神經(jīng)網(wǎng)絡(luò)  203
8.3.5  深度強化學(xué)習(xí)  204
8.3.6  優(yōu)化算法  204
8.3.7  圖強化學(xué)習(xí)框架概要  205
8.4  圖強化學(xué)習(xí)框架硬件層  206
8.4.1  中央處理器  206
8.4.2  圖形處理器  206
8.4.3  張量處理器  206
8.4.4  其他處理器  207
8.5  圖強化學(xué)習(xí)框架平臺層  207
8.5.1  深度學(xué)習(xí)平臺簡介  207
8.5.2  深度學(xué)習(xí)平臺:TensorFlow  207
8.5.3  深度學(xué)習(xí)平臺:PyTorch  208
8.5.4  深度學(xué)習(xí)其他平臺  208
8.6  圖強化學(xué)習(xí)框架算法層  208
8.6.1  深度強化學(xué)習(xí)框架簡介  209
8.6.2  深度強化學(xué)習(xí)框架:Stable--baselines  209
8.6.3  深度強化學(xué)習(xí)框架:Reinforcement Learning Coach  210
8.6.4  深度圖神經(jīng)網(wǎng)絡(luò)框架簡介  210
8.6.5  深度圖神經(jīng)網(wǎng)絡(luò)框架:PyTorch Geometric  210
8.6.6  深度圖神經(jīng)網(wǎng)絡(luò)框架:Deep Graph Library  211
8.7  圖強化學(xué)習(xí)框架應(yīng)用層  211
8.8  圖強化學(xué)習(xí)建模  211
8.8.1  圖強化學(xué)習(xí)與馬爾可夫決策過程  211
8.8.2  圖強化學(xué)習(xí)建模流程  212
8.8.3  問題提出  212
8.8.4  環(huán)境建模  213
8.8.5  智能體建模  213
8.8.6  模型訓(xùn)練  214
8.8.7  模型測試  214
8.9  應(yīng)用實踐  214
8.9.1  深度強化學(xué)習(xí)模塊  214
8.9.2  圖神經(jīng)網(wǎng)絡(luò)模塊  215
8.9.3  其他圖神經(jīng)網(wǎng)絡(luò)模塊  217
第8章習(xí)題  218
第9章  圖強化學(xué)習(xí)應(yīng)用  219
9.1  圖強化學(xué)習(xí)模型框架  219
9.2  圖強化學(xué)習(xí)模塊概述  220
9.2.1  復(fù)雜環(huán)境模塊  221
9.2.2  圖神經(jīng)網(wǎng)絡(luò)模塊  221
9.2.3  強化學(xué)習(xí)模塊  221
9.2.4  智能體模塊  221
9.2.5  工具類模塊  222
9.2.6  其他模塊  222
9.3  復(fù)雜環(huán)境模塊  222
9.3.1  環(huán)境模塊定義  222
9.3.2  環(huán)境模塊定義代碼  222
9.3.3  基于圖的環(huán)境模塊定義  224
9.3.4  基于圖的環(huán)境模塊重置定義  224
9.3.5  基于圖的環(huán)境狀態(tài)轉(zhuǎn)移定義  224
9.4  圖神經(jīng)網(wǎng)絡(luò)模塊  225
9.4.1  圖神經(jīng)網(wǎng)絡(luò)模型選擇  225
9.4.2  圖神經(jīng)網(wǎng)絡(luò)模塊代碼示例  225
9.4.3  圖神經(jīng)網(wǎng)絡(luò)模塊代碼解析  226
9.5  強化學(xué)習(xí)模塊  227
9.5.1  強化學(xué)習(xí)算法選擇  227
9.5.2  強化學(xué)習(xí)算法示例代碼  227
9.5.3  強化學(xué)習(xí)算法示例代碼解析  228
9.6  智能體模塊  229
9.6.1  智能體模塊示例代碼  229
9.6.2  智能體模塊示例代碼解析  230
9.6.3  模型訓(xùn)練結(jié)果  231
9.7  工具類模塊  232
9.8  圖強化學(xué)習(xí)模型改進(jìn)  232
9.8.1  模型改進(jìn)目標(biāo)  233
9.8.2  模型改進(jìn)方向  233
9.8.3  圖神經(jīng)網(wǎng)絡(luò)模型改進(jìn)代碼示例  234
9.8.4  圖神經(jīng)網(wǎng)絡(luò)模塊代碼解析  234
9.8.5  強化學(xué)習(xí)算法改進(jìn)  234
第9章習(xí)題  235
第10章  圖強化學(xué)習(xí)展望  237
10.1  圖強化學(xué)習(xí)概括  237
10.1.1  方法的起源  237
10.1.2  方法的發(fā)展  238
10.1.3  層次關(guān)系  238
10.2  圖強化學(xué)習(xí)特色  238
10.2.1  學(xué)科交叉性  239
10.2.2  系統(tǒng)復(fù)雜性  239
10.2.3  框架普適性  239
10.3  圖數(shù)據(jù)分析方法  239
10.3.1  數(shù)值分析方法  240
10.3.2  仿真模擬方法  240
10.3.3  優(yōu)化方法  241
10.3.4  數(shù)據(jù)驅(qū)動方法  241
10.3.5  圖強化學(xué)習(xí)方法  241
10.4  圖強化學(xué)習(xí)應(yīng)用  242
10.4.1  網(wǎng)絡(luò)關(guān)鍵節(jié)點識別  242
10.4.2  網(wǎng)絡(luò)關(guān)鍵連邊識別  242
10.4.3  知識圖譜  243
10.4.4  組合優(yōu)化  243
10.5  圖神經(jīng)網(wǎng)絡(luò)展望  243
10.5.1  人工智能的新引擎  243
10.5.2  圖神經(jīng)網(wǎng)絡(luò)進(jìn)展  244
10.5.3  圖神經(jīng)網(wǎng)絡(luò)的可解釋性  244
10.6  深度強化學(xué)習(xí)展望  245
10.6.1  自動強化學(xué)習(xí)  246
10.6.2  分層強化學(xué)習(xí)  246
10.6.3  多智能體強化學(xué)習(xí)  246
10.7  圖強化學(xué)習(xí)前沿領(lǐng)域  247
10.7.1  圖上的組合優(yōu)化  247
10.7.2  圖理論應(yīng)用的前沿  247
10.7.3  交叉研究的前沿  248
10.8  人工智能三大學(xué)派融合  248
10.8.1  人工智能的三大學(xué)派  248
10.8.2  圖強化學(xué)習(xí)融合三大學(xué)派  249
第10章習(xí)題  250
 

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) leeflamesbasketballcamps.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號