123,123

內容簡介

　　這是一本講述如何用NLP技術進行文本內容理解的著作，也是一本系統(tǒng)講解NLP算法的著作，是作者在NLP和內容理解領域多年經驗的總結。本書結合內容理解的實際業(yè)務場景，系統(tǒng)全面、循序漸進地講解了各種NLP算法以及如何用這些算法高效地解決內容理解方面的難題，主要包括如下幾個方面的內容：（1）文本特征表示文本特征表示是NLP的基石，也是內容理解的基礎環(huán)節(jié)，本書詳細講解了離散型表示方法和分布型表示方法等特征表示方法及其應用場景，還講解了詞向量的評判標準。（2）內容重復理解詳細講解了標題重復、段落重復、文章重復的識別方法和去重算法。（3）內容通順度識別及糾正詳細講解了內容通順度的識別方法以及糾正不通順內容的方法。（4）內容質量詳細講解了多種內容質量相關的算法，以及如何搭建高質量的知識問答體系的流程。（5）標簽體系構建詳細講解了針對內容理解的標簽體系的建設流程和方法，以及多種相關算法。（6）文本摘要生成詳細講解了抽取式文本摘要和生成式文本摘要兩種流行的文本摘要生成方法，以及文本摘要的常用數(shù)據(jù)集和文本摘要評價方法。（7）文本糾錯詳細講解了文本糾錯的傳統(tǒng)方法、深度學習方法、工業(yè)界解決方案，以及常用的文本糾錯工具的安裝和使用。

作者簡介

　　李明琦資深AI技術專家，現(xiàn)就職于BAT，擔任高級算法工程師。長期致力于機器學習、深度學習、NLP等技術在實際業(yè)務場景中的落地，在內容理解方面有豐富的經驗，主導的內容質量項目曾獲得最佳項目獎。先后發(fā)表人工智能相關的學術論文2篇，申請人工智能領域的發(fā)明專利5項。在GitHub上貢獻了大量內容質量、問答系統(tǒng)、NLP等方面的代碼，在CSDN撰寫了一些與算法、機器學習、內容理解相關的文章，深受歡迎。谷　雪現(xiàn)為葡萄牙米尼奧大學博士生，涉及的研究領域為神經架構搜索、自然語言處理、情感分析，博士期間著力于細粒度情感原因提取。先后發(fā)表過學術論文2篇，其中一篇是神經架構搜索的綜述，另一篇是基于進化策略的神經架構演化方法。在GitHub上貢獻了大量深度學習、機器學習代碼，在CSDN上分享了服務器配置、數(shù)據(jù)分析、圖像去噪、情感分析等方向的多篇文章。孟子堯在人工智能技術領域有非常深厚的積累，擅長機器學習和深度學習，尤其是深度學習中的圖像分類和自然語言處理等技術。熱衷于開源的應用和推廣，在GitHub和CSDN上貢獻了許多代碼和文章。在《計算機研究與發(fā)展》上發(fā)表過1篇人工智能相關論文。

圖書目錄

CONTENTS
目　　錄
前言
第1章　文本特征表示　1
1.1　語料與語料預處理　1
1.1.1　語料和語料庫　1
1.1.2　語料預處理　2
1.2　文本特征表示方法　6
1.2.1　離散型特征表示方法　6
1.2.2　分布型特征表示方法　13
1.3　詞向量的評判標準　29
1.3.1　內部評估　29
1.3.2　外在評估　31
1.4　本章小結　34
第2章　內容重復理解　35
2.1　標題重復　35
2.1.1　標題符號規(guī)整化處理　36
2.1.2　Jieba分詞　39
2.1.3　LAC分詞　43
2.1.4　基于分詞及字符串等
方式進行重復識別　45
2.2　段落重復識別實例　47
2.2.1　段落重復識別　47
2.2.2　基于N-gram算法進行
內容去重　48
2.2.3　平滑處理技術　54
2.3　基于相似度計算的文章判重　57
2.3.1　文本相似度計算任務
的分析　57
2.3.2　距離度量方式　58
2.3.3　基于SimHash算法進行
文本重復檢測　62
2.4　本章小結　66
第3章　內容通順度識別及糾正　67
3.1　數(shù)據(jù)增強　67
3.2　基于FastText算法的句子
通順度識別　73
3.2.1　CBOW模型　74
3.2.2　FastText算法原理　75
3.2.3　FastText算法實戰(zhàn)　81
3.3　基于TextCNN算法的分類
任務實現(xiàn)　93
3.3.1　專有名詞簡介　93
3.3.2　算法介紹　94
3.3.3　參數(shù)調優(yōu)經驗總結　96
3.3.4　基于Keras工具實現(xiàn)TextCNN算法　96
3.4　基于TextRNN算法的分類
任務實現(xiàn)　98
3.4.1　LSTM和BiLSTM　98
3.4.2　TextCNN和TextRNN
識別效果對比　105
3.5　基于Seq2Seq模型的
糾正策略　106
3.5.1　Seq2Seq模型原理　106
3.5.2　糾正不通順句子的方法　108
3.6　本章小結　114
第4章　內容質量　116
4.1　GBDT算法　116
4.1.1　GBDT算法概述　117
4.1.2　負梯度擬合　117
4.1.3　GBDT回歸算法　118
4.1.4　GBDT分類算法　119
4.2　XGBoost算法　121
4.2.1　從GBDT到XGBoost　121
4.2.2　XGBoost損失函數(shù)　122
4.2.3　XGBoost損失函數(shù)的
優(yōu)化求解　124
4.2.4　XGBoost算法流程　125
4.2.5　XGBoost算法參數(shù)
及調優(yōu)　127
4.3　知識問答質量體系的搭建　129
4.3.1　知識問答質量體系
建立的意義　130
4.3.2　整體的項目實施方案　130
4.3.3　知識問答質量體系
搭建流程　133
4.4　本章小結　142
第5章　標簽體系構建　143
5.1　標簽體系　143
5.1.1　標簽體系的重要性　143
5.1.2　標簽體系的分類　144
5.1.3　構建標簽體系　146
5.2　TF-IDF算法　151
5.2.1　TF-IDF算法介紹　151
5.2.2　TF-IDF算法實現(xiàn)　152
5.3　PageRank算法　155
5.4　TextRank算法　163
5.4.1　TextRank算法的使用
場景　164
5.4.2　TextRank算法的
優(yōu)缺點　168
5.5　本章小結　168
第6章　文本摘要生成　169
6.1　文本摘要相關介紹　169
6.1.1　文本摘要問題定義　169
6.1.2　文本摘要分類　170
6.1.3　文本摘要的技術和方法　170
6.2　基于無監(jiān)督的抽取式文本摘要　172
6.2.1　基于經驗的文本摘要　173
6.2.2　基于主題模型的
文本摘要　175
6.2.3　基于圖的文本摘要　182
6.2.4　基于特征評分的
文本摘要　185
6.2.5　基于聚類的文本摘要　188
6.3　基于有監(jiān)督的抽取式文本摘要　191
6.4　基于深度神經網絡的生成式
文本摘要　201
6.5　文本摘要常用數(shù)據(jù)集　210
6.6　文本摘要評價方法　211
6.6.1　自動評價方法　211
6.6.2　人工評價方法　213
6.7　本章小結　213
第7章　文本糾錯　214
7.1　錯誤來源及類型　214
7.2　文本糾錯的3種傳統(tǒng)方法　215
7.2.1　模板匹配　215
7.2.2　編輯距離匹配　216
7.2.3　HANSpeller++框架　217
7.3　文本糾錯深度學習方法　220
7.3.1　英文文本糾錯方法　220
7.3.2　中文文本糾錯方法　224
7.4　工業(yè)界解決方法　233
7.4.1　3階段級聯(lián)的糾錯方案　234
7.4.2　符合多種場景的通用
糾錯方案　236
7.4.3　保險文本的糾錯方案　237
7.5　文本糾錯工具　239
7.5.1　pycorrector　239
7.5.2　xmnlp　240
7.6　本章小結　242

作　者：	李明琦，谷雪，孟子堯
出版社：	機械工業(yè)出版社
叢編項：
標　簽：	暫缺

ISBN：	9787111720690	出版時間：	2023-03-01	包裝：	平裝-膠訂
開本：	16開	頁數(shù)：		字數(shù)：

基于NLP的內容理解

購買這本書可以去

內容簡介

作者簡介

圖書目錄

本目錄推薦

PyTorch計算機視覺實戰(zhàn)：目標檢…

編碼理論導論第3版

ChatGPT狂飆背后：人機共生下的…

大數(shù)據(jù)分析原理和應用

巧用ChatGPT輕松玩轉新媒體運營…

人工智能數(shù)學基礎

慧聚：基于知識工程的工業(yè)技術軟…

ChatGPT 驅動軟件開發(fā)：AI 在軟…

元宇宙營銷三板斧：賦能品牌破圈…

元宇宙：人人可懂，人人可用（英…