這是一本講述如何用NLP技術進行文本內容理解的著作,也是一本系統(tǒng)講解NLP算法的著作,是作者在NLP和內容理解領域多年經驗的總結。本書結合內容理解的實際業(yè)務場景,系統(tǒng)全面、循序漸進地講解了各種NLP算法以及如何用這些算法高效地解決內容理解方面的難題,主要包括如下幾個方面的內容:(1)文本特征表示文本特征表示是NLP的基石,也是內容理解的基礎環(huán)節(jié),本書詳細講解了離散型表示方法和分布型表示方法等特征表示方法及其應用場景,還講解了詞向量的評判標準。(2)內容重復理解詳細講解了標題重復、段落重復、文章重復的識別方法和去重算法。(3)內容通順度識別及糾正詳細講解了內容通順度的識別方法以及糾正不通順內容的方法。(4)內容質量詳細講解了多種內容質量相關的算法,以及如何搭建高質量的知識問答體系的流程。(5)標簽體系構建詳細講解了針對內容理解的標簽體系的建設流程和方法,以及多種相關算法。(6)文本摘要生成詳細講解了抽取式文本摘要和生成式文本摘要兩種流行的文本摘要生成方法,以及文本摘要的常用數(shù)據(jù)集和文本摘要評價方法。(7)文本糾錯詳細講解了文本糾錯的傳統(tǒng)方法、深度學習方法、工業(yè)界解決方案,以及常用的文本糾錯工具的安裝和使用。