本書是作者多年來在自然語言處理領域開展對統(tǒng)計語言建模以及中文文本校對技術研究的總結。主要內容包括統(tǒng)計語言建模和中文文本自動校對技術兩部分內容,共12章。前面部分介紹統(tǒng)計語言模型構建的基本原理與方法,并對模型訓練及評價方法進行研究,提出統(tǒng)計語言模型建模時訓練語料規(guī)模的定量化度量方法。后面部分概述中文文本中常見的各種錯誤,并針對這些錯誤類型提出字詞級、句法級和語義級錯誤的自動偵測方法與模型,開創(chuàng)了漢語文本語義錯誤自動偵測的新思路,提出了中文文本錯誤的糾錯建議生成與排序模型。最后基于所提出的模型與算法開發(fā)了一個正文通中文文本校對系統(tǒng)。本書可作為在自然語言處理領域開展中文文本自動校對技術與方法研究的相關人員的參考用書。