本教材從“基礎”“算法”和“應用”三個方面,較為系統(tǒng)地介紹計算語言學的基礎理論、相關的自然語言處理技術和應用?;A部分(包括一、二、三章)主要講述計算語言學的數(shù)學和語言學基本概念,計算語言學和自然語言處理技術的關系,自然語言處理的基本流程等內容。此外,作為計算語言學的重要分支之一,語料庫語言學得到了較大發(fā)展,有關語料庫語言學的基礎概念、基本理論、近年來的一些發(fā)展概況在第三章中加以介紹。介紹這部分內容的目的,是讓讀者在不涉及技術細節(jié)的情況下,對計算語言學有一個初步的,同時也是較為全面的理解和掌握。算法部分(包括第四、五章)主要介紹計算語言學的常用技術和算法。從處理對象來講,主要包括詞法層面的分析技術、句法層面的分析技術和語義層面的處理技術;從處理方法來講,既有傳統(tǒng)的規(guī)則方法,也有基于語料庫的統(tǒng)計方法的介紹。這部分內容的主旨是希望通過本章學習后,使學生能對計算語言學的領域中的一些主流技術(比如隱馬爾可夫模型在詞性標注中的應用,GLR算法,部分分析技術等)有一個概要的認識,并能運用這些技術進行計算語言學相關的工作實踐。應用部分(包括第六、七章)主要講授自然語言處理應用系統(tǒng)。需要說明的是,基于語言信息處理技術的應用系統(tǒng)很多,本教材只是重點介紹一些常見的系統(tǒng),介紹這些系統(tǒng)的工作機理、發(fā)展、取得的成績,也客觀介紹這些系統(tǒng)存在的問題和困難。主要包括機器翻譯系統(tǒng),信息檢索系統(tǒng)、信息提取系統(tǒng),文本分類系統(tǒng)等。