注冊 | 登錄讀書好,好讀書,讀好書!
讀書網-DuShu.com
當前位置: 首頁出版圖書科學技術計算機/網絡計算機科學理論與基礎知識數據科學:理論、方法與R語言實踐

數據科學:理論、方法與R語言實踐

數據科學:理論、方法與R語言實踐

定 價:¥69.00

作 者: 尼娜
出版社: 機械工業(yè)出版社
叢編項:
標 簽: 程序設計 計算機/網絡

購買這本書可以去


ISBN: 9787111529262 出版時間: 2016-03-01 包裝: 平裝
開本: 16開 頁數: 321 字數:  

內容簡介

  本書從實用的角度較為全面地展現了數據科學的主要內容,并結合大量的實際項目案例,利用R語言詳細地講解了數據項目的開發(fā)過程和關鍵技術。本書包括三個部分共11章的內容,主要介紹了數據科學項目的處理過程、選擇合適的建模方法,也討論了bagging算法、隨機森林、廣義加性模型、核和支持向量機等高級建模方法。此外,還討論了文檔編制和結果部署,以及如何向組織內不同的受眾展現項目結果。本書適合作為高等院校高年級本科生和研究生及從事數據管理與分析工程技術人員的主要參考書。

作者簡介

暫缺《數據科學:理論、方法與R語言實踐》作者簡介

圖書目錄

目  錄譯者序序言前言第一部分 數據科學引論第1章 數據科學處理過程21.1 數據科學項目中的角色21.2 數據科學項目的階段41.2.1 制定目標51.2.2 收集和管理數據51.2.3 建立模型71.2.4 模型評價和批判81.2.5 展現和編制文檔91.2.6 模型部署和維護101.3 設定預期111.4 小結12第2章 向R加載數據142.1 運用文件中的數據142.1.1 在源自文件或URL的良結構數據上使用R152.1.2 在欠結構數據上使用R172.2 在關系數據庫上使用R192.2.1 一個生產規(guī)模的示例202.2.2 從數據庫向R系統(tǒng)加載數據232.2.3 處理PUMS數據252.3 小結28第3章 探索數據293.1 使用概要統(tǒng)計方法發(fā)現問題303.2 用圖形和可視化方法發(fā)現問題343.2.1 可視化檢測單變量的分布353.2.2 可視化檢測兩個變量間的關系423.3 小結51第4章 管理數據524.1 清洗數據524.1.1 處理缺失值524.1.2 數據轉換564.2 為建模和驗證采樣614.2.1 測試集和訓練集的劃分614.2.2 創(chuàng)建一個樣本組列624.2.3 記錄分組634.2.4 數據溯源634.3 小結63第二部分 建模方法第5章 選擇和評價模型665.1 將業(yè)務問題映射到機器學習任務675.1.1 解決分類問題675.1.2 解決打分問題685.1.3 目標未知情況下的處理695.1.4 問題到方法的映射715.2 模型評價715.2.1 分類模型的評價725.2.2 打分模型的評價765.2.3 概率模型的評價785.2.4 排名模型的評價825.2.5 聚類模型的評價825.3 模型驗證845.3.1 常見的模型問題的識別 845.3.2 模型可靠性的量化855.3.3 模型質量的保證865.4 小結88第6章 記憶化方法896.1 KDD和KDD Cup 2009896.2 構建單變量模型916.2.1 使用類別型特征926.2.2 使用數值型特征946.2.3 使用交叉驗證估計過擬合的影響966.3 構建多變量模型976.3.1 變量選擇976.3.2 使用決策樹996.3.3 使用最近鄰方法1026.3.4 使用樸素貝葉斯1056.4 小結108第7章 線性回歸與邏輯斯諦回歸1107.1 使用線性回歸1107.1.1 理解線性回歸1107.1.2 構建線性回歸模型1137.1.3 預測1147.1.4 發(fā)現關系并抽取建議1177.1.5 解讀模型概要并刻畫系數質量1187.1.6 線性回歸要點1227.2 使用邏輯斯諦回歸1237.2.1 理解邏輯斯諦回歸1237.2.2 構建邏輯斯諦回歸模型1247.2.3 預測1257.2.4 從邏輯斯諦回歸模型中發(fā)現關系并抽取建議1297.2.5 解讀模型概要并刻畫系數1307.2.6 邏輯斯諦回歸要點1367.3 小結137第8章 無監(jiān)督方法1388.1 聚類分析1388.1.1 距離1398.1.2 準備數據 1408.1.3 使用hclust()進行層次聚類1428.1.4 k-均值算法1508.1.5 分派新的點到簇1548.1.6 聚類要點1568.2 關聯(lián)規(guī)則1568.2.1 關聯(lián)規(guī)則概述1568.2.2 問題舉例1578.2.3 使用arules程序包挖掘關聯(lián)規(guī)則1588.2.4 關聯(lián)規(guī)則要點1658.3 小結165第9章 高級方法探索1669.1 使用bagging和隨機森林方法減少訓練方差1679.1.1 使用bagging方法改進預測1679.1.2 使用隨機森林方法進一步改進預測1709.1.3 bagging和隨機森林方法要點1739.2 使用廣義加性模型學習非單調關系1739.2.1 理解GAM1749.2.2 一維回歸示例1749.2.3 提取非線性關系1789.2.4 在真實數據上使用GAM1799.2.5 使用GAM實現邏輯斯諦回歸1829.2.6 GAM要點1839.3 使用核方法提高數據可分性1839.3.1 理解核函數1849.3.2 在問題中使用顯式核函數1879.3.3 核方法要點1909.4 使用SVM對復雜的決策邊界建模1909.4.1 理解支持向量機1909.4.2 在人工示例數據中使用SVM1929.4.3 在真實數據中使用SVM1959.4.4 支持向量機要點1979.5 小結197第三部分 結果交付第10章 文檔編制和部署20010.1 buzz數據集20010.2 使用knitr產生里程碑文檔20210.2.1 knitr是什么20210.2.2 knitr 技術詳解20410.2.3 使用knitr編寫buzz數據文檔20510.3 在運行時文檔編制中使用注釋和版本控制20810.3.1 編寫有效注釋20810.3.2 使用版本控制記錄歷史20910.3.3 使用版本控制探索項目21310.3.4 使用版本控制分享工作21710.4 模型部署22010.4.1 將模型部署為R HTTP服務22010.4.2 按照輸出部署模型22210.4.3 要點22310.5 小結224第11章 有效的結果展現22611.1 將結果展現給項目出資方22711.1.1 概述項目目標22811.1.2 陳述項目結果22911.1.3 補充細節(jié)23011.1.4 提出建議并討論未來工作23111.1.5 向項目出資方展現的要點23211.2 向最終用戶展現模型23211.2.1 概述項目目標23211.2.2 展現模型如何融入用戶的工作流程23311.2.3 展現如何使用模型23511.2.4 向最終用戶展現的要點23611.3 向其他數據科學家展現你的工作23611.3.1 介紹問題23611.3.2 討論相關工作23711.3.3 討論你的方法23811.3.4 討論結果和未來工作23911.3.5 向其他數據科學家展現的要點24011.4 小結240附錄A 使用R和其他工具241附錄B 重要的統(tǒng)計學概念263附錄C 更多的工具和值得探索的思路292參考文獻297索引299

本目錄推薦

掃描二維碼
Copyright ? 讀書網 www.leeflamesbasketballcamps.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網安備 42010302001612號