123,123

內(nèi)容簡(jiǎn)介

　　《中公版·Python高效開(kāi)發(fā)指南：Python網(wǎng)絡(luò)爬蟲(chóng)綜合開(kāi)發(fā)》共分為十二章，涵蓋了Python網(wǎng)絡(luò)爬蟲(chóng)綜合開(kāi)發(fā)的相關(guān)知識(shí)，對(duì)重難點(diǎn)內(nèi)容進(jìn)行了針對(duì)性講解。本書(shū)面向Python網(wǎng)絡(luò)爬蟲(chóng)開(kāi)發(fā)的初學(xué)者，按照由淺入深、循序漸進(jìn)的規(guī)律，從講解網(wǎng)絡(luò)爬蟲(chóng)開(kāi)發(fā)基礎(chǔ)知識(shí)，到講解如何開(kāi)發(fā)單個(gè).py文件的Python爬蟲(chóng)程序，后講解基于Scrapy爬蟲(chóng)框架的網(wǎng)絡(luò)爬蟲(chóng)開(kāi)發(fā)?！?網(wǎng)絡(luò)爬蟲(chóng)概述（章）介紹了網(wǎng)絡(luò)爬蟲(chóng)的基礎(chǔ)知識(shí)，包括定義、分類、原理和搜索策略等概念性內(nèi)容?！?Python網(wǎng)絡(luò)爬蟲(chóng)開(kāi)發(fā)基礎(chǔ)（第二章）介紹了Python開(kāi)發(fā)環(huán)境的搭建，重點(diǎn)介紹了PyCharm的使用。另外，還詳細(xì)介紹了HTTP協(xié)議的相關(guān)知識(shí)，并介紹了HTML、JavaScript和XPath?！?開(kāi)發(fā)單個(gè).py文件的爬蟲(chóng)程序（第三章、第四章）介紹了如何開(kāi)發(fā)單個(gè).py文件的Python爬蟲(chóng)程序，該程序采用Request模塊獲取數(shù)據(jù)，并采用XPath、BeautifulSoup4和PyQuery模塊進(jìn)行解析。● 開(kāi)發(fā)Python網(wǎng)絡(luò)爬蟲(chóng)相關(guān)技術(shù)（第五章至第十章）介紹了Python網(wǎng)絡(luò)爬蟲(chóng)開(kāi)發(fā)中廣泛應(yīng)用的技術(shù)，包括正則表達(dá)式、數(shù)據(jù)接口、數(shù)據(jù)庫(kù)的使用、表單的使用、模擬登錄、反反爬蟲(chóng)方法和Selenium模擬瀏覽器等，并結(jié)合豐富的小案例來(lái)展示知識(shí)點(diǎn)?！?Scrapy爬蟲(chóng)框架（第十一章、第十二章）介紹了基于Scrapy爬蟲(chóng)框架的爬蟲(chóng)開(kāi)發(fā)和分布式爬蟲(chóng)框架scrapy-redis，以及爬蟲(chóng)的部署。

作者簡(jiǎn)介

暫缺《中公Python高效開(kāi)發(fā)指南》作者簡(jiǎn)介

圖書(shū)目錄

章網(wǎng)絡(luò)爬蟲(chóng)概述1
1.1網(wǎng)絡(luò)爬蟲(chóng)的定義1
1.2網(wǎng)絡(luò)爬蟲(chóng)的發(fā)展階段1
1.3網(wǎng)絡(luò)爬蟲(chóng)的應(yīng)用1
1.4網(wǎng)絡(luò)爬蟲(chóng)的類型2
1.5網(wǎng)絡(luò)爬蟲(chóng)的原理3
1.6網(wǎng)絡(luò)爬蟲(chóng)的搜索策略3
1.6.1深度優(yōu)先搜索策略4
1.6.2廣度優(yōu)先搜索策略4
1.7反爬蟲(chóng)技術(shù)及解決方案5
1.7.1通過(guò)User-Agent來(lái)反爬蟲(chóng)5
1.7.2通過(guò)IP限制來(lái)反爬蟲(chóng)6
1.7.3通過(guò)JavaScript腳本來(lái)反爬蟲(chóng)7
1.7.4通過(guò)robots.txt來(lái)反爬蟲(chóng)7
第二章爬蟲(chóng)開(kāi)發(fā)基礎(chǔ)8
2.1Python的安裝和運(yùn)行8
2.1.1Python的安裝8
2.1.2編寫個(gè)Python程序12
2.2PyCharm開(kāi)發(fā)工具的安裝和使用12
2.3HTTP18
2.3.1URI和URL18
2.3.2HTTP和HTTPS18
2.3.3HTTP請(qǐng)求報(bào)文18
2.3.4HTTP請(qǐng)求過(guò)程20
2.3.5HTTP請(qǐng)求方法21
2.3.6HTTP響應(yīng)報(bào)文21
2.4HTTP會(huì)話和Cookies23
2.4.1靜態(tài)網(wǎng)頁(yè)和動(dòng)態(tài)網(wǎng)頁(yè)23
2.4.2HTTP會(huì)話23
2.4.3Cookies24
2.5HTTP代理服務(wù)器24
2.5.1HTTP代理服務(wù)器的基本原理24
2.5.2HTTP代理服務(wù)器的主要功能25
2.6HTML25
2.6.1HTML概述25
2.6.2HTML基礎(chǔ)知識(shí)26
2.6.3HTML常用標(biāo)簽28
2.7HTMLDOM37
2.8JavaScript39
2.8.1JS的使用39
2.8.2JS變量40
2.8.3JS變量的命名規(guī)則40
2.8.4JS變量的數(shù)據(jù)類型40
2.8.5JS對(duì)象41
2.8.6JS函數(shù)41
2.8.7JS運(yùn)算符41
2.8.8JS條件語(yǔ)句42
2.8.9JS循環(huán)語(yǔ)句43
2.8.10break語(yǔ)句和continue語(yǔ)句45
2.9JSON45
2.9.1JSON數(shù)據(jù)結(jié)構(gòu)45
2.9.2JSON數(shù)據(jù)類型46
2.9.3JSON與XML的比較46
2.10AJAX48
2.11XPath48
2.11.1XPath選取節(jié)點(diǎn)48
2.11.2XPath謂語(yǔ)49
2.11.3XPath通配符49
2.11.4XPath多路徑選擇50
2.11.5XPath軸50
2.11.6XPath運(yùn)算符51
2.11.7XPath常用的功能函數(shù)52
第三章使用開(kāi)發(fā)者工具分析網(wǎng)站53
3.1開(kāi)發(fā)者工具53
3.2元素（Elements）面板54
3.3網(wǎng)絡(luò)（Network）面板55
3.4Chrome插件59
第四章HTML內(nèi)容爬取與解析62
4.1爬蟲(chóng)的開(kāi)發(fā)思路62
4.2Requests模塊概述及其安裝65
4.3Requests基本請(qǐng)求方式67
4.4復(fù)雜的Requests請(qǐng)求方式70
4.5Requests上傳與下載74
4.6lxml模塊的安裝與使用方法76
4.6.1lxml模塊的安裝76
4.6.2lxml模塊的使用77
4.7BeautifulSoup4模塊88
4.7.1BeautifulSoup4模塊的安裝88
4.7.2解析器89
4.7.3按照標(biāo)準(zhǔn)的縮進(jìn)格式輸出HTML89
4.7.4處理HTMLDOM節(jié)點(diǎn)91
4.7.5遍歷Tag的子孫節(jié)點(diǎn)97
4.7.6獲取Tag的文本內(nèi)容101
4.7.7根據(jù)Tags間的關(guān)系獲取節(jié)點(diǎn)105
4.7.8find_all()方法name參數(shù)的使用109
4.7.9find_all()方法其他參數(shù)的使用115
4.7.10搜索HTMLDOM樹(shù)的其他方法123
4.7.11采用CSS選擇器查找元素124
4.8PyQuery模塊132
4.8.1PyQuery模塊的安裝132
4.8.2PyQuery模塊語(yǔ)法講解132
4.9TXT文件的讀／寫操作136
4.9.1TXT文件的讀取136
4.9.2TXT文件的寫入138
4.10CSV文件的讀／寫操作139
4.10.1CSV文件概述139
4.10.2CSV文件的讀取140
4.10.3CSV文件的寫入142
第五章正則表達(dá)式144
5.1正則表達(dá)式常用符號(hào)144
5.1.1正則表達(dá)式的定義144
5.1.2普通字符144
5.1.3預(yù)定義字符145
5.1.4量詞字符147
5.1.5邊界匹配字符150
5.1.6分組匹配字符152
5.2re模塊及其功能函數(shù)153
5.2.1search()函數(shù)153
5.2.2sub()函數(shù)155
5.2.3findall()函數(shù)156
5.2.4re模塊修飾符157
5.3綜合案例——爬取某電影網(wǎng)站的榜單157
5.3.1爬蟲(chóng)思路分析157
5.3.2爬蟲(chóng)程序及分析158
第六章數(shù)據(jù)接口信息爬取161
6.1數(shù)據(jù)接口概述161
6.2API的使用161
6.2.1API概述161
6.2.2API樣例161
6.3解析XHR接口165
6.3.1JSON解析庫(kù)165
6.3.2某招聘網(wǎng)站數(shù)據(jù)接口分析167
6.4綜合案例——爬取某網(wǎng)站新聞中的圖片172
6.4.1圖片爬取方法172
6.4.2爬蟲(chóng)思路分析173
6.4.3爬蟲(chóng)程序及分析177
第七章數(shù)據(jù)庫(kù)存儲(chǔ)180
7.1MySQL數(shù)據(jù)庫(kù)180
7.1.1關(guān)系型數(shù)據(jù)庫(kù)概述180
7.1.2MySQL的安裝182
7.1.3SQL概述187
7.1.4MySQL的數(shù)據(jù)類型187
7.1.5數(shù)據(jù)定義語(yǔ)言（DDL）及常用操作189
7.1.6數(shù)據(jù)操縱語(yǔ)言（DML）193
7.1.7數(shù)據(jù)查詢語(yǔ)言（DQL）195
7.1.8pyMySQL模塊的使用203
7.2MongoDB數(shù)據(jù)庫(kù)206
7.2.1NoSQL數(shù)據(jù)庫(kù)概述206
7.2.2MongoDB的安裝206
7.2.3MongoDB的數(shù)據(jù)類型213
7.2.4MongoDB數(shù)據(jù)庫(kù)操作214
7.2.5MongoDB集合操作215
7.2.6MongoDB文檔操作216
7.2.7pymongo模塊的使用222
7.3Redis數(shù)據(jù)庫(kù)226
7.3.1內(nèi)存數(shù)據(jù)庫(kù)概述226
7.3.2典型Redis數(shù)據(jù)類型的操作226
7.3.3Redis模塊的使用234
7.4綜合案例1——爬取某網(wǎng)站的微客數(shù)據(jù)235
7.4.1爬蟲(chóng)思路分析235
7.4.2爬蟲(chóng)程序及分析237
7.5綜合案例2——爬取某網(wǎng)站的房源數(shù)據(jù)241
7.5.1爬蟲(chóng)思路分析241
7.5.2爬蟲(chóng)程序及分析244
第八章表單交互與模擬登錄249
8.1表單交互249
8.1.1POST請(qǐng)求249
8.1.2PythonRequests提交表單249
8.2模擬登錄254
8.2.1Cookies概述254
8.2.2提交Cookies模擬登錄254
8.3綜合案例——爬取某招聘網(wǎng)站的招聘信息257
8.3.1爬蟲(chóng)思路分析257
8.3.2爬蟲(chóng)程序及分析259
第九章反爬蟲(chóng)技術(shù)以及應(yīng)對(duì)方法262
9.1常見(jiàn)的反爬蟲(chóng)技術(shù)262
9.2基于請(qǐng)求頭的反爬蟲(chóng)技術(shù)以及應(yīng)對(duì)方法262
9.3基于用戶行為的反爬蟲(chóng)技術(shù)以及應(yīng)對(duì)方法264
9.4基于Cookies的反爬蟲(chóng)技術(shù)以及應(yīng)對(duì)方法266
9.5基于驗(yàn)證碼的反爬蟲(chóng)技術(shù)以及應(yīng)對(duì)方法267
第十章Selenium模擬瀏覽器271
10.1Selenium概述271
10.1.1Selenium的介紹和安裝271
10.1.2瀏覽器的選擇和安裝271
10.2Selenium的使用274
10.2.1模擬瀏覽器簡(jiǎn)單操作274
10.2.2SeleniumDriver操作276
10.2.3SeleniumWebelement操作277
10.2.4SeleniumActionChains278
10.2.5SeleniumWait279
10.2.6SeleniumExpectedConditions280
10.2.7模擬登錄282
10.2.8破解滑塊驗(yàn)證碼283
10.3綜合案例1——爬取某交友軟件的好友空間信息288
10.3.1爬蟲(chóng)思路分析288
10.3.2爬蟲(chóng)程序及分析291
10.4綜合案例2——爬取某電商網(wǎng)站的商品信息292
10.4.1爬蟲(chóng)思路分析292
10.4.2爬蟲(chóng)程序及分析294
第十一章Scrapy爬蟲(chóng)框架300
11.1Scrapy的安裝和使用300
11.1.1Scrapy爬蟲(chóng)框架的架構(gòu)300
11.1.2安裝Scrapy301
11.1.3創(chuàng)建Scrapy爬蟲(chóng)項(xiàng)目304
11.1.4Scrapy文件介紹306
11.1.5編寫Scrapy爬蟲(chóng)程序309
11.1.6運(yùn)行Scrapy爬蟲(chóng)311
11.1.7ItemPipeline的用法313
11.1.8下載中間件的用法315
11.1.9Scrapy對(duì)接Selenium319
11.2綜合案例1——爬取某房地產(chǎn)網(wǎng)站326
11.2.1爬蟲(chóng)思路分析326
11.2.2爬蟲(chóng)程序及分析329
11.3綜合案例2——爬取某書(shū)評(píng)網(wǎng)站335
11.3.1爬蟲(chóng)思路分析335
11.3.2爬蟲(chóng)程序及分析338
第十二章分布式爬蟲(chóng)以及爬蟲(chóng)的部署345
12.1分布式爬蟲(chóng)原理345
12.1.1分布式爬蟲(chóng)架構(gòu)345
12.1.2維護(hù)爬取隊(duì)列346
12.1.3去重操作346
12.1.4防止中斷348
12.2基于scrapy-redis的分布式爬蟲(chóng)348
12.2.1scrapy-redis架構(gòu)349
12.2.2安裝scrapy-redis349
12.2.3scrapy-redis常用配置350
12.2.4scrapy-redis簡(jiǎn)單實(shí)例350
12.3Scrapyd部署爬蟲(chóng)351
12.4Scrapyd-Client的使用353