时久久久久久久久久久,<ahref="http://eebvc.com,亚洲国产欧美在线成人

欄目導(dǎo)航

公司新聞

新聞資訊

新聞資訊

點擊上方“安全優(yōu)佳” 可以訂閱哦！

這一講，我將會為大家講解稍微復(fù)雜一點的爬蟲，即動態(tài)網(wǎng)頁的爬蟲。

動態(tài)網(wǎng)頁技術(shù)介紹

動態(tài)網(wǎng)頁爬蟲技術(shù)一之API請求法

動態(tài)網(wǎng)頁爬蟲技術(shù)二之模擬瀏覽器法

安裝模塊下載

安裝

以某寶某只松鼠店鋪為例爬取"堅果炒貨"的商品名稱、價格、銷量以及評論數(shù)量

課后作業(yè)

關(guān)于作者

動態(tài)網(wǎng)頁技術(shù)介紹

所謂的動態(tài)網(wǎng)頁，是指跟靜態(tài)網(wǎng)頁相對的一種網(wǎng)頁編程技術(shù)。靜態(tài)網(wǎng)頁，隨著html代碼的生成，頁面的內(nèi)容和顯示效果就基本上不會發(fā)生變化了——除非你修改頁面代碼。而動態(tài)網(wǎng)頁則不然，頁面代碼雖然沒有變，但是顯示的內(nèi)容卻是可以隨著時間、環(huán)境或者數(shù)據(jù)庫操作的結(jié)果而發(fā)生改變的。

值得強調(diào)的是，不要將動態(tài)網(wǎng)頁和頁面內(nèi)容是否有動感混為一談。這里說的動態(tài)網(wǎng)頁，與網(wǎng)頁上的各種動畫、滾動字幕等視覺上的動態(tài)效果沒有直接關(guān)系，動態(tài)網(wǎng)頁也可以是純文字內(nèi)容的，也可以是包含各種動畫的內(nèi)容，這些只是網(wǎng)頁具體內(nèi)容的表現(xiàn)形式，無論網(wǎng)頁是否具有動態(tài)效果，只要是采用了動態(tài)網(wǎng)站技術(shù)生成的網(wǎng)頁都可以稱為動態(tài)網(wǎng)頁。(解釋來源：百度百科 - “動態(tài)網(wǎng)頁”，若鏈接失效請訪問：%E5%8A%A8%E6%80%81%E7%BD%91%E9%A1%B5/?fr=)

互聯(lián)網(wǎng)每天都在蓬勃的發(fā)展，數(shù)以萬計的在線平臺如雨后春筍般不斷涌現(xiàn)，不同平臺對不同用戶的權(quán)限、喜好推出不同的個性化內(nèi)容，傳統(tǒng)的靜態(tài)網(wǎng)頁似乎早已不能滿足社會的需求。于是，動態(tài)網(wǎng)頁技術(shù)應(yīng)運而生，當(dāng)然，在如今人們對網(wǎng)頁加載速度的要求越來越高的要求下，異步加載成為了許多大的站點的首選。比如各大電商平臺、知識型網(wǎng)站、社交平臺等，都廣泛采用了異步加載的動態(tài)技術(shù)。簡單來說，就是把一些根據(jù)時間、請求而變化的內(nèi)容，比如某寶的商品價格、評論，比如某瓣的熱門電影評論，再比如某訊的視頻等，采用先加載網(wǎng)頁整體框架，后加載動態(tài)內(nèi)容的方式呈現(xiàn)。

對于這一類動態(tài)頁面，如果我們采用前面所說的對付靜態(tài)網(wǎng)頁的爬蟲方式去爬，可能收獲不到任何結(jié)果，因為這些異步加載的內(nèi)容所在的位置大多是一段請求內(nèi)容的JS代碼。在某些觸發(fā)操作下，這些JS代碼開始工作，從數(shù)據(jù)庫中提取對應(yīng)的數(shù)據(jù)，將其放置到網(wǎng)頁框架中相對應(yīng)的位置，從而最終拼接成我們所能看到的完整的一張頁面。

動態(tài)網(wǎng)頁爬蟲技術(shù)一之API請求法

看似更加復(fù)雜的操作似乎給我們的爬蟲帶來了很大的困擾，但其實也可能給我們帶來極大的便利。我們只需要找到JS請求的API，并按照一定的要求發(fā)送帶有有效參數(shù)的請求，便能獲得最為整潔的數(shù)據(jù)，而不用像以前那樣從層層嵌套的HTML代碼中慢慢解析出我們想要的數(shù)據(jù)。

這里我們以上面提到的豆瓣電影(若鏈接失效請訪問：#!type=movie&tag=%E7%83%AD%E9%97%A8&sort=&=20&=0)為例做一個分析，提取出熱度排名前100的電影名稱和評分以及在豆瓣的地址。

這是最近熱門電影按熱度排序的一個截圖，每個月都有不同的新電影上映，每部電影會隨著口碑效應(yīng)每天呈現(xiàn)不同的熱度排序，如果這頁面是個靜態(tài)網(wǎng)頁，那么豆瓣的程序員豈不是很辛苦，每天都要上線修改這個頁面。所以，我們可以大膽的猜測，這是個動態(tài)頁面。但是光猜不行，我們還得證實。這里就要用到第二講講到的谷歌開發(fā)者工具了。按下F12或者在網(wǎng)頁空白處右鍵選擇檢查(N)，或者在鍵盤上按下組合鍵Ctrl + Shift + I，召喚出我們的神器。如下圖所示：

今天我們不再使用左上角的鼠標(biāo)按鈕了，而是使用紅色框中的，這里顯示的是網(wǎng)頁加載出來的所有的文件，如下圖所示：

如果下方?jīng)]有任何結(jié)果，需要在打開谷歌開發(fā)者工具的情況下刷新網(wǎng)頁。

如上圖所示，我們點擊上方紅色小框中的”XHR“按鈕，就可以將這張網(wǎng)頁中異步加載的內(nèi)容篩選出來。至于到底哪一個才是我們所要的，這是個問題，看左邊的地址我們似乎也看不出神馬頭緒，那就一個一個點出來看吧。。。經(jīng)過枚舉，我們發(fā)現(xiàn)，第三個是我們要的內(nèi)容，它的內(nèi)容如下圖：

我們可以看到，這個鏈接里包含的內(nèi)容是以JSON格式展示出來的，這時我們便有了一個大概的思路，那就是將這個鏈接的內(nèi)容用模塊下載后，再用的json模塊進(jìn)行解析。

但是，這好像是一頁的內(nèi)容，數(shù)一數(shù)也只有20部電影，我們想要的是排名前100的電影，這怎么辦呢？

不方，畢竟是動態(tài)網(wǎng)頁，內(nèi)容都是可以根據(jù)請求改變的，而且這里也沒有登陸啥的操作，打開網(wǎng)頁就能看到，那我們是不是可以改變一下URL從而獲取到下一頁甚至下下頁的內(nèi)容咧？當(dāng)然可以，不然我就寫不下去了！

我們仔細(xì)觀察一下這個URL里傳遞的參數(shù)：

到這里我們可能還不知道這五個參數(shù)是干嘛的，但我們可以找規(guī)律啊，于是現(xiàn)在回到原始的網(wǎng)頁，點擊頁面下方的"加載更多"，再返回到開發(fā)者工具，哇，多出了一個URL，長的跟剛才說的那個好像，內(nèi)容也長的好像：

這個URL同樣傳遞了五個參數(shù)：

唯一的不同就是一個叫""的關(guān)鍵字的值改變了，簡單翻譯一下大概是頁面起點的意思，再看上面的""，大概就是頁面限制的意思，看右邊的響應(yīng)內(nèi)容，這一個頁面?zhèn)鬟f了20個條目，也就是說""是一個頁面里條目數(shù)量的限制，也就是20條，這個數(shù)據(jù)是不變的，而""是這一頁開始的條目序號，那么我們要獲取后面的內(nèi)容，豈不是只要改變一下這個""就好了？是的。

老規(guī)矩，先寫個代碼壓壓驚

# -*- coding: utf-8 -*-
import requests
import jsonfor i in range(5):
 page_start = str(i * 20) # 注釋1
 url = 'https://movie.douban.com/j/search_subjects?type=movie&tag=%E7%83%AD%E9%97%A8&sort=recommend&page_limit=20&page_start=' + page_start # 注釋2
 headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'
 }
 response = requests.get(url=url, headers=headers, verify=False)
 content = response.content.decode()
 content_list = json.loads(content)['subjects'] # 注釋3for item in content_list: # 注釋4
 title = item['title'] #注釋5
 rate = item['rate'] # 注釋6
 link = item['url'] # 注釋7
 print(title, rate, link)

最后的話，大家可以采用標(biāo)準(zhǔn)輸入流寫入txt文件，也可以采用xlwt模塊寫入EXCEL，還可以使用比如模塊寫入Mysql數(shù)據(jù)庫，具體的方式大家隨意，使用方法請自行百度。

到這里，這種采用尋找API并傳遞有效參數(shù)重放API的方法便為大家介紹完了，這是個很通用的方法，在很多網(wǎng)站都可以這樣使用，并且速度很快，結(jié)果最精簡。

動態(tài)網(wǎng)頁爬蟲技術(shù)二之模擬瀏覽器法

上面我們所講的API請求法雖然好用且快，但是并不是所有的網(wǎng)站都會采用這種異步加載的方式來實現(xiàn)網(wǎng)站，同時還有部分網(wǎng)站會針對爬蟲采取反爬蟲措施，比如常見的驗證碼，雖然驗證碼主要是用來防止CSRF攻擊的，但也有網(wǎng)站用來處理爬蟲，比如某寶。這時候，就要為大家介紹另一個神器了，的模塊。

是一個用于Web應(yīng)用程序測試的工具。測試直接運行在瀏覽器中，就像真正的用戶在操作一樣。支持的瀏覽器包括IE（7, 8, 9, 10, 11），，，，Opera等。這個工具的主要功能包括：測試與瀏覽器的兼容性——測試你的應(yīng)用程序看是否能夠很好得工作在不同瀏覽器和操作系統(tǒng)之上。測試系統(tǒng)功能——創(chuàng)建回歸測試檢驗軟件功能和用戶需求。支持自動錄制動作和自動生成 .Net、Java、Perl等不同語言的測試腳本。(解釋來自：百度百科 - “”，若鏈接失效請點擊)

簡單的說，是一個主要用來進(jìn)行自動化測試的工具，它可以配合瀏覽器驅(qū)動在各個瀏覽器中運行，依照代碼自動地模擬人的操作靜態(tài)網(wǎng)頁的爬取思路，去獲取網(wǎng)頁元素或?qū)W(wǎng)頁元素進(jìn)行控制。當(dāng)然，并不是的產(chǎn)物，而是一個獨立的項目，對提供支持。(大家可以自行訪問的主頁進(jìn)行訪問，若鏈接失效請點擊)

安裝模塊

要使用這種第三方的工具，我們首先要進(jìn)行安裝，這里依然用到pip工具。在管理員權(quán)限下運行命令行，輸入pip ，稍等片刻后便可以完成安裝，如果覺得網(wǎng)絡(luò)連接官方pypi鏡像速度較慢，可以使用國內(nèi)豆瓣的鏡像源，pip -i ，加上這個-i參數(shù)和豆瓣pypi鏡像的地址就可以了，如果想要默認(rèn)使用豆瓣鏡像源，請自行百度修改方法。

下載

在安裝成功后，我們就需要安裝下一個必要的東西了，瀏覽器驅(qū)動，前面說過，需要配合瀏覽器驅(qū)動運行，因此我們以安裝為例。

首先，我們需要查看自己的谷歌瀏覽器版本，這個在谷歌的”幫助”中可以查看，具體方法是，打開，點擊右上角的三個點狀的按鈕，接著在彈出的菜單中依次選擇幫助(E) -> 關(guān)于 (G)如下圖所示：

作者的瀏覽器是更新到當(dāng)前最新的版本63的，舊版本的操作方法大致一致。

點開關(guān)于信息后，我們可以看到當(dāng)前的版本靜態(tài)網(wǎng)頁的爬取思路，以下圖為例：

一直在升級，因此對應(yīng)的驅(qū)動也得不斷升級，并且與版本相適應(yīng)。這里我們需要查找相應(yīng)的版本映射，給大家推薦一個持續(xù)更新的CSDN博客(若鏈接失效請點擊：)，根據(jù)版本映射表，下載對應(yīng)版本的，下載地址1 ()(若鏈接失效請訪問：)，下載地址2()(若鏈接失效請訪問：)。

安裝

這里需要進(jìn)行環(huán)境變量的配置，如第一講所說，為”Path”添加一行值。

首先，我們需要找到的安裝位置，最為簡單的辦法是，在桌面找到的快捷方式，右鍵選擇”打開文件所在的位置“，就能打開了。比如我這里打開的路徑為C: Files (x86)ion，那么我就將這個路徑添加到Path里。然后，需要我們將下載的解壓到exe程序，將單獨的exe程序復(fù)制到剛才這個路徑里，如下圖所示：

到這里，便完成了安裝，我們可以在命令行輸入命令，進(jìn)入到交互環(huán)境進(jìn)行測試，如下圖所示：

如果你的谷歌瀏覽器自動打開，并且跳轉(zhuǎn)到百度首頁，那么~

以某寶某只松鼠店鋪為例爬取”堅果炒貨”的商品名稱、價格、銷量以及評論數(shù)量

該頁面的URL為：#

老規(guī)矩，先放一段代碼：

# -*- coding: utf-8 -*-
from selenium import webdriver
driver = webdriver.Chrome() # 注釋1
url = 'https://sanzhisongshu.tmall.com/category-1124487841.htm?spm=a1z10.1-b-s.w5003-17763072511.42.6995d6732XB8Of&tsearch=y&scene=taobao_shop#TmshopSrchNav'
driver.maximize_window() # 注釋2
driver.get(url) # 注釋3
dl_list = driver.find_elements_by_class_name('item') # 注釋4
for dl in dl_list:
 name = dl.find_element_by_css_selector("[class='item-name J_TGoldData']").text # 注釋5
 price = dl.find_element_by_class_name('cprice-area').text # 注釋6
 sale = dl.find_element_by_class_name('sale-area').text # 注釋7
 comment = dl.find_element_by_xpath('//*[@id="J_ShopSearchResult"]/div/div[3]/div[1]/dl[1]/dd[2]/div/h4/a/span').text # 注釋8
 print(name, price, sale, comment)
driver.close() # 注釋9

XPath即為XML路徑語言，它是一種用來確定XML（標(biāo)準(zhǔn)通用標(biāo)記語言的子集）文檔中某部分位置的語言。XPath基于XML的樹狀結(jié)構(gòu)，有不同類型的節(jié)點，包括元素節(jié)點，屬性節(jié)點和文本節(jié)點，提供在數(shù)據(jù)結(jié)構(gòu)樹中找尋節(jié)點的能力。起初 XPath 的提出的初衷是將其作為一個通用的、介于與XSLT間的語法模型。但是 XPath 很快的被開發(fā)者采用來當(dāng)作小型查詢語言。(解釋來自：百度百科 - “XPath”，若鏈接失效請訪問：)

這個例子最后的結(jié)果如下圖：

大家依然可以自由的選擇數(shù)據(jù)存儲方式。

這里要注意的是：使用進(jìn)行數(shù)據(jù)爬取相比前面的API請求法可能會慢的多，在打開到對應(yīng)的窗口后，也可能窗口很長時間沒有任何動作，但這不一定是出錯或者是程序卡死的表現(xiàn)，也可能是程序在瘋狂的查找網(wǎng)頁元素，在這個過程中，如果不確定是否出錯，請最好不要進(jìn)行其他操作，避免有些時候造成元素失去焦點，導(dǎo)致莫名的錯誤。

當(dāng)然了，的功能遠(yuǎn)不止如此，幾乎人能在網(wǎng)頁上做出的行為，它都能模擬，包括點擊、輸入等各種行為，這個比較適用于某些網(wǎng)站要填寫驗證碼的情況，更多有趣的內(nèi)容大家可以自行發(fā)現(xiàn)。本講就寫到這里。感謝大家的耐心閱讀。

安全優(yōu)佳

操屁眼的视频在线免费看,日本在线综合一区二区,久久在线观看免费视频,欧美日韩精品久久综