前言:
今天為大家帶來的內容是4個詳細步驟講解爬取網頁數據操作過程!(含實例代碼)本文具有不錯的參考意義,希望在此能夠幫助到大家!
提示:由于涉及代碼較多,大部分代碼用圖片的方式呈現出來!
一、利用.open()打開一個網站:
實例:使用腳本打開一個網頁。
所有程序的第一行都應以#!開頭,它告訴計算機想讓來執行這個程序。(我沒帶這行試了試,也可以,可能這是一種規范吧)
注:不清楚sys.argv用法的,請參考這里;不清楚.join()用法的,請參考這里。sys.argv是字符串的列表,所以將它傳遞給join()方法返回一個字符串。
好了網頁數據爬取工具,現在選中'天安門廣場'這幾個字并復制,然后到桌面雙擊你的程序。當然你也可以在命令行找到你的程序,然后輸入地點。
二、用模塊從Web下載文件:模塊不是自帶的,通過命令行運行pip 安裝。沒翻墻是很難安裝成功的,手動安裝可以參考這里。
中查看網上下載的文件內容的方法還有很多,如果以后的博客用的到,會做說明,在此不再一一介紹。在下載文件的過程中,用()方法可以確保下載確實成功,然后再讓程序繼續做其他事情。
三、將下載的文件保存到本地:
四、用模塊解析HTML:在命令行中用pip 安裝它。
1.bs4.()函數可以解析HTML網站鏈接.get(),也可以解析本地保存的HTML文件,直接open()一個本地HTML頁面。
我這里有錯誤提示,所以加了第二個參數。
2.用()方法尋找元素:需傳入一個字符串作為CSS“選擇器”來取得Web頁面相應元素網頁數據爬取工具,例如:
soup.('div'):所有名為
的元素;soup.('#'):帶有id屬性為的元素;soup.('.'):所有使用CSS class屬性名為的元素;soup.('div span'):所有在
元素之內的元素;soup.('input[name]'):所有名為并有一個name屬性,其值無所謂的元素;soup.('input[type=""]'):所有名為并有一個type屬性,其值為的元素。