一. 網站內容
1. 網站截圖說明
本教程通過“山西招投標網”官網來采集 鏈接列表(紅框位置) 中正文的附件,故鏈接入口為:/
官網-二手房
2. 鏈接列表采集結果預覽
二. 操作方法
1. 新建任務
按圖片數字所示,1-2-3完成新建任務的步驟
新建任務
Step1:按照圖示1位置,點擊“采集配置”。
Step2:按圖示2位置,點擊“任務列表”中的“+”。
Step3:在新建采集任務中輸入采集網址即/,任務名稱可自定義,本次可輸入為“中國石頭招標投標網”。
點擊“下一步”,需要采集正文數據,所以此處需要勾選“網頁內所有鏈接”和“抽取數據”。
2. 鏈接抽取配置
Step1:按照圖示1位置,Ctrl+左鍵選中“鏈接列表”。
Step2:按照圖示2位置,點擊“確認選區”,保證我們的數據是被選中的狀態
Step3:按照圖示3位置點擊“采集預覽”,查看數據詳情采集標題源碼是什么,如下圖所示:
3. 數據抽取
抽取數據(紅框位置)中的鏈接 務必對應“鏈接列表”內的正文數據,即附件頁面地址。/f/view--.html
4. 配置表單
如圖示點擊【數據建表】:
Step1:點擊“采集配置”
Step2:點擊“數據建表”
Step3:點擊“+”,新建表單并自定義名稱,這里取為“”
根據所需內容,配置表單字段,此處配置了包括主鍵、網頁地址URL、標題、附件。表單建立如下:
創建主鍵
主鍵務必第一個創建,其含義為該表單所屬ID
字段名稱:hkey
采集內容 選擇“主鍵”
數據類型 選擇“長數字”
字段屬性 選擇 “索引字段”、“健值唯一”、“主鍵字段”、“全文索引”
最后點擊“確定”即可。
創建字段1-網頁地址
字段名稱:url
采集內容 選擇“選區內可見文本”
數據類型 選擇“字符串”
數據長度 選擇 范圍240即可,最后點擊確定。(備注可隨意)
創建字段2-標題
字段名稱:
采集內容 選擇“選區內可見文本”
數據類型 選擇“字符串”
高級類型 選擇 “長文本(
創建字段3-附件
字段名稱:
采集內容 選擇“網頁代碼/圖片等資料”-“數據流文件”
表單配置字段自定義即可,如有多需求 可按上述同樣操作即可。最終呈現如下圖:
5. 關聯數據表
表單配置完畢后,需要進行數據關聯,操作如下:
選擇所需的表單,點擊【創建】按鈕
創建表名稱可隨意填寫,需注意 僅可使用“全英文”
6. 確認選區
操作如下圖所示:
Step1:按照圖1位置,在左側點擊“”
Step2:按照圖2位置ctrl+左鍵選中文章標題
Step3:最后點擊“確認選區”即可
Step1:按照圖1位置,在左側點擊“”
Step2:按照圖2位置ctrl+左鍵選中文章標題
Step3:最后點擊“確認選區”即可
Step1:按照圖1位置,在左側點擊“”
Step2:在頁面最低端會出現“附件下載”的位置即圖2所示,ctrl+左鍵選中附件內容。
點擊保存,完成數據選區
7. 數據建表 模板預覽
在“新建模板:02”處右鍵選擇“模板預覽”,即可查看是否采集出所需數據,如下圖:
字段數據出現“ DATA”屬于正?,F象,請繼續跟著教程完成最終采集。
三. 采集數據
1. 運行設置
運行設置處可以設置采集速度、采集策略、任務裝載等。
2. 選擇采集任務
操作如下圖數字所示:
Step1:選擇【數據采集】
Step2:在【任務列表】中勾選需要采集的任務采集標題源碼是什么,可勾選多個任務,同時采集。
Step3:點擊“連接數據庫”選擇“打開”,此步驟不可避免,因為采集需要和數據庫進行關聯。
3. 開始采集
點擊【開始采集】,系統開始進行采集。剩余任務數為0時,系統自動停止采集。用戶也可以自己暫停任務或停止任務(停止任務會釋放任務,再次啟動時重新裝載任務)。
4.數據瀏覽
采集一段時間以后,點擊【數據瀏覽】,在數據列表中選中對應的數據表,即可瀏覽采集到的數據,點擊【刷新】按鈕可以同步顯示數據。
數據瀏覽
5.導出數據
點擊【導出】按鈕,選擇導出文件格式后保存。
導出數據時需選擇正確的“存儲路徑”
導出方式 選擇 “導出字段”
欲導出字段 選擇 下滑列表中的 “”,最終點擊確認即可完成。
導出時,文件名后綴務必改為“docm”格式,保存類型選擇“All Files”
打開下載后的文件,一份完整的附件就這樣輕松采集到了,你學會了嗎?
俗話說的好:“實踐是檢驗真理的唯一道理”,趕快下載數據采集器親身上手體驗一下吧,下載地址: