三十四、Scrapy中的CrawlSpider
生活随笔
收集整理的這篇文章主要介紹了
三十四、Scrapy中的CrawlSpider
小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
@Author:Runsen
Scrapy框架中分兩類爬蟲,Spider類和CrawlSpider類。
目前騰訊招聘的官網(wǎng)改變了,因此本文只能了解,不能實(shí)戰(zhàn)
創(chuàng)建CrawlSpider模板:
scrapy genspider -t crawl spider名稱 www.xxxx.com
具體參數(shù):
- callback: 從link_extractor中每獲取到鏈接時(shí),參數(shù)所指定的值作為回調(diào)函數(shù),該回調(diào)函數(shù)接受一個(gè)response作為其第一個(gè)參數(shù)。 注意:當(dāng)編寫爬蟲規(guī)則時(shí),避免使用parse作為回調(diào)函數(shù)。由于CrawlSpider使用parse方法來實(shí)現(xiàn)其邏輯,如果覆蓋了
- parse方法,crawl spider將會(huì)運(yùn)行失敗。
- follow:是一個(gè)布爾(boolean)值,指定了根據(jù)該規(guī)則從response提取的鏈接是否需要跟進(jìn)。 如果callback為None,follow 默認(rèn)設(shè)置為True ,否則默認(rèn)為False。
- process_links:指定該spider中哪個(gè)的函數(shù)將會(huì)被調(diào)用,從link_extractor中獲取到鏈接列表時(shí)將會(huì)調(diào)用該函數(shù)。該方法主要用來過濾。
- process_request:指定該spider中哪個(gè)的函數(shù)將會(huì)被調(diào)用, 該規(guī)則提取到每個(gè)request時(shí)都會(huì)調(diào)用該函數(shù)。 (用來過濾request)
很久之前的練習(xí)網(wǎng)站
爬取目標(biāo)職位的名稱和它的詳情頁
因?yàn)橛?個(gè)url
總結(jié)
以上是生活随笔為你收集整理的三十四、Scrapy中的CrawlSpider的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: pyspider爬链家网入库遇到的坑
- 下一篇: 怎么进入虚拟机pe系统 进入虚拟机PE操