當前位置：首頁 > 编程语言 > python >内容正文

python

python spider怎么用_python爬虫入门（七）Scrapy框架之Spider类

發布時間：2024/7/23 python 27 豆豆

生活随笔收集整理的這篇文章主要介紹了 python spider怎么用_python爬虫入门（七）Scrapy框架之Spider类小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Spider類

Spider類定義了如何爬取某個(或某些)網站。包括了爬取的動作(例如:是否跟進鏈接)以及如何從網頁的內容中提取結構化數據(爬取item)。

換句話說，Spider就是您定義爬取的動作及分析某個網頁(或者是有些網頁)的地方。

class scrapy.Spider是最基本的類，所有編寫的爬蟲必須繼承這個類。

主要用到的函數及調用順序為：

__init__()?: 初始化爬蟲名字和start_urls列表

start_requests() 調用make_requests_from url():生成Requests對象交給Scrapy下載并返回response

parse()?: 解析response，并返回Item或Requests(需指定回調函數)。Item傳給Item pipline持久化，而Requests交由Scrapy下載，并由指定的回調函數處理(默認parse())，一直進行循環，直到處理完所有的數據為止。

源碼參考

#所有爬蟲的基類，用戶定義的爬蟲必須從這個類繼承

classSpider(object_ref):#定義spider名字的字符串(string)。spider的名字定義了Scrapy如何定位(并初始化)spider，所以其必須是唯一的。

#name是spider最重要的屬性，而且是必須的。

#一般做法是以該網站(domain)(加或不加后綴 )來命名spider。例如，如果spider爬取 mywebsite.com ，該spider通常會被命名為 mywebsite

name =None#初始化，提取爬蟲名字，start_ruls

def __init__(self, name=None, **kwargs):if name is notNone:

self.name=name#如果爬蟲沒有名字，中斷后續操作則報錯

elif not getattr(self, 'name', None):raise ValueError("%s must have a name" % type(self).__name__)#python 對象或類型通過內置成員__dict__來存儲成員信息

self.__dict__.update(kwargs)#URL列表。當沒有指定的URL時，spider將從該列表中開始進行爬取。因此，第一個被獲取到的頁面的URL將是該列表之一。后續的URL將會從獲取到的數據中提取。

if not hasattr(self, 'start_urls'):

self.start_urls=[]#打印Scrapy執行后的log信息

def log(self, message, level=log.DEBUG, **kw):

log.msg(message, spider=self, level=level, **kw)#判斷對象object的屬性是否存在，不存在做斷言處理

defset_crawler(self, crawler):assert not hasattr(self, '_crawler'), "Spider already bounded to %s" %crawler

self._crawler=crawler

@propertydefcrawler(self):assert hasattr(self, '_crawler'), "Spider not bounded to any crawler"

returnself._crawler

@propertydefsettings(self):returnself.crawler.settings#該方法將讀取start_urls內的地址，并為每一個地址生成一個Request對象，交給Scrapy下載并返回Response

#該方法僅調用一次

defstart_requests(self):for url inself.start_urls:yieldself.make_requests_from_url(url)#start_requests()中調用，實際生成Request的函數。

#Request對象默認的回調函數為parse()，提交的方式為get

defmake_requests_from_url(self, url):return Request(url, dont_filter=True)#默認的Request對象回調函數，處理返回的response。

#生成Item或者Request對象。用戶必須實現這個類

defparse(self, response):raiseNotImplementedError

@classmethoddefhandles_request(cls, request):returnurl_is_from_spider(request.url, cls)def __str__(self):return "" % (type(self).__name__, self.name, id(self))__repr__ = __str__

主要屬性和方法

name

定義spider名字的字符串。

例如，如果spider爬取 mywebsite.com ，該spider通常會被命名為 mywebsite

allowed_domains

包含了spider允許爬取的域名(domain)的列表，可選。

start_urls

初始URL元祖/列表。當沒有制定特定的URL時，spider將從該列表中開始進行爬取。

start_requests(self)

該方法必須返回一個可迭代對象(iterable)。該對象包含了spider用于爬取(默認實現是使用 start_urls 的url)的第一個Request。

當spider啟動爬取并且未指定start_urls時，該方法被調用。

parse(self, response)

當請求url返回網頁沒有指定回調函數時，默認的Request對象回調函數。用來處理網頁返回的response，以及生成Item或者Request對象。

Scrapy框架爬取--->>>騰訊招聘的所有職位信息

1.先分析騰訊招聘網站url

第一頁：https://hr.tencent.com/position.php?&start=0#a

第二頁：https://hr.tencent.com/position.php?&start=10#a

第三頁：https://hr.tencent.com/position.php?&start=20#a

發現有的職位類別為空，所有在找職位類別的時候空值也要加進去，否則for循環取不到值會直接退出了 ./td[2]/text()|./td[2]

2.目錄結構

3.items.py

#-*- coding: utf-8 -*-

importscrapyclassTencentItem(scrapy.Item):#職位名

positionname =scrapy.Field()#詳情連接

positionlink =scrapy.Field()#職位類別

positionType =scrapy.Field()#招聘人數

peopleNum =scrapy.Field()#工作地點

workLocation =scrapy.Field()#發布時間

publishTime = scrapy.Field()

4.tencentPosition.py

tencentPosition.py用命令創建 scrapy genspider tencentPosition "tencent.com"

#-*- coding: utf-8 -*-

importscrapyfrom tencent.items importTencentItemclassTencentpositionSpider(scrapy.Spider):

name= "tencent"allowed_domains= ["tencent.com"]

url= "http://hr.tencent.com/position.php?&start="offset=0

start_urls= [url +str(offset)]defparse(self, response):for each in response.xpath("//tr[@class='even'] | //tr[@class='odd']"):#初始化模型對象

item =TencentItem()

#職位名稱

item['positionname'] = each.xpath("./td[1]/a/text()").extract()[0]#詳情連接

item['positionlink'] = each.xpath("./td[1]/a/@href").extract()[0]#職位類別

item['positionType'] = each.xpath("./td[2]/text()|./td[2]").extract()[0]#招聘人數

item['peopleNum'] = each.xpath("./td[3]/text()").extract()[0]#工作地點

item['workLocation'] = each.xpath("./td[4]/text()").extract()[0]#發布時間

item['publishTime'] = each.xpath("./td[5]/text()").extract()[0]yielditemif self.offset < 3171:

self.offset+= 10

#每次處理完一頁的數據之后，重新發送下一頁頁面請求

#self.offset自增10，同時拼接為新的url，并調用回調函數self.parse處理Response

yield scrapy.Request(self.url + str(self.offset), callback = self.parse)

5.pipelines.py

#-*- coding: utf-8 -*-

importjsonclassTencentPipeline(object):def __init__(self):

self.filename= open("tencent.json", "w")defprocess_item(self, item, spider):

text= json.dumps(dict(item), ensure_ascii = False) + ",\n"self.filename.write(text.encode("utf-8"))returnitemdefclose_spider(self, spider):

self.filename.close()

6.settings.py里面的設置

ROBOTSTXT_OBEY =True

DOWNLOAD_DELAY= 4 #防止爬取過快丟失數據

DEFAULT_REQUEST_HEADERS={"User-Agent" : "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;",'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8'}

ITEM_PIPELINES={'tencent.pipelines.TencentPipeline': 300,

}

爬取的結果

總結

以上是生活随笔為你收集整理的python spider怎么用_python爬虫入门（七）Scrapy框架之Spider类的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：照片识别出错_AI跨年龄人脸识别技术在跨
下一篇： treeselect只选了分支节点全选_

国产亚洲精品久久久久动-影视先锋中文字幕-av网站在线观看一区-亚洲视频 在线观看-久久亚洲不卡-欧美精品一区在线观看-欧美乱淫视频-欧美熟妇另类久久久久久不卡-粉嫩av一区二区三区四区五区-日韩欧美操

python

python spider怎么用_python爬虫入门（七）Scrapy框架之Spider类

總結

国产亚洲精品久久久久动-影视先锋中文字幕-av网站在线观看一区-亚洲视频在线观看-久久亚洲不卡-欧美精品一区在线观看-欧美乱淫视频-欧美熟妇另类久久久久久不卡-粉嫩av一区二区三区四区五区-日韩欧美操