python多线程框架_Python爬虫第七天:多线程爬虫|Scrapy框架
內容簡述:
一:多線程爬蟲
二:Scrapy框架
一:多線程爬蟲原理
【示例見代碼】
二:Scrapy框架
定義:Scrapy是基于Python實現,方便爬取網站數據、提取結構性數據的應用框架。
底層:使用Twisted異步網絡框架來處理網絡通訊,加快下載速度。
不用手動實現異步框架,包含了多種中間件接口,非常靈活。
Scrapy運行架構流程圖:
組件說明:
Scrapy Engine(引擎): 負責Spider、ItemPipeline、Downloader、Scheduler中間的通訊,信號、數據傳遞等。
Scheduler(調度器): 負責接收引擎發送過來的Request請求,并按照一定的方式進行整理排列,入隊,當引擎需要時,交還給引擎。
Downloader(下載器):負責下載引擎發送的所有Requests請求,并將其獲取到的Responses交還給引擎,由引擎交給Spider來處理。
Spider(爬蟲):負責處理所有Responses,分析提取數據,獲取Item字段需要的數據,并將需要跟進的URL提交給引擎,再次進入調度器
Item Pipeline(管道):負責處理Spider中獲取到的Item,并進行后期處理(如詳細分析、過濾、存儲等).
Downloader Middlewares(下載中間件):類似一個可以自定義擴展下載功能的組件。
Spider Middlewares(Spider中間件):類似一個可以自定擴展和操作引擎和Spider中間通信的功能組件(比如進入Spider的Responses以及從Spider出去的Requests)
簡單使用:(安裝)pip3 install scrapy
(1)創建項目scrapy startproject spider1(項目名稱)
(2)目錄結構
spider1
spider1
spiders????? ?????爬蟲目錄(寫代碼位置)
__init__.py
lala.py?????? 爬蟲文件
__init__.py
items.py????????? 定義數據結構地方
middlewares.py??? 中間件
pipelines.py????? 管道文件
settings.py?????? 項目配置文件
scrapy.cfg
通過指令創建爬蟲文件
cd spider1/spider1
scrapy genspider qiubai"www.qiushibaike.com"
此時在spider1/spider1/spiders里面自動創建一個qiubai.py
name:爬蟲的名字,啟動的時候根據爬蟲的名字啟動項目
allowed_domains:允許的域名。意思是爬取的時候這個請求要不要發送,如果是該允許域名下的url,就會發送,否則過濾掉這個請求。【列表允許多個域名】
start_urls:爬蟲起始url,是一個列表,里面可以寫多個,一般只寫一個
def parse(self, response):寫代碼的入口,parse函數名是固定。當收到下載數據時系統會自動調用
參數response,是一個響應對象,可從中獲取html字符串,然后解析之。
【溫馨提示】這個parse函數必須返回一個可迭代對象
(3)定制items.py,個性化定義數據結構格式。
(4)運行-打印response對象測試下
來到終端下:
cd spider1/ spider1/spiders
scrapy crawl qiubai
根據response獲取網頁內容
response.text? 字符串類型??response.body二進制類型
(5)運行,直接通過命令導出json格式
scrapy crawl qiubai -o qiubai.json
scrapy crawl qiubai -o qiubai.xml
scrapy crawl qiubai -o qiubai.csv
【注】window 安裝問題參考
pip install Scrapy
building 'twisted.test.raiser' extension
error: Microsoft Visual C++ 14.0 is required.Get it with "Microsoft Visual C++? BuildTools": http://landinghub.visualstudio.com/visual-cpp-build-tools
解決方案:
http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
下載twisted對應版本的whl文件(如我的Twisted-17.5.0-cp36-cp36m-win_amd64.whl),cp后面是python版本,amd64代表64位,運行命令:
pip install C:\Users\CR\Downloads\Twisted-17.5.0-cp36-cp36m-win_amd64.whl
pip install Scrapy
總結
以上是生活随笔為你收集整理的python多线程框架_Python爬虫第七天:多线程爬虫|Scrapy框架的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: mysql数据库语句分类_细数MySQL
- 下一篇: 不用空格怎么打两个空格_韩语空格怎么空?