Python 爬虫进阶二之 PySpider 框架安装配置
PySpider官方文檔
項目地址
官方文檔
安裝
phantomjs
PhantomJS 是一個基于 WebKit 的服務(wù)器端 JavaScript API。它全面支持 web 而不需瀏覽器支持,其快速、原生支持各種 Web 標準:DOM 處理、CSS 選擇器、JSON、Canvas 和 SVG。 PhantomJS 可以用于頁面自動化、網(wǎng)絡(luò)監(jiān)測、網(wǎng)頁截屏以及無界面測試等。 安裝 以上附有官方安裝方式,如果你是 Ubuntu 或 Mac OS X 用戶,可以直接用命令來安裝 Ubuntu:
Mac OS X:
brew install phantomjspyspider
pip install pyspider安裝pyspider可能有以下錯誤
Using cached pycurl-7.43.0.6.tar.gz (222 kB)ERROR: Command errored out with exit status 10:因為安裝pycurl出錯,pycurl-7.43.0.6.tar.gz沒有安裝成功。進入pythonlibs下載lib安裝。首先查看平臺支持的版本。
python -m pip debug --verbose ... Compatible tags: 24cp36-cp36m-win_amd64cp36-abi3-win_amd64cp36-none-win_amd64 ...進入pythonlibs,沒有pycurl-7.43.0.6.tar.gz,平臺支持的有pycurl?7.43.0.4?cp36?cp36m?win_amd64.whl,那就安裝這個。下載這個到本地。
安裝pycurl
然后安裝pyspider
pip3 install pyspider安裝成功后,命令行輸入
pyspider all有錯誤信息
File "c:\python36\lib\site-packages\wsgidav\wsgidav_app.py", line 118, in _check_configraise ValueError("Invalid configuration:\n - " + "\n - ".join(errors)) ValueError: Invalid configuration:- Deprecated option 'domaincontroller': use 'http_authenticator.domain_controller' instead.配置PhantomJS
windows:在官網(wǎng)下載對應版本的程序,然后放到python安裝目錄的python.exe同級目錄下。
依然有錯誤
發(fā)現(xiàn)還是版本的原因,werkzeug的版本為1.0.0,這個版本中沒有DispatcherMiddleware方法,所以還是降低版本。
注意降低版本不能低于0.15版本,因為我們的pyspider要求大于0.15版本以上
參考
啟動pyspider
然后瀏覽器訪問 http://localhost:5000 觀察一下效果,如果可以正常出現(xiàn) PySpider 的頁面,那證明一切 OK 在此附圖一張,如果寫了爬蟲,之后的界面。
常見錯誤
我曾遇到過的一個錯誤: PySpider HTTP 599: SSL certificate problem 錯誤的解決方法 ,后來在作者那發(fā)了 issue 得到了答案,其他的暫時沒什么問題。 不過發(fā)現(xiàn)有的小伙伴提了各種各樣的問題啊,不過我確實都沒遇到過,我再 Win10,Linux Ubuntu,Linux CentOS,Mac OS X 都成功運行。不過確實有些奇怪的問題,跑著跑著崩了,一點就崩了我也就比較納悶了。 如果大家有問題,可以看看作者項目里面有沒有類似的 issue,另外也推薦大家直接到作者的 GitHub 上發(fā) issue。 畢竟,這個框架不是我寫的。 在此附上 Issue 地址: PySpider Issue
總結(jié)
以上是生活随笔為你收集整理的Python 爬虫进阶二之 PySpider 框架安装配置的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: paper 17 : 机器学习算法思想简
- 下一篇: restful-api-design-r