[Python]网络爬虫(六):一个简单的百度贴吧的小爬虫
                                                            生活随笔
收集整理的這篇文章主要介紹了
                                [Python]网络爬虫(六):一个简单的百度贴吧的小爬虫
小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.                        
                                
                            
                            
                            [python]?view plaincopy    
 
 #?-*-?coding:?utf-8?-*-??  #---------------------------------------??  #???程序:百度貼吧爬蟲??  #???版本:0.1??  #???作者:why??  #???日期:2013-05-14??  #???語言:Python?2.7??  #???操作:輸入帶分頁的地址,去掉最后面的數(shù)字,設(shè)置一下起始頁數(shù)和終點(diǎn)頁數(shù)。??  #???功能:下載對應(yīng)頁碼內(nèi)的所有頁面并存儲為html文件。??  #---------------------------------------??  ???  import?string,?urllib2??  ???  #定義百度函數(shù)??  def?baidu_tieba(url,begin_page,end_page):?????  ????for?i?in?range(begin_page,?end_page+1):??  ????????sName?=?string.zfill(i,5)?+?'.html'#自動填充成六位的文件名??  ????????print?'正在下載第'?+?str(i)?+?'個(gè)網(wǎng)頁,并將其存儲為'?+?sName?+?'......'??  ????????f?=?open(sName,'w+')??  ????????m?=?urllib2.urlopen(url?+?str(i)).read()??  ????????f.write(m)??  ????????f.close()??  ???  ???  #--------?在這里輸入?yún)?shù)?------------------??  ??  #?這個(gè)是山東大學(xué)的百度貼吧中某一個(gè)帖子的地址??  #bdurl?=?'http://tieba.baidu.com/p/2296017831?pn='??  #iPostBegin?=?1??  #iPostEnd?=?10??  ??  bdurl?=?str(raw_input(u'請輸入貼吧的地址,去掉pn=后面的數(shù)字:\n'))??  begin_page?=?int(raw_input(u'請輸入開始的頁數(shù):\n'))??  end_page?=?int(raw_input(u'請輸入終點(diǎn)的頁數(shù):\n'))??  #--------?在這里輸入?yún)?shù)?------------------??  ???  ??  #調(diào)用??  baidu_tieba(bdurl,begin_page,end_page)?? 
                            
                        
                        
                        總結(jié)
以上是生活随笔為你收集整理的[Python]网络爬虫(六):一个简单的百度贴吧的小爬虫的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
 
                            
                        - 上一篇: 用js脚本实现链接
- 下一篇: HDU 5908 Abelian Per
