當(dāng)前位置：首頁 > 编程语言 > python >内容正文

python

python使用requests+xpath爬取小说并下载

發(fā)布時(shí)間：2025/5/22 python 39 豆豆

生活随笔收集整理的這篇文章主要介紹了 python使用requests+xpath爬取小说并下载小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

這個(gè)爬蟲只是選定熱門小說，不支持自選搜索下載，日后會補(bǔ)充并改進(jìn)。

選定小說網(wǎng)址:

筆趣閣

爬取:

需要導(dǎo)入的包

import requests from lxml import etree import os import re import time import datetime

獲取主頁面上的小說分類地址及名稱

def main_html(url,headers): # 獲取首頁小說分類地址nav_name_href = "//*[@id='wrapper']/div[2]/ul/li/a//@href"response = requests.get(url,headers=headers).texthtml = etree.HTML(response)nav_name = html.xpath(nav_name_href)[2:-1]return nav_name #返回首頁小說分類地址

獲取主頁面下的熱門小說列表。

def next_html(url,headers): # 該分類下的熱門小說xpath_book = '//*[@id="newscontent"]/div[2]/ul/li/span/a/text()' # 書名稱xpath_url = '//*[@id="newscontent"]/div[2]/ul/li/span/a/@href' # 書的urlxpath_id = '//*[@id="newscontent"]/div[2]/ul/li/span/text()' # 小說作者name_url = [] # 用來存放小說的名稱與地址rep = requests.get(url=url,headers=headers).texthtml = etree.HTML(rep)r_book = html.xpath(xpath_book)r_url = html.xpath(xpath_url)BookAndUrl = dict(zip(r_book,r_url))print(r_book)try:s_book = input("============請輸入你想要看的小說全稱============"+"\n")s_url = BookAndUrl[s_book]name_url.append(s_book)name_url.append(s_url)return name_url # 獲取想要的書名與地址,用列表返回except:KeyError(print("輸入有誤"))return False

小說本說的章節(jié)與連接

def story_html(url, headers): # 小說章節(jié)與urlxpath_text = '//*[@id="list"]/dl/dd//text()'xpath_url = '//*[@id="list"]/dl/dd//a/@href'rep = requests.get(url=url,headers=headers).texthtml = etree.HTML(rep)x_text = html.xpath(xpath_text)x_url = html.xpath(xpath_url)text_dict = dict(zip(x_text[9:-1],x_url[9:-1])) # 去除掉章節(jié)前的話語導(dǎo)語之類的。return text_dict

下載小說本說(只獲取有效章節(jié))

def download_html(bookname,url_name_dict):num_d = 0 # 用來給下載文件編號排序。title_Re = r"[\u7b2c](.|\n)*[\u7ae0]" # 匹配正確的章節(jié)名稱。以第開頭，章結(jié)尾key_count = len(url_name_dict.keys()) # 文章總數(shù)for key,values in url_name_dict.items():time.sleep(0.5) # 設(shè)置休眠時(shí)間，防止下載過快內(nèi)容為空,下載時(shí)候看著舒服一點(diǎn)。rep = requests.get(url=values,headers=headers).texthtml = etree.HTML(rep)xpath2 ='//*[@id="content"]//text()'the_end = html.xpath(xpath2)res = str(the_end)r = re.findall(u'[\u4e00-\u9fa5].+?', res) # 匹配中文，去除掉下載時(shí)候的其他轉(zhuǎn)義字符，原生字符the_fi = "".join(r)the_final = list(the_fi)if not os.path.exists(os.getcwd() + "\\" + bookname): # 以小說名創(chuàng)建文件夾os.makedirs(os.getcwd() + "\\" + bookname)if (re.match(title_Re,key)): # 獲取所有有效章節(jié)num_d += 1try:with open(os.getcwd() + "\\" + bookname + "\\" + str(num_d)+key + ".txt", "w+", encoding="utf-8") as fp:for num in range(len(the_final)): # 每50個(gè)字換行一次，隨自己調(diào)if(num%50==0 and num!=0):fp.write("\n" + the_final[num])else:fp.write(the_final[num])print("{:10}{:>15}{:>20}".format(key,"下載成功","已完成:"+str(num_d)+"/"+str(key_count)))except (TimeoutError,IndexError):passelse:key_count = key_count -1print("{:10}{:>15}".format(key,"無效章節(jié)","已完成"))

寫一個(gè)判斷函數(shù)；只你呢個(gè)獲取固定的小說分類；

def is_num(num): # 用來判斷輸入是否合格try:new_num = float(num)-1if(float(new_num)):try:if(float(num)>7):return Falseelif(float(new_num)<=0):return Falseexcept IndexError:passexcept (ValueError,IndexError):passtry:import unicodedataunicodedata.numeric(num)return Trueexcept (TypeError, ValueError,IndexError):passreturn False

程序運(yùn)行開始顯示

def main_menu():num = input("""========================按數(shù)字輸入想看的小說類型========================1.玄幻小說 2.修真小說 3.都市小說 4.穿越小說 5.網(wǎng)游小說 6.科幻小說 7.言情小說""")return num

主函數(shù)

if __name__ == '__main__':start_time = datetime.datetime.now()main_url ="http://www.b520.cc/"headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Safari/537.36"}num = main_menu() # 拿到想看的小說類型main_text_url = main_html(url=main_url,headers=headers) # 地址。if(is_num(num)): # 判斷輸入數(shù)字合不合格。num =int(num)num = num-1text_2_url = main_text_url[num]text_2_url = "http://"+ text_2_url[2:-1]+"/"next_url = next_html(text_2_url, headers=headers)next_3 =story_html(next_url[1],headers=headers)download_html(next_url[0], next_3)end_time = datetime.datetime.now()print("############################共耗時(shí)%ss############################" % (end_time-start_time))

這個(gè)程序可以直接復(fù)制運(yùn)行。

總結(jié)

以上是生活随笔為你收集整理的python使用requests+xpath爬取小说并下载的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： Python用selenium获取coo
下一篇： etree.xpath获取数据为空的解决

国产亚洲精品久久久久动-影视先锋中文字幕-av网站在线观看一区-亚洲视频 在线观看-久久亚洲不卡-欧美精品一区在线观看-欧美乱淫视频-欧美熟妇另类久久久久久不卡-粉嫩av一区二区三区四区五区-日韩欧美操

python

python使用requests+xpath爬取小说并下载

選定小說網(wǎng)址:

爬取:

這個(gè)程序可以直接復(fù)制運(yùn)行。

總結(jié)

国产亚洲精品久久久久动-影视先锋中文字幕-av网站在线观看一区-亚洲视频在线观看-久久亚洲不卡-欧美精品一区在线观看-欧美乱淫视频-欧美熟妇另类久久久久久不卡-粉嫩av一区二区三区四区五区-日韩欧美操

這個(gè)程序可以直接復(fù)制運(yùn)行。