Python 爬取免费小说思路

2025-12-13 0 831

Python 爬取免费小说思路

代码解析

爬取东西基本的四行代码:

Python 爬取免费小说思路

user-agent

Python 爬取免费小说思路

安装模块

cmd 打开小黑窗,执行安装模块命令

模块的作用:完成具体的某一个功能

pip install bs4 -i https://mirrors.aliyun.com/pypi/simple/

pip install lxml -i https://mirrors.aliyun.com/pypi/simple/

	

Python 爬取免费小说思路

从 bs4 导入 BeautifulSoup ,

把 res.text 解析成 ‘lxml’ , 相当于把文本原本 text的格式 整理成 lxml格式
Python 爬取免费小说思路

查询某个标签开头的数据

解释这行代码的作用:

soup.find_all(\'x\')-->  参数: \'x\'   -->   就能查找获取所有 <x> xxxxxx </x> 的数据

Python 爬取免费小说思路

筛选

筛选小说:思路是从大到小筛选,实际先筛选小的,找不到再扩大范围筛选

Python 爬取免费小说思路

遍历

把筛选的内容进行遍历
获取一条目录 (<a 开头的),就是遍历每一条小说的数据
Python 爬取免费小说思路

获取小说的章节名称

Python 爬取免费小说思路

每章小说的链接

Python 爬取免费小说思路

获取请求网址的响应

Python 爬取免费小说思路

获取小说的内容

获取小说的内容,但是里面还有各种标签,需要进行筛选
Python 爬取免费小说思路

筛选内容

筛选到 <div> 标签了

Python 爬取免费小说思路

整理内容

把内容再进行整理,去掉 div 标签
Python 爬取免费小说思路

Python 爬取免费小说思路

爬取下载到指定文件夹

写入
把小说爬取到指定的文件夹位置
Python 爬取免费小说思路

完整代码:

Python 爬取免费小说思路
Python 爬取免费小说思路
Python 爬取免费小说思路

# 导入请求模块(完成具体的某一个功能)
import requests
# 把爬虫伪装成一个浏览器,去访问网址
wz = {\'user-agent\': \'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/117.0.0.0 Safari/537.36\'}
# 1、地址: 网址:某一篇具体的小说的网址
url = \'https://book.xxxxxxx.com/showchapter/624942.html\'
# 2、请求: 请求网址的响应
res = requests.get(url, headers=wz)
# print(res)

# 响应码
# res.status_code
# 响应内容 --- 视频、音乐、图片
# res.content
# 响应的文本数据
# print(res.text)

# 从 bs4 导入 BeautifulSoup
from bs4 import BeautifulSoup
# 3、整理
# 把 res.text 解析成 \'lxml\' , 相当于把文本原本 text的格式 整理成 lxml格式
soup = BeautifulSoup(res.text, \'lxml\')
# print(soup)

# 4、筛选
# 参数 : \'li\' --> 就能查找获取所有 <li> xxxxxx </li> 的数据
# soup.find_all(\'x\')--> 参数 : \'x\' --> 就能查找获取所有 <x> xxxxxx </x> 的数据
s = soup.find_all(\'li\')
# print(s)

# 筛选:思路是从大到小筛选,实际先筛选小的,找不到再扩大范围筛选
# 从文档中找出 li class=\'col-4\' 的数据 , class_ : class 是关键字,所以加个下划线做区分
lists = soup.find_all(\'li\', class_=\"col-4\")
# print(lists)

# 遍历获取
for l in lists:
 
  # 获取一条目录 (<a 开头的)
  a = l.find(\'a\')

  # 获取标题,就是小说章节名称
  title = a.text

  # 1、地址---------获取这一章节小说的链接
  link = a.get(\'href\')

  # 2、请求
  res = requests.get(link, headers=wz)

  # 3、整理
  soup = BeautifulSoup(res.text, \'lxml\')

  # 4、筛选内容
  cont = soup.find(\'div\', class_=\"content\")

  # 整理好的内容
  sortOutCont = \'\\n\'.join(cont.stripped_strings)

  # 爬取出来, 需要自己用小说标题名创建一个文件夹,把 text 写入文件,w--> 文本文件的写入 , wb 是二进制文件的写入
  open(f\'xxx的探险/{title}.txt\', \'w\').write(sortOutCont)  
收藏 (0) 打赏

感谢您的支持,我会继续努力的!

打开微信/支付宝扫一扫,即可进行扫码打赏哦,分享从这里开始,精彩与您同在
点赞 (0)

申明:本文由第三方发布,内容仅代表作者观点,与本网站无关。对本文以及其中全部或者部分内容的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。本网发布或转载文章出于传递更多信息之目的,并不意味着赞同其观点或证实其描述,也不代表本网对其真实性负责。

左子网 编程相关 Python 爬取免费小说思路 https://www.zuozi.net/36477.html

常见问题
  • 1、自动:拍下后,点击(下载)链接即可下载;2、手动:拍下后,联系卖家发放即可或者联系官方找开发者发货。
查看详情
  • 1、源码默认交易周期:手动发货商品为1-3天,并且用户付款金额将会进入平台担保直到交易完成或者3-7天即可发放,如遇纠纷无限期延长收款金额直至纠纷解决或者退款!;
查看详情
  • 1、描述:源码描述(含标题)与实际源码不一致的(例:货不对板); 2、演示:有演示站时,与实际源码小于95%一致的(但描述中有”不保证完全一样、有变化的可能性”类似显著声明的除外); 3、发货:不发货可无理由退款; 4、安装:免费提供安装服务的源码但卖家不履行的; 5、收费:价格虚标,额外收取其他费用的(但描述中有显著声明或双方交易前有商定的除外); 6、其他:如质量方面的硬性常规问题BUG等。 注:经核实符合上述任一,均支持退款,但卖家予以积极解决问题则除外。
查看详情
  • 1、左子会对双方交易的过程及交易商品的快照进行永久存档,以确保交易的真实、有效、安全! 2、左子无法对如“永久包更新”、“永久技术支持”等类似交易之后的商家承诺做担保,请买家自行鉴别; 3、在源码同时有网站演示与图片演示,且站演与图演不一致时,默认按图演作为纠纷评判依据(特别声明或有商定除外); 4、在没有”无任何正当退款依据”的前提下,商品写有”一旦售出,概不支持退款”等类似的声明,视为无效声明; 5、在未拍下前,双方在QQ上所商定的交易内容,亦可成为纠纷评判依据(商定与描述冲突时,商定为准); 6、因聊天记录可作为纠纷评判依据,故双方联系时,只与对方在左子上所留的QQ、手机号沟通,以防对方不承认自我承诺。 7、虽然交易产生纠纷的几率很小,但一定要保留如聊天记录、手机短信等这样的重要信息,以防产生纠纷时便于左子介入快速处理。
查看详情

相关文章

猜你喜欢
发表评论
暂无评论
官方客服团队

为您解决烦忧 - 24小时在线 专业服务