首页编程相关正文

我要发布

Python 爬取免费小说思路

Boss 编程相关

2025-12-13 0 1,050

Python 爬取 免费小说思路

代码解析

爬取东西基本的四行代码：

user-agent

安装模块

cmd 打开小黑窗，执行安装模块命令

模块的作用：完成具体的某一个功能

pip install bs4 -i https://mirrors.aliyun.com/pypi/simple/

pip install lxml -i https://mirrors.aliyun.com/pypi/simple/

从 bs4 导入 BeautifulSoup ，

把 res.text 解析成 ‘lxml’ ，相当于把文本原本 text的格式整理成 lxml格式

查询某个标签开头的数据

解释这行代码的作用：

soup.find_all(\'x\')-->  参数: \'x\'   -->   就能查找获取所有 <x> xxxxxx </x> 的数据

筛选

筛选小说：思路是从大到小筛选，实际先筛选小的，找不到再扩大范围筛选

遍历

把筛选的内容进行遍历
获取一条目录（<a 开头的），就是遍历每一条小说的数据

获取小说的章节名称

每章小说的链接

获取请求网址的响应

获取小说的内容

获取小说的内容，但是里面还有各种标签，需要进行筛选

筛选内容

筛选到 <div> 标签了

整理内容

把内容再进行整理，去掉 div 标签

爬取下载到指定文件夹

写入
把小说爬取到指定的文件夹位置

完整代码：

# 导入请求模块（完成具体的某一个功能）
import requests
# 把爬虫伪装成一个浏览器，去访问网址
wz = {\'user-agent\': \'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/117.0.0.0 Safari/537.36\'}
# 1、地址： 网址：某一篇具体的小说的网址
url = \'https://book.xxxxxxx.com/showchapter/624942.html\'
# 2、请求： 请求网址的响应
res = requests.get(url, headers=wz)
# print(res)

# 响应码
# res.status_code
# 响应内容 --- 视频、音乐、图片
# res.content
# 响应的文本数据
# print(res.text)

# 从 bs4 导入 BeautifulSoup
from bs4 import BeautifulSoup
# 3、整理
# 把 res.text 解析成 \'lxml\' ， 相当于把文本原本 text的格式 整理成 lxml格式
soup = BeautifulSoup(res.text, \'lxml\')
# print(soup)

# 4、筛选
# 参数 ： \'li\' --> 就能查找获取所有 <li> xxxxxx </li> 的数据
# soup.find_all(\'x\')--> 参数 ： \'x\' --> 就能查找获取所有 <x> xxxxxx </x> 的数据
s = soup.find_all(\'li\')
# print(s)

# 筛选：思路是从大到小筛选，实际先筛选小的，找不到再扩大范围筛选
# 从文档中找出 li class=\'col-4\' 的数据 ， class_ : class 是关键字，所以加个下划线做区分
lists = soup.find_all(\'li\', class_=\"col-4\")
# print(lists)

# 遍历获取
for l in lists:
 
  # 获取一条目录 （<a 开头的）
  a = l.find(\'a\')

  # 获取标题，就是小说章节名称
  title = a.text

  # 1、地址---------获取这一章节小说的链接
  link = a.get(\'href\')

  # 2、请求
  res = requests.get(link, headers=wz)

  # 3、整理
  soup = BeautifulSoup(res.text, \'lxml\')

  # 4、筛选内容
  cont = soup.find(\'div\', class_=\"content\")

  # 整理好的内容
  sortOutCont = \'\\n\'.join(cont.stripped_strings)

  # 爬取出来， 需要自己用小说标题名创建一个文件夹，把 text 写入文件，w--> 文本文件的写入 ， wb 是二进制文件的写入
  open(f\'xxx的探险/{title}.txt\', \'w\').write(sortOutCont)

收藏 (0) 打赏

感谢您的支持，我会继续努力的!

打开微信/支付宝扫一扫，即可进行扫码打赏哦，分享从这里开始，精彩与您同在

申明：本文由第三方发布，内容仅代表作者观点，与本网站无关。对本文以及其中全部或者部分内容的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。本网发布或转载文章出于传递更多信息之目的，并不意味着赞同其观点或证实其描述，也不代表本网对其真实性负责。

左子网编程相关 Python 爬取免费小说思路 https://www.zuozi.net/36477.html

bs https install lxml pip python 免费小说模块爬取

Boss

上一篇： PyCharm中文乱码的三处解决方法

下一篇： HTML爱心网页制作[樱花+爱心]

常见问题

发货方式是什么？

1、自动：拍下后，点击（下载）链接即可下载；2、手动：拍下后，联系卖家发放即可或者联系官方找开发者发货。

查看详情

交易周期是多久呢？

1、源码默认交易周期：手动发货商品为1-3天，并且用户付款金额将会进入平台担保直到交易完成或者3-7天即可发放，如遇纠纷无限期延长收款金额直至纠纷解决或者退款！；

查看详情

能退款么？

1、描述：源码描述(含标题)与实际源码不一致的（例：货不对板）； 2、演示：有演示站时，与实际源码小于95%一致的（但描述中有”不保证完全一样、有变化的可能性”类似显著声明的除外）； 3、发货：不发货可无理由退款； 4、安装：免费提供安装服务的源码但卖家不履行的； 5、收费：价格虚标，额外收取其他费用的（但描述中有显著声明或双方交易前有商定的除外）； 6、其他：如质量方面的硬性常规问题BUG等。注：经核实符合上述任一，均支持退款，但卖家予以积极解决问题则除外。

查看详情

注意事项

1、左子会对双方交易的过程及交易商品的快照进行永久存档，以确保交易的真实、有效、安全！ 2、左子无法对如“永久包更新”、“永久技术支持”等类似交易之后的商家承诺做担保，请买家自行鉴别； 3、在源码同时有网站演示与图片演示，且站演与图演不一致时，默认按图演作为纠纷评判依据（特别声明或有商定除外）； 4、在没有”无任何正当退款依据”的前提下，商品写有”一旦售出，概不支持退款”等类似的声明，视为无效声明； 5、在未拍下前，双方在QQ上所商定的交易内容，亦可成为纠纷评判依据（商定与描述冲突时，商定为准）； 6、因聊天记录可作为纠纷评判依据，故双方联系时，只与对方在左子上所留的QQ、手机号沟通，以防对方不承认自我承诺。 7、虽然交易产生纠纷的几率很小，但一定要保留如聊天记录、手机短信等这样的重要信息，以防产生纠纷时便于左子介入快速处理。

查看详情

左子网

分享最新WordPress教程共同学习，共同进步，共同成长！

QQ交流群

Python 爬取免费小说思路

代码解析

爬取东西基本的四行代码：

user-agent

安装模块

从 bs4 导入 BeautifulSoup ，

查询某个标签开头的数据

筛选

遍历

获取小说的章节名称

每章小说的链接

获取请求网址的响应

获取小说的内容

筛选内容

整理内容

爬取下载到指定文件夹

完整代码：

相关文章

微信

左子网

QQ交流群