松勤-以工匠精神,专注IT在线教育,打造中国互联网教育品牌。
【松勤软件自动化测试】99%的人都不知道如何通过python技术免费看小说
发布时间:2018-11-14

相信大家都有在看小说的时候被频繁弹出的广告骚扰而感到烦不胜烦,今天给大家带来一个小爬虫程序,帮助大家摆脱广告的骚扰,不过只可以爬取免费小说的哦!接下来就是正文部分啦!


首先我们要明确我们的设计思路

1、我们要确定我们要爬取的网页的url地址

2、获取小说目录,目录页面源代码

3、获取目录章节href

4、获取小说章节内容

5、下载小说


那么我们要怎么获取我们想要的url地址呢?首先我们打开一个小说的网站,找到自己需要爬取的小说点击链接进入到章节目录页面。我们按F12进入到开发者工具。

这个时候我们会看到一个1796979.html的地址,但是这个地址明显是不可以用的,当我们的光标停留在上面的时候,我们会看到一个详细的地址,我们会发现我们的章节详情的url地址是有规律的

我们会发现这两个字符串拼接起来就是我们需要的url了!


好了,接下来就是我们的代码阶段了新建一个python项目,名字就叫getNovelContent吧!


首先我们要获取目录章节的源代码。如图:

接下我们需要获取我们的目录章节

这就是我们获取目录章节的源码,接下来,我们需要遍历urls,把存储到里面的数据显示出来。首先我们要获取章节,和拼接url源码如图所示:

然后就是获取我们的章节内容,获取我们章节内容的时候我们要记得看一下内容的编码格式进行解码!接下来我们把获得的html进行转义。我们使用xpath的方式来获取小说内容,xpath可以在开发者工具里面直接复制出来,然后我们用一个for循环把/xa0替换掉!

最后一步就是下载我们的小说了!源代码如图:

然后我们的一个爬虫小程序就完成啦!是不是很简单啦?

联系地址:南京市雨花台区花神大道23号京妆商务5幢505
咨询电话:025-86331019
授课课程:软件测试自动化全栈课程性能测试全栈课程
QQ交流群
官方微信公众号
扫码领取公开课视频
025-86331019
Copyright ©2014-2019 南京松勤网络科技有限公司 .All Rights Reserved
苏ICP备14047045号-1
本网站部分图片来源于网络,如有任何疑问请第一时间与我们联系,未经沟通本站不承担相关法律责任!