三个办法,用Python爬虫下载了《平凡人修仙传》全本,你学会了吗?
我用手机写了一个Python爬虫,爬下了《平凡人修仙传》……
◆
上一次,舞剑用手机写了一个 Python 爬虫,爬取了《平凡人修仙传》小说第一章的标题与要文,最初保存到 TXT 文本中。
这一次,舞剑持续完满这个 Python 爬虫小步骤,将第一章之后的章节也都爬下去并保存。
要爬取之后的章节,最紧张的就是找到章节的 Url ,如此才干依据 Url 进入下一章的网页,进而爬取标题与要文。
▼
办法一||1
进入《平凡人修仙传》目次,掀开开发者东西查察,可以看到一切章节的 url 都包含在 class=”pagelist” 的 div 标签中。
而具体每一个章节的 url 则包含在 class=”read” 的 url 标签中。
① /book/61781/0-1/ 到 /book/61781/0-26/ 地点之间包含了一切章节 url 聚集,只必要循环 26 次进入每一个 url 就行了。
使用 lxml 代码如下所示:
②进入单独的 url 后,会看到 class=”read” 的 url 列表。这里可以创建一个列表 list,用来保存一切的章节 url, 以便终期使用。
使用 lxml 爬代替码如下所示:
之后就可以依据 url 列表来爬取相应的章节,直至下载全本小说。
▼
办法二||2
第一章:
m.9txs.com/book/61781/868469.html
第二章:
m.9txs.com/book/61781/868470.html
从上方的网址可以分析出:
book代表小说,61781代表平凡人修仙传,而最初的 868469.html 则代表着第一章,很显然 868470.html 代表第二章。
只必要不休将 868469+1 ,终极就会爬出《平凡人修仙传》全本 TXT 。
▼
办法三||3
在阅读小说的历程中,底部都市有 下一章 按钮。
切换到源码,则是下一章的 url。
<div class=”pager”>
<a href=”/book/61781/868469.html”>上一章</a>
<a href=”/book/61781/”>目 录</a>
<a href=”/book/61781/868471.html”>下一章</a>
</div>
只必要在剖析办法时,特地将下一章的 href 地点取出,然后拼接到网址之上,不休向前爬取,最初就会爬出《平凡人修仙传》全本。
至于它的 lxml 剖析办法,仅有这么一段,很简便。
好了,《平凡人修仙传》全本 TXT 下载思绪就在这里,至于其他的小说同理,只必要改换 url 就行了。
有兴致的小伙伴记得眷注我,不休重熟手机编程的本事与APP。

















