继上一篇从煎蛋网下载妹子图片后,在网上发现另外两个途径可以下载到煎蛋网往年的旧图片。第一个是个网页,作者把所有图片地址写入一个网页中,没有一个文字只有图片有五千多张。第二个是一个本地html文件,也是一样用浏览器打开后全是图片,有六千多张。据我后面看着两个地方的图片还没有发现重复的。全部下载完,除去一些失效的图片链接,有上万张。

总的来说,写这个爬虫比较简单,没有复杂的标签,没有分页码,简单粗暴方法就可以应付了。
思路是:1. 用requests得到数据后,分析出所有图片的地址,写入一个allurl.txt文件中。2.从allurl.txt文件中读取图片地址,并下载,下载不成功的地址写入passurl.txt, 成功的地址写入okurl.txt中。3. 把第2步中passurl.txt该名为allurl.txt, 删除okurl.txt和旧的allurl.txt并打开代理或者其他重复第二步,直到没有更多的地址可以下载。
一. 从网页上获取数据写入allurl.txt
1 | import requests |
二.从本地html文件上获取数据
1 | import requests |
三. 从allurl.txt读取数据下载图片
1 | import requests |
总结:
- 从本地html文件读取数据的方法
- 对异常的处理