|
马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册
x
本帖最后由 和vvv 于 2017-6-26 19:40 编辑
27 淘宝商品图片爬虫实战2
在上一笔记中,已经解决了对不同商品的搜索,以及爬取1页的图片并保存到本地。本文主要是实现翻页爬取功能,以及整个项目的完整实现。
一、实现翻页功能
打开商品图书搜索结果首页(https://s.taobao.com/search?q=%E5%9B%BE%E4%B9%A6),点击下一页。观察地址栏url:- https://s.taobao.com/search?q=%E5%9B%BE%E4%B9%A6&bcoffset=4&ntoffset=4&p4ppushleft=1%2C48&s=44
复制代码 精简之后:- https://s.taobao.com/search?q=%E5%9B%BE%E4%B9%A6&s=44
复制代码 再点击第3页:- https://s.taobao.com/search?q=%E5%9B%BE%E4%B9%A6&bcoffset=0&ntoffset=0&s=88
复制代码 精简之后:- https://s.taobao.com/search?q=%E5%9B%BE%E4%B9%A6&s=88
复制代码 于是,我们就很容易的总结出规律:- https://s.taobao.com/search?q=关键词&s=(页数-1)*44
复制代码 因此,我们可以构造出每页的url:- for i in range(1,page):
- url = "https://s.taobao.com/search?q="+key+"&s="+str((i-1)*44)
复制代码 到这个地方,翻页功能就实现了。
二、项目的完整实现
总结一下思路:首先从单页面着手,爬取图片并下载到本地。然后实现不同商品的搜索,接下来实现翻页功能。最后是把整个项目整合起来,形成一个比较完整的程序。
完整代码:
结果:
本项目还有许多值得优化的地方,希望大家多多思考、交流。
如果大家觉得还可以的话,可以到我的淘专辑(http://bbs.fishc.com/forum.php?mod=collection&action=view&ctid=742&fromop=my)看看更多相关的笔记。
|
评分
-
查看全部评分
|