鱼C论坛

 找回密码
 立即注册
查看: 2680|回复: 8

求助爬虫怎么进行翻页

[复制链接]
发表于 2019-10-7 20:23:04 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
我通过beautifulsoup截取到了图上这段,我想进行翻页操作,我看到a标签里的href的内容189851_2.html就是下一页网址最后一部分(_2)部分的数字变动,有什么办法可以获取href(正则我不会,如果正则可以请指教怎么做),还有一点我前面做的是选取网址然后进行爬取(不止一个网址所以href里面189851这部分我是不知道的,如果爬取别的网页这部分会变)比如图2,我爬的是"大自然风情美景宽屏桌面壁纸"这个的href是189851,但如果我选别的这部分就不是,但是别的部分比如href后半段_2.html这些都是一样的。有大佬可以帮我解答出来吗实在搞不懂
QQ图片20191007201621.png
QQ图片20191007202054.png
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2019-10-8 09:21:12 | 显示全部楼层
用正则提取
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-10-8 10:23:04 | 显示全部楼层
你把要爬取的网址贴出来,还有你写的代码,别人才好帮你想一下解决办法。
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2019-10-9 19:11:26 | 显示全部楼层
这是爬的网址“http://www.mmonly.cc”,翻页部分我有点思路了但还是卡着
QQ图片20191009191007.png
QQ图片20191009191011.png
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-10-10 16:36:24 | 显示全部楼层
re善用.*?   这三个符号
  1. url = "我想进行翻页操作,我看到a标签里的href的内容189851_2.html就是下一页网址最后一部分"
  2. print(re.findall("内容(.*?)就是", url))
复制代码
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2019-10-11 10:56:09 | 显示全部楼层
Stubborn 发表于 2019-10-10 16:36
re善用.*?   这三个符号

这样获取的189851_2.html是死的,我前面写的选取爬取网址,他不同的网址对应189851这几位是不一样的,我现在是这样写的(图片),可是他没有进行迭代啊只是进行了循环,打印出来结果一样,怎么解决啊
QQ图片20191011105405.png
QQ图片20191011105539.png
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-10-12 15:03:30 | 显示全部楼层
hapsat 发表于 2019-10-11 10:56
这样获取的189851_2.html是死的,我前面写的选取爬取网址,他不同的网址对应189851这几位是不一样的,我 ...

不是很明白你卡在那部分,如果说是图集的翻页的话,可以用for循环去拼接,这样你需要解决的是,你得抓到图集有多少张,或者可以抓取下一页的href链接
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-10-12 15:23:34 | 显示全部楼层
hapsat 发表于 2019-10-11 10:56
这样获取的189851_2.html是死的,我前面写的选取爬取网址,他不同的网址对应189851这几位是不一样的,我 ...

你贴了截图上来,还是画个框让大家知道你哪一句代码出问题吧,不然要从头开始帮你看很费力的
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-10-12 15:30:06 | 显示全部楼层
直接贴个网址,说明需要哪些数据,怎嘛存放?
再说你截个图还不如贴代码呢,是不?
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2026-1-19 20:56

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表