lzb1001 发表于 2022-5-3 09:50:07

爬取百度贴吧图片

目标:https://tieba.baidu.com/p/1397681324

正则表达式:p = r'<img class="BDE_Image".*?src="([^"]*\.jpg)[^"]*".*?>'

结果只返回16张图片,不知道怎么回事呢?

Twilight6 发表于 2022-5-3 09:57:38



寻思着这一页也就 16 张呀,肯定只能返回 16 张咯

你爬虫 url 应该分页,这样才能爬后面几页的,在 url 末尾加上 ?pn=你要爬取的页码 即可

lzb1001 发表于 2022-5-3 10:50:16

Twilight6 发表于 2022-5-3 09:57
寻思着这一页也就 16 张呀,肯定只能返回 16 张咯

你爬虫 url 应该分页,这样才能爬后面几页的,在...

https://tieba.baidu.com/p/1397681324

一页不止16张哦,你看下网页

Twilight6 发表于 2022-5-3 11:00:15

lzb1001 发表于 2022-5-3 10:50
https://tieba.baidu.com/p/1397681324

一页不止16张哦,你看下网页


看另一个帖子答复
页: [1]
查看完整版本: 爬取百度贴吧图片