关于爬取微博的爬虫,Python交流,编程语言专区,鱼C论坛

tiger吴 发表于 2020-7-30 19:11:11

关于爬取微博的爬虫

我要爬取某微博的所有内容：url='https://m.weibo.cn/u/2830678474'
需要的数据通过Ajax请求得到，如图，得到数据的网址只有图右下角since_id改变得到的，
这种分页方式规律是什么？代码里我要怎么写来表达这个since_id的值尼？

suchocolate 发表于 2020-7-30 21:06:35

since_id从前一个页面的html里获得

1q23w31 发表于 2020-7-30 21:56:07

找到了，每一次查询的since_id都是通过上一次查询来得到的，具体看图、

static/image/hrline/line6.png

第一次请求的since_id

static/image/hrline/2.gif

第一次请求返回的数据里面有下一次请求的since_id

static/image/hrline/1.gif

下一次请求的since_id

tiger吴 发表于 2020-7-30 22:13:54

1q23w31 发表于 2020-7-30 21:56
找到了，每一次查询的since_id都是通过上一次查询来得到的，具体看图、

找到了，感谢感谢

页: [1]

鱼C论坛's Archiver

关于爬取微博的爬虫