tiger吴 发表于 2020-7-30 19:11:11

关于爬取微博的爬虫


我要爬取某微博的所有内容:url='https://m.weibo.cn/u/2830678474'
需要的数据通过Ajax请求得到,如图,得到数据的网址只有图右下角since_id改变得到的,
这种分页方式规律是什么?代码里我要怎么写来表达这个since_id的值尼?

suchocolate 发表于 2020-7-30 21:06:35

since_id从前一个页面的html里获得

1q23w31 发表于 2020-7-30 21:56:07

找到了,每一次查询的since_id都是通过上一次查询来得到的,具体看图、

static/image/hrline/line6.png

第一次请求的since_id


static/image/hrline/2.gif

第一次请求返回的数据里面有下一次请求的since_id


static/image/hrline/1.gif

下一次请求的since_id

tiger吴 发表于 2020-7-30 22:13:54

1q23w31 发表于 2020-7-30 21:56
找到了,每一次查询的since_id都是通过上一次查询来得到的,具体看图、




找到了,感谢感谢
页: [1]
查看完整版本: 关于爬取微博的爬虫