luoya120 发表于 2020-3-5 15:44:01

求助关于bs4,requests的用法

本帖最后由 luoya120 于 2020-3-5 15:53 编辑




按照小甲鱼老师的代码一路敲下来却打印不出数据,
试了多遍,换了百度网页试了也不行,百思不得姐,请大家帮忙,谢谢!





zltzlt 发表于 2020-3-5 15:48:01

将第三句 res = requests.get(url) 改为 res = requests.get(url, headers={'User-Agent': 'Mozilla/5.0'}) ,然后重新试一次

因为你的爬虫被网站屏蔽了

luoya120 发表于 2020-3-5 16:03:05

zltzlt 发表于 2020-3-5 15:48
将第三句 res = requests.get(url) 改为 res = requests.get(url, headers={'User-Agent': 'Mozilla/5.0'}) ...

朋友,看到你的回复我立马试了,还是不行,百度和豆瓣两个都不行

zltzlt 发表于 2020-3-5 16:04:36

luoya120 发表于 2020-3-5 16:03
朋友,看到你的回复我立马试了,还是不行,百度和豆瓣两个都不行

发图片上来

luoya120 发表于 2020-3-5 16:10:28

zltzlt 发表于 2020-3-5 16:04
发图片上来

zltzlt 发表于 2020-3-5 16:13:19

luoya120 发表于 2020-3-5 16:10


打印一下 res 看看

luoya120 发表于 2020-3-5 16:20:28

zltzlt 发表于 2020-3-5 16:13
打印一下 res 看看

zltzlt 发表于 2020-3-5 16:22:42

luoya120 发表于 2020-3-5 16:20


网址失效了,你直接在浏览器中访问 https://www.douban.com/top250 看看

luoya120 发表于 2020-3-5 16:27:57

zltzlt 发表于 2020-3-5 16:22
网址失效了,你直接在浏览器中访问 https://www.douban.com/top250 看看

谢谢大神帮助,确实是网址的问题,少敲了一个字符 s,https://movie.douban.com/top250

luoya120 发表于 2020-3-5 16:33:31

zltzlt 发表于 2020-3-5 16:22
网址失效了,你直接在浏览器中访问 https://www.douban.com/top250 看看

感谢大神解惑,这句不加参数也确实不行, requests.get(url, headers={'User-Agent': 'Mozilla/5.0'}) ,

另外大神能讲讲这参数的加上去作用么。?

zltzlt 发表于 2020-3-5 16:33:59

luoya120 发表于 2020-3-5 16:33
感谢大神解惑,这句不加参数也确实不行, requests.get(url, headers={'User-Agent': 'Mozilla/5.0'}) , ...

网站识别出这是一只爬虫,所以要加上 headers 迷惑爬虫。

PS:如果你的问题已解决,请设置【最佳答案】。

胡梦 发表于 2020-4-21 00:25:22

zltzlt 发表于 2020-3-5 15:48
将第三句 res = requests.get(url) 改为 res = requests.get(url, headers={'User-Agent': 'Mozilla/5.0'}) ...

谢谢!

米砾 发表于 2021-4-15 22:23:27

真厉害
页: [1]
查看完整版本: 求助关于bs4,requests的用法