求助关于bs4,requests的用法,Python交流,编程语言专区,鱼C论坛

luoya120 发表于 2020-3-5 15:44:01

求助关于bs4,requests的用法

本帖最后由 luoya120 于 2020-3-5 15:53 编辑

按照小甲鱼老师的代码一路敲下来却打印不出数据，
试了多遍，换了百度网页试了也不行，百思不得姐，请大家帮忙，谢谢！

zltzlt 发表于 2020-3-5 15:48:01

将第三句 res = requests.get(url) 改为 res = requests.get(url, headers={'User-Agent': 'Mozilla/5.0'}) ，然后重新试一次

因为你的爬虫被网站屏蔽了

luoya120 发表于 2020-3-5 16:03:05

zltzlt 发表于 2020-3-5 15:48
将第三句 res = requests.get(url) 改为 res = requests.get(url, headers={'User-Agent': 'Mozilla/5.0'}) ...

朋友，看到你的回复我立马试了，还是不行，百度和豆瓣两个都不行

zltzlt 发表于 2020-3-5 16:04:36

luoya120 发表于 2020-3-5 16:03
朋友，看到你的回复我立马试了，还是不行，百度和豆瓣两个都不行

发图片上来

luoya120 发表于 2020-3-5 16:10:28

zltzlt 发表于 2020-3-5 16:04
发图片上来

zltzlt 发表于 2020-3-5 16:13:19

luoya120 发表于 2020-3-5 16:10

打印一下 res 看看

luoya120 发表于 2020-3-5 16:20:28

zltzlt 发表于 2020-3-5 16:13
打印一下 res 看看

zltzlt 发表于 2020-3-5 16:22:42

luoya120 发表于 2020-3-5 16:20

网址失效了，你直接在浏览器中访问 https://www.douban.com/top250 看看

luoya120 发表于 2020-3-5 16:27:57

zltzlt 发表于 2020-3-5 16:22
网址失效了，你直接在浏览器中访问 https://www.douban.com/top250 看看

谢谢大神帮助，确实是网址的问题，少敲了一个字符 s，https://movie.douban.com/top250

luoya120 发表于 2020-3-5 16:33:31

zltzlt 发表于 2020-3-5 16:22
网址失效了，你直接在浏览器中访问 https://www.douban.com/top250 看看

感谢大神解惑，这句不加参数也确实不行， requests.get(url, headers={'User-Agent': 'Mozilla/5.0'}) ，

另外大神能讲讲这参数的加上去作用么。？

zltzlt 发表于 2020-3-5 16:33:59

luoya120 发表于 2020-3-5 16:33
感谢大神解惑，这句不加参数也确实不行， requests.get(url, headers={'User-Agent': 'Mozilla/5.0'}) ， ...

网站识别出这是一只爬虫，所以要加上 headers 迷惑爬虫。

PS：如果你的问题已解决，请设置【最佳答案】。

胡梦发表于 2020-4-21 00:25:22

zltzlt 发表于 2020-3-5 15:48
将第三句 res = requests.get(url) 改为 res = requests.get(url, headers={'User-Agent': 'Mozilla/5.0'}) ...

谢谢！

米砾发表于 2021-4-15 22:23:27

真厉害

页: [1]

鱼C论坛's Archiver

求助关于bs4,requests的用法