求助关于bs4,requests的用法
本帖最后由 luoya120 于 2020-3-5 15:53 编辑按照小甲鱼老师的代码一路敲下来却打印不出数据,
试了多遍,换了百度网页试了也不行,百思不得姐,请大家帮忙,谢谢!
将第三句 res = requests.get(url) 改为 res = requests.get(url, headers={'User-Agent': 'Mozilla/5.0'}) ,然后重新试一次
因为你的爬虫被网站屏蔽了 zltzlt 发表于 2020-3-5 15:48
将第三句 res = requests.get(url) 改为 res = requests.get(url, headers={'User-Agent': 'Mozilla/5.0'}) ...
朋友,看到你的回复我立马试了,还是不行,百度和豆瓣两个都不行 luoya120 发表于 2020-3-5 16:03
朋友,看到你的回复我立马试了,还是不行,百度和豆瓣两个都不行
发图片上来 zltzlt 发表于 2020-3-5 16:04
发图片上来
luoya120 发表于 2020-3-5 16:10
打印一下 res 看看 zltzlt 发表于 2020-3-5 16:13
打印一下 res 看看
luoya120 发表于 2020-3-5 16:20
网址失效了,你直接在浏览器中访问 https://www.douban.com/top250 看看 zltzlt 发表于 2020-3-5 16:22
网址失效了,你直接在浏览器中访问 https://www.douban.com/top250 看看
谢谢大神帮助,确实是网址的问题,少敲了一个字符 s,https://movie.douban.com/top250 zltzlt 发表于 2020-3-5 16:22
网址失效了,你直接在浏览器中访问 https://www.douban.com/top250 看看
感谢大神解惑,这句不加参数也确实不行, requests.get(url, headers={'User-Agent': 'Mozilla/5.0'}) ,
另外大神能讲讲这参数的加上去作用么。? luoya120 发表于 2020-3-5 16:33
感谢大神解惑,这句不加参数也确实不行, requests.get(url, headers={'User-Agent': 'Mozilla/5.0'}) , ...
网站识别出这是一只爬虫,所以要加上 headers 迷惑爬虫。
PS:如果你的问题已解决,请设置【最佳答案】。 zltzlt 发表于 2020-3-5 15:48
将第三句 res = requests.get(url) 改为 res = requests.get(url, headers={'User-Agent': 'Mozilla/5.0'}) ...
谢谢! 真厉害
页:
[1]