[已解决]爬虫豆瓣top250 没有回复数据显示有restart

超哥超级爱学习 · 发表于 2020-1-10 14:10:51

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

代码部分：
import requests
import bs4

res = requests.get('https://movie.douban.com/top250')
soup = bs4.BeautifulSoup(res.text,'html.parser')
targets=soup.find_all('div',class_='hd')
for each in targets:
print(each.a.span.text)

返回部分：

最佳答案

月排行榜 / 总排行榜

lixiangyv

2020-1-13 08:21:06

这个网页你没有爬取成功：

print(res.status_code)
运行结果：
418

复制代码

不是200，所以没有爬取成功。
可能是这个网页不让代码去爬，
解决方案就是在获取网页是代码添加头，
代码如下：

import requests
import bs4
head = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.42 Safari/537.36'}
res = requests.get('https://movie.douban.com/top250', headers=head)
soup = bs4.BeautifulSoup(res.text,'html.parser')
targets=soup.find_all('div',class_='hd')
for each in targets:
print(each.a.span.text)

复制代码

跳转到最佳答案楼层

lixiangyv · 发表于 2020-1-13 08:21:06

这个最佳答案由 lixiangyv 给出，感谢 lixiangyv 的回答。

单击隐藏图章

这个网页你没有爬取成功：

print(res.status_code)
运行结果：
418

复制代码

不是200，所以没有爬取成功。
可能是这个网页不让代码去爬，
解决方案就是在获取网页是代码添加头，
代码如下：

import requests
import bs4
head = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.42 Safari/537.36'}
res = requests.get('https://movie.douban.com/top250', headers=head)
soup = bs4.BeautifulSoup(res.text,'html.parser')
targets=soup.find_all('div',class_='hd')
for each in targets:
print(each.a.span.text)

复制代码

超哥超级爱学习 · 发表于 2020-1-13 10:39:32

lixiangyv 发表于 2020-1-13 08:21
这个网页你没有爬取成功：

不是200，所以没有爬取成功。

大神再帮忙解答下
head = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.42 Safari/537.36'} 这个啥意思吧辛苦大神了

wp231957 · 发表于 2020-1-13 10:51:51

超哥超级爱学习发表于 2020-1-13 10:39
大神再帮忙解答下
head = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHT ...

请求头，模拟浏览器

超哥超级爱学习 · 发表于 2020-1-13 14:12:31

wp231957 发表于 2020-1-13 10:51
请求头，模拟浏览器

哦哦也就是让这个浏览器默认是个正常人在浏览网页是吧

wp231957 · 发表于 2020-1-13 14:21:42

超哥超级爱学习发表于 2020-1-13 14:12
哦哦也就是让这个浏览器默认是个正常人在浏览网页是吧

是让豆瓣的服务器认为你这是从浏览器发出的请求而不是从爬虫代码发出的请求

超哥超级爱学习 · 发表于 2020-1-13 21:28:02

wp231957 发表于 2020-1-13 14:21
是让豆瓣的服务器认为你这是从浏览器发出的请求而不是从爬虫代码发出的请求

嗯嗯

fgcn007 · 发表于 2020-2-4 20:34:55

感谢大神的回复，我已经成功啦。小白一枚！

账号		自动登录	找回密码
密码			立即注册

[已解决]爬虫豆瓣top250 没有回复数据 显示有restart

马上注册，结交更多好友，享用更多功能^_^

浏览过的版块

[已解决]爬虫豆瓣top250 没有回复数据显示有restart