[已解决]遇到了不懂

hjg · 发表于 2020-8-17 22:37:10

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

https://fishc.com.cn/thread-94979-1-1.html

在这个爬取豆瓣的例子中跟着甲鱼老师走，运行出不来数据，肖申克的救赎那些出不来，有童鞋知道是为啥么

最佳答案

月排行榜 / 总排行榜

Twilight6

2020-8-18 00:24:49

豆瓣反爬了，加上个 UA 头就可以爬出结果了：

import requests

import bs4

headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Safari/537.36'}

res = requests.get("https://movie.douban.com/top250",headers=headers)

soup = bs4.BeautifulSoup(res.text, "html.parser")

targets = soup.find_all("div", class_="hd")

for each in targets:

print(each.a.span.text)
复制代码

输出结果：

肖申克的救赎

霸王别姬

阿甘正传

这个杀手不太冷

泰坦尼克号

美丽人生

千与千寻

辛德勒的名单

盗梦空间

忠犬八公的故事

海上钢琴师

楚门的世界

星际穿越

三傻大闹宝莱坞

机器人总动员

放牛班的春天

大话西游之大圣娶亲

熔炉

疯狂动物城

无间道

龙猫

教父

当幸福来敲门

怦然心动

触不可及
复制代码

跳转到最佳答案楼层

Twilight6 · 发表于 2020-8-18 00:24:49

这个最佳答案由 Twilight6 给出，感谢 Twilight6 的回答。

单击隐藏图章

豆瓣反爬了，加上个 UA 头就可以爬出结果了：

import requests

import bs4

headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Safari/537.36'}

res = requests.get("https://movie.douban.com/top250",headers=headers)

soup = bs4.BeautifulSoup(res.text, "html.parser")

targets = soup.find_all("div", class_="hd")

for each in targets:

print(each.a.span.text)
复制代码

输出结果：

肖申克的救赎

霸王别姬

阿甘正传

这个杀手不太冷

泰坦尼克号

美丽人生

千与千寻

辛德勒的名单

盗梦空间

忠犬八公的故事

海上钢琴师

楚门的世界

星际穿越

三傻大闹宝莱坞

机器人总动员

放牛班的春天

大话西游之大圣娶亲

熔炉

疯狂动物城

无间道

龙猫

教父

当幸福来敲门

怦然心动

触不可及
复制代码

账号		自动登录	找回密码
密码			立即注册