鱼C论坛

 找回密码
 立即注册
查看: 1214|回复: 1

[已解决]遇到了不懂

[复制链接]
发表于 2020-8-17 22:37:10 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
https://fishc.com.cn/thread-94979-1-1.html

在这个爬取豆瓣的例子中跟着甲鱼老师走,运行出不来数据,肖申克的救赎那些出不来,有童鞋知道是为啥么

最佳答案
2020-8-18 00:24:49

豆瓣反爬了,加上个 UA 头就可以爬出结果了:

  1. import requests
  2. import bs4
  3. headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Safari/537.36'}
  4. res = requests.get("https://movie.douban.com/top250",headers=headers)
  5. soup = bs4.BeautifulSoup(res.text, "html.parser")
  6. targets = soup.find_all("div", class_="hd")
  7. for each in targets:
  8.     print(each.a.span.text)
复制代码

输出结果:
  1. 肖申克的救赎
  2. 霸王别姬
  3. 阿甘正传
  4. 这个杀手不太冷
  5. 泰坦尼克号
  6. 美丽人生
  7. 千与千寻
  8. 辛德勒的名单
  9. 盗梦空间
  10. 忠犬八公的故事
  11. 海上钢琴师
  12. 楚门的世界
  13. 星际穿越
  14. 三傻大闹宝莱坞
  15. 机器人总动员
  16. 放牛班的春天
  17. 大话西游之大圣娶亲
  18. 熔炉
  19. 疯狂动物城
  20. 无间道
  21. 龙猫
  22. 教父
  23. 当幸福来敲门
  24. 怦然心动
  25. 触不可及
复制代码

2.jpg
1.jpg
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2020-8-18 00:24:49 | 显示全部楼层    本楼为最佳答案   

豆瓣反爬了,加上个 UA 头就可以爬出结果了:

  1. import requests
  2. import bs4
  3. headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Safari/537.36'}
  4. res = requests.get("https://movie.douban.com/top250",headers=headers)
  5. soup = bs4.BeautifulSoup(res.text, "html.parser")
  6. targets = soup.find_all("div", class_="hd")
  7. for each in targets:
  8.     print(each.a.span.text)
复制代码

输出结果:
  1. 肖申克的救赎
  2. 霸王别姬
  3. 阿甘正传
  4. 这个杀手不太冷
  5. 泰坦尼克号
  6. 美丽人生
  7. 千与千寻
  8. 辛德勒的名单
  9. 盗梦空间
  10. 忠犬八公的故事
  11. 海上钢琴师
  12. 楚门的世界
  13. 星际穿越
  14. 三傻大闹宝莱坞
  15. 机器人总动员
  16. 放牛班的春天
  17. 大话西游之大圣娶亲
  18. 熔炉
  19. 疯狂动物城
  20. 无间道
  21. 龙猫
  22. 教父
  23. 当幸福来敲门
  24. 怦然心动
  25. 触不可及
复制代码

小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-6-25 20:22

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表