|
发表于 2020-8-18 00:24:49
|
显示全部楼层
本楼为最佳答案
豆瓣反爬了,加上个 UA 头就可以爬出结果了:
- import requests
- import bs4
- headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Safari/537.36'}
- res = requests.get("https://movie.douban.com/top250",headers=headers)
- soup = bs4.BeautifulSoup(res.text, "html.parser")
- targets = soup.find_all("div", class_="hd")
- for each in targets:
- print(each.a.span.text)
复制代码
输出结果:
- 肖申克的救赎
- 霸王别姬
- 阿甘正传
- 这个杀手不太冷
- 泰坦尼克号
- 美丽人生
- 千与千寻
- 辛德勒的名单
- 盗梦空间
- 忠犬八公的故事
- 海上钢琴师
- 楚门的世界
- 星际穿越
- 三傻大闹宝莱坞
- 机器人总动员
- 放牛班的春天
- 大话西游之大圣娶亲
- 熔炉
- 疯狂动物城
- 无间道
- 龙猫
- 教父
- 当幸福来敲门
- 怦然心动
- 触不可及
复制代码
|
|