|
5鱼币
在小甲鱼的爬取豆瓣TOP250中,有几行代码
可以实现输出:
- 肖申克的救赎
- 霸王别姬
- 这个杀手不太冷
- 阿甘正传
- 美丽人生
- 千与千寻
- 辛德勒的名单
- 泰坦尼克号
- 盗梦空间
- 机器人总动员
- 海上钢琴师
- 三傻大闹宝莱坞
- 忠犬八公的故事
- 放牛班的春天
- 大话西游之大圣娶亲
- 教父
- 龙猫
- 楚门的世界
- 乱世佳人
- 天堂电影院
- 触不可及
- 当幸福来敲门
- 熔炉
- 无间道
- 搏击俱乐部
复制代码
这段代码是:
- >>> import requests
- >>> import bs4
- >>> res = requests.get("https://movie.douban.com/top250")
- >>> soup = bs4.BeautifulSoup(res.text, "html.parser")
- >>> targets = soup.find_all("div", class_="hd")
- >>> for each in targets:
- print(each.a.span.text)
复制代码
但是我在写这段代码时,没有输出,为什么?
加个headers,原先没加时,打印res看下状态码是418,就没获取到数据
- import requests
- import bs4
- headers={'user-agent': 'Mozilla/5.0 (iPhone; CPU iPhone OS 13_2_3 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.0.3 Mobile/15E148 Safari/604.1'}
- res = requests.get("https://movie.douban.com/top250",headers=headers)
- soup = bs4.BeautifulSoup(res.text, "html.parser")
- targets = soup.find_all("div", class_="hd")
- for each in targets:
- print(each.a.span.text)
复制代码
|
最佳答案
查看完整内容
加个headers,原先没加时,打印res看下状态码是418,就没获取到数据
|