在IDLE中按照教材输入以下代码，不显示爬取内容

骑毛驴的男人 · 发表于 2021-5-11 17:39:00

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

>>> import requests
>>> res =requests.get("https://movie.douban.com/top250")
>>> print(res.text)
>>> import bs4
>>> soup = bs4.BeautifulSoup(res.text,"html.parser")
>>> targets = soup.find_all("div",class_="hd")
>>> for each in targets:

复制代码

Twilight6 · 发表于 2021-5-11 17:58:59

[b]
加个 headers 参数即可

import requests

import bs4

header = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.93 Safari/537.36'}

res =requests.get("https://movie.douban.com/top250",headers = header)

soup = bs4.BeautifulSoup(res.text,"html.parser")

targets = soup.find_all("div",class_="hd")

for each in targets:

print(each.a.span.text)
复制代码

输出结果：

肖申克的救赎

霸王别姬

阿甘正传

这个杀手不太冷

泰坦尼克号

美丽人生

千与千寻

辛德勒的名单

盗梦空间

忠犬八公的故事

星际穿越

楚门的世界

海上钢琴师

三傻大闹宝莱坞

机器人总动员

放牛班的春天

大话西游之大圣娶亲

疯狂动物城

无间道

熔炉

教父

当幸福来敲门

龙猫

怦然心动

控方证人
复制代码

[/b]

骑毛驴的男人 · 发表于 2021-5-11 18:13:45

Twilight6 发表于 2021-5-11 17:58
加个 headers 参数即可

谢谢！
我百度了下大概知道headers参数的意思了。
header = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.93 Safari/537.36'}
上面这句能帮忙分解解释下吗？这一句是适用safari， ie 和chrome浏览器的句子吗？

Twilight6 · 发表于 2021-5-11 18:39:44

骑毛驴的男人发表于 2021-5-11 18:13
谢谢！
我百度了下大概知道headers参数的意思了。
header = {'User-Agent':'Mozilla/5.0 (Windows NT 1 ...

浏览器都有各自的 header，header 里面有浏览器的版本号等信息

具体分解我不太了解，你可以去百度查查

这里的头我用的是我谷歌浏览器的，加上这个参数就可以让爬虫初步伪装成一个浏览器去访问

南归 · 发表于 2021-5-11 18:49:24

模拟浏览器,是啥游览器无所谓

账号		自动登录	找回密码
密码			立即注册

在IDLE中按照教材输入以下代码，不显示爬取内容

马上注册，结交更多好友，享用更多功能^_^

浏览过的版块