[已解决]极客python之效率革命，爬取豆瓣top250

我就是猛辣 · 发表于 2020-2-10 19:27:29

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

求助！！看的一头雾水

问题一：为什么代码照着输了但是什么都没有返回？
问题二：text是什么？为什么可以直接加在后面?
问题三：“html parser”是什么？
问题四：find_all是个函数嘛？

import requests
import bs4
res = requests.get('https://movie.douban.com/top250')
print(res.text)
soup = bs4.Beautifulsoap(res.txt,"html parser")
targets = soup.find_all('div',class_'hd')
for each in targets:
print(each.a.span.text)

最佳答案

月排行榜 / 总排行榜

suchocolate

2020-2-10 20:46:47

本帖最后由 suchocolate 于 2020-2-10 20:50 编辑

问题二：text是什么？为什么可以直接加在后面? 这是requests对象默认带的属性，你可以help(requests)看下里面的案例。
问题三：“html parser”是什么？html解释器，帮你解析获取到的网页。
问题四：find_all是个函数嘛？bs类提供的方法，帮你找到所有匹配的内容。

跳转到最佳答案楼层

suchocolate · 发表于 2020-2-10 20:37:35

加个字典：

headers = { 'user-agent': 'firefox'}
res = requests.get('https://movie.douban.com/top250',headers=headers)

复制代码

现在网站一般都检查 user-agent，没有的话不会回实际内容。

suchocolate · 发表于 2020-2-10 20:46:47

这个最佳答案由 suchocolate 给出，感谢 suchocolate 的回答。

单击隐藏图章

本帖最后由 suchocolate 于 2020-2-10 20:50 编辑

问题二：text是什么？为什么可以直接加在后面? 这是requests对象默认带的属性，你可以help(requests)看下里面的案例。
问题三：“html parser”是什么？html解释器，帮你解析获取到的网页。
问题四：find_all是个函数嘛？bs类提供的方法，帮你找到所有匹配的内容。

我就是猛辣 · 发表于 2020-2-12 11:41:13

suchocolate 发表于 2020-2-10 20:46
问题二：text是什么？为什么可以直接加在后面? 这是requests对象默认带的属性，你可以help(requests)看下里 ...

太强了谢谢哥

思议易 · 发表于 2020-6-13 11:09:53

太强了，谢谢哥

老兵hb · 发表于 2020-7-14 22:22:21

import requests
import bs4
#headers 要用大括号；不加headers 响应码为418；
headers={'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.106 Safari/537.36'}
res = requests.get('https://movie.douban.com/top250',headers=headers)
# print(res.status_code)
#解决编码问题
# print(res.text.encode('gbk','ignore').decode('gbk'))
#两个易错点：（1）text不是txt（2）html.parser 中间有个点，需要特别注意；
soup = bs4.BeautifulSoup(res.text,"html.parser")
targets = soup.find_all('div',class_='hd')
for each in targets:
print(each.a.span.text)

战神貔貅 · 发表于 2020-8-15 13:04:17

最后print(each.a.span.text)是个什么?

账号		自动登录	找回密码
密码			立即注册