鱼C论坛

 找回密码
 立即注册
查看: 1826|回复: 6

[已解决]极客python之效率革命,爬取豆瓣top250

[复制链接]
发表于 2020-2-10 19:27:29 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
求助!!看的一头雾水

问题一:为什么代码照着输了但是什么都没有返回?
问题二:text是什么?为什么可以直接加在后面?
问题三:“html parser”是什么?
问题四:find_all是个函数嘛?

import  requests
import bs4
res = requests.get('https://movie.douban.com/top250')
print(res.text)
soup = bs4.Beautifulsoap(res.txt,"html parser")
targets = soup.find_all('div',class_'hd')
for each in targets:
        print(each.a.span.text)
最佳答案
2020-2-10 20:46:47
本帖最后由 suchocolate 于 2020-2-10 20:50 编辑

问题二:text是什么?为什么可以直接加在后面? 这是requests对象默认带的属性,你可以help(requests)看下里面的案例。
问题三:“html parser”是什么?html解释器,帮你解析获取到的网页。
问题四:find_all是个函数嘛?bs类提供的方法,帮你找到所有匹配的内容。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-2-10 20:37:35 | 显示全部楼层
加个字典:
headers = { 'user-agent': 'firefox'}
res = requests.get('https://movie.douban.com/top250',headers=headers)

现在网站一般都检查 user-agent,没有的话不会回实际内容。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 3 反对 0

使用道具 举报

发表于 2020-2-10 20:46:47 | 显示全部楼层    本楼为最佳答案   
本帖最后由 suchocolate 于 2020-2-10 20:50 编辑

问题二:text是什么?为什么可以直接加在后面? 这是requests对象默认带的属性,你可以help(requests)看下里面的案例。
问题三:“html parser”是什么?html解释器,帮你解析获取到的网页。
问题四:find_all是个函数嘛?bs类提供的方法,帮你找到所有匹配的内容。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-2-12 11:41:13 | 显示全部楼层
suchocolate 发表于 2020-2-10 20:46
问题二:text是什么?为什么可以直接加在后面? 这是requests对象默认带的属性,你可以help(requests)看下里 ...

太强了谢谢哥
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-6-13 11:09:53 | 显示全部楼层
太强了,谢谢哥
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-7-14 22:22:21 | 显示全部楼层
import  requests
import bs4
#headers 要用大括号;不加headers 响应码为418;
headers={'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.106 Safari/537.36'}
res = requests.get('https://movie.douban.com/top250',headers=headers)
# print(res.status_code)
#解决编码问题
# print(res.text.encode('gbk','ignore').decode('gbk'))
#两个易错点:(1)text不是txt(2)html.parser 中间有个点,需要特别注意;
soup = bs4.BeautifulSoup(res.text,"html.parser")
targets = soup.find_all('div',class_='hd')
for each in targets:
        print(each.a.span.text)
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-8-15 13:04:17 | 显示全部楼层
最后print(each.a.span.text)是个什么?
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-9-27 20:47

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表