鱼C论坛

 找回密码
 立即注册
查看: 2210|回复: 5

[已解决]抓取豆瓣TOP250 MOVIES中 .previous_sibling的问题点

[复制链接]
发表于 2019-9-30 15:09:13 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
Hi all,
     谁能解释下,为什么下面previous_sibling.previous_sibling.text就能够判断出总共是10页,越详细越好
depth = soup.find('span', class_='next').previous_sibling.previous_sibling.text

最佳答案
2019-9-30 22:47:51
1.jpg
后页 前面的兄弟节点是个 10
具体的以你读取到的源码为准。
本来应该一个previous_sibling就可以,这里要两个,可能中间有空格还是什么吧
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2019-9-30 22:47:51 | 显示全部楼层    本楼为最佳答案   
1.jpg
后页 前面的兄弟节点是个 10
具体的以你读取到的源码为准。
本来应该一个previous_sibling就可以,这里要两个,可能中间有空格还是什么吧
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-11-30 10:32:35 | 显示全部楼层
previous_sibling 是什么意思啊
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-3-31 19:06:48 | 显示全部楼层
傻纸 发表于 2019-9-30 22:47
后页 前面的兄弟节点是个 10
具体的以你读取到的源码为准。
本来应该一个previous_sibling就可以,这里 ...

我看源码好像没找到空格或者其他元素呀,兄弟请问一下你找到原因了吗,为啥俩previous_sibling
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-5-13 11:02:17 | 显示全部楼层
Rodrigez10 发表于 2020-3-31 19:06
我看源码好像没找到空格或者其他元素呀,兄弟请问一下你找到原因了吗,为啥俩previous_sibling

两个.previous_sibling是因为要找后页前面兄弟节点的兄弟节点,内容为  9,虽然总共有10页,但是地址栏中链接是从0开始的,第10页的地址为https://movie.douban.com/top250?start=225,其中255为9*25,所以要找的页面深度为倒数第二个9,而不是10。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-7-11 22:09:52 | 显示全部楼层
平行遍历节点不一定都是标签,还可以是NavigableString。在本例中,原标签的向前遍历previous_sibling对应的就是一个NavigableString类型的值,还是个空值,所以需要再次前行一次,才能找到10这个结果。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 1 反对 0

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-5-7 15:09

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表