鱼C论坛

 找回密码
 立即注册
查看: 1042|回复: 12

可以etree.HTML,但不能xpath

[复制链接]
发表于 2020-5-24 21:38:13 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
捕获.PNG
为什么我的selector可以的到,但是没法识别xpath啊,用pycharm不自动弹出xpath选项,也不能筛选出内容
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-5-24 21:39:35 | 显示全部楼层
什么意思 ?要提取的内容样白发一些

如果etree.HTML 了 正常来说可以直接Xpath了丫
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-5-24 21:46:06 | 显示全部楼层
Twilight6 发表于 2020-5-24 21:39
什么意思 ?要提取的内容样白发一些

如果etree.HTML 了 正常来说可以直接Xpath了丫

<a rel="noreferrer" href="/p/6608063533" title="【腿模】这样的深圳有人盯吗?" target="_blank" class="j_th_tit ">【腿模】这样的深圳有人盯吗?</a>

大概就是这样的的例子,我输入selector加点后不会自动弹出xpath,用IDE也不行
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-5-24 21:48:43 | 显示全部楼层
crushxch 发表于 2020-5-24 21:46
【腿模】这样的深圳有人盯吗?

大概就是这样的的例子,我输入selector加点后不会自动弹出xpath,用IDE ...


不会弹出联想,但是可以查到内容丫
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-5-24 21:50:08 | 显示全部楼层
Twilight6 发表于 2020-5-24 21:48
不会弹出联想,但是可以查到内容丫

查不到内容
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-5-24 21:56:00 | 显示全部楼层

你爬的那个网站发我下
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-5-24 21:57:05 | 显示全部楼层
Twilight6 发表于 2020-5-24 21:56
你爬的那个网站发我下

百度贴吧
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-5-24 21:57:36 | 显示全部楼层

百度贴吧找到每一页的帖子的链接
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-5-24 21:58:42 | 显示全部楼层
crushxch 发表于 2020-5-24 21:57
百度贴吧找到每一页的帖子的链接

给个网址吧 懒得搜索了哈哈
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-5-24 22:01:12 | 显示全部楼层
Twilight6 发表于 2020-5-24 21:58
给个网址吧 懒得搜索了哈哈

https://tieba.baidu.com/f?kw=%E6%A8%A1%E7%89%B9&ie=utf-8&pn=200
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-5-24 22:11:53 | 显示全部楼层
本帖最后由 Twilight6 于 2020-5-25 08:01 编辑


爬到了 是你表达式的问题,看楼下
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-5-24 22:40:41 | 显示全部楼层
links = selector.xpath('//div[@id="frs_list_pager"]/a/@href')
可以了,这样就爬到页码链接了,记得前面要加 https://  因为爬到的是 类似这样的//tieba.baidu.com/f?kw=%E6%A8%A1%E7%89%B9&ie=utf-8&pn=0
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-5-24 23:01:04 | 显示全部楼层
我requests+bs4没问题,应该是你xpath语法出现了点问题,试下xpath("//a[@rel="relnoreferrer"][@class="j_th_tit"]/@href'')
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-1-21 04:59

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表