crushxch 发表于 2020-5-24 21:38:13

可以etree.HTML,但不能xpath


为什么我的selector可以的到,但是没法识别xpath啊,用pycharm不自动弹出xpath选项,也不能筛选出内容

Twilight6 发表于 2020-5-24 21:39:35

什么意思 ?要提取的内容样白发一些

如果etree.HTML 了 正常来说可以直接Xpath了丫

crushxch 发表于 2020-5-24 21:46:06

Twilight6 发表于 2020-5-24 21:39
什么意思 ?要提取的内容样白发一些

如果etree.HTML 了 正常来说可以直接Xpath了丫

<a rel="noreferrer" href="/p/6608063533" title="【腿模】这样的深圳有人盯吗?" target="_blank" class="j_th_tit ">【腿模】这样的深圳有人盯吗?</a>

大概就是这样的的例子,我输入selector加点后不会自动弹出xpath,用IDE也不行

Twilight6 发表于 2020-5-24 21:48:43

crushxch 发表于 2020-5-24 21:46
【腿模】这样的深圳有人盯吗?

大概就是这样的的例子,我输入selector加点后不会自动弹出xpath,用IDE ...

不会弹出联想,但是可以查到内容丫

crushxch 发表于 2020-5-24 21:50:08

Twilight6 发表于 2020-5-24 21:48
不会弹出联想,但是可以查到内容丫

查不到内容

Twilight6 发表于 2020-5-24 21:56:00

crushxch 发表于 2020-5-24 21:50
查不到内容

你爬的那个网站发我下

crushxch 发表于 2020-5-24 21:57:05

Twilight6 发表于 2020-5-24 21:56
你爬的那个网站发我下

百度贴吧

crushxch 发表于 2020-5-24 21:57:36

crushxch 发表于 2020-5-24 21:57
百度贴吧

百度贴吧找到每一页的帖子的链接

Twilight6 发表于 2020-5-24 21:58:42

crushxch 发表于 2020-5-24 21:57
百度贴吧找到每一页的帖子的链接

给个网址吧 懒得搜索了哈哈

crushxch 发表于 2020-5-24 22:01:12

Twilight6 发表于 2020-5-24 21:58
给个网址吧 懒得搜索了哈哈

https://tieba.baidu.com/f?kw=%E6%A8%A1%E7%89%B9&ie=utf-8&pn=200

Twilight6 发表于 2020-5-24 22:11:53

本帖最后由 Twilight6 于 2020-5-25 08:01 编辑

crushxch 发表于 2020-5-24 22:01
https://tieba.baidu.com/f?kw=%E6%A8%A1%E7%89%B9&ie=utf-8&pn=200

爬到了 是你表达式的问题,看楼下

Twilight6 发表于 2020-5-24 22:40:41

links = selector.xpath('//div[@id="frs_list_pager"]/a/@href')
可以了,这样就爬到页码链接了,记得前面要加 https://因为爬到的是 类似这样的//tieba.baidu.com/f?kw=%E6%A8%A1%E7%89%B9&ie=utf-8&pn=0

jinlovelive 发表于 2020-5-24 23:01:04

我requests+bs4没问题,应该是你xpath语法出现了点问题,试下xpath("//a[@rel="relnoreferrer"][@class="j_th_tit"]/@href'')
页: [1]
查看完整版本: 可以etree.HTML,但不能xpath