[已解决]xapth提取不了文本

tt520 · 发表于 2019-11-5 11:28:39

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

import requests
from lxml import etree
res=requests.get('https://www.pearvideo.com/')
#print(res.text)

res_xpath=etree.HTML(res.text)
res_xpath.xpath('/html/body/div[2]/div[2]/div/ul[2]/li[1]/div/a/div[2]/div[2]/text()')
print(res_xpath)

/text()不是应该把我的那个<Element html at 0x158c0be8c08>转换成文字嘛，但是运行结果还是这种

最佳答案

月排行榜 / 总排行榜

foxiangzun

2019-11-5 15:41:55

本帖最后由 foxiangzun 于 2019-11-5 15:43 编辑

你没把内容赋值出来，以下是我这边的测试结果，亲测，有效

import requests
from lxml import etree
url = r'https://www.pearvideo.com/'
headers = {
'user-agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64)'
}
response = requests.get(url, headers=headers)
webcontent = etree.HTML(response.text)
cententce = webcontent.xpath("/html/body/div[2]/div[2]/div/ul[2]/li[1]/div/a/div[2]/div[2]/text()")
print(cententce)

复制代码

另外，xpath 里面的内容尽量不要用单引号，用双引号更好，如果碰上需要引用指定的标签，且标签带了值，可以直接用单引号把值包裹起来，cententce 那一段也可以写成下面的样子：

cententce = webcontent.xpath("//div[@class='act-main cmmain']/div[2]/div/ul[2]/li[1]/div/a/div[2]/div[2]/text()")

复制代码

跳转到最佳答案楼层

暗pluto · 发表于 2019-11-5 14:55:35

你浏览器上xpath路径能提取到文本吗，如果不行，那在python中自然也不行

wp231957 · 发表于 2019-11-5 15:08:29

要提取哪部分数据

foxiangzun · 发表于 2019-11-5 15:41:55

这个最佳答案由 foxiangzun 给出，感谢 foxiangzun 的回答。

单击隐藏图章

本帖最后由 foxiangzun 于 2019-11-5 15:43 编辑

你没把内容赋值出来，以下是我这边的测试结果，亲测，有效

import requests
from lxml import etree
url = r'https://www.pearvideo.com/'
headers = {
'user-agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64)'
}
response = requests.get(url, headers=headers)
webcontent = etree.HTML(response.text)
cententce = webcontent.xpath("/html/body/div[2]/div[2]/div/ul[2]/li[1]/div/a/div[2]/div[2]/text()")
print(cententce)

复制代码

另外，xpath 里面的内容尽量不要用单引号，用双引号更好，如果碰上需要引用指定的标签，且标签带了值，可以直接用单引号把值包裹起来，cententce 那一段也可以写成下面的样子：

cententce = webcontent.xpath("//div[@class='act-main cmmain']/div[2]/div/ul[2]/li[1]/div/a/div[2]/div[2]/text()")

复制代码

danteer · 发表于 2019-11-5 15:50:44

import requests
from lxml import etree
res=requests.get('https://www.pearvideo.com/')
#print(res.text)

res_xpath=etree.HTML(res.text)
res_xpath = res_xpath.xpath('/html/body/div[2]/div[2]/div/ul[2]/li[1]/div/a/div[2]/div[2]/text()')
print(res_xpath)

Xpath语句是没问题的，xpath方法用错了

geen · 发表于 2019-11-5 19:53:22

本帖最后由 geen 于 2019-11-5 19:54 编辑

首先看到的问题是这句 res_xpath.xpath('/html/body/div[2]/div[2]/div/ul[2]/li[1]/div/a/div[2]/div[2]/text()') ，使用xpath()方法处理对象res_xpath后，没有进行赋值操作，没有赋值操作的话，一旦执行下一句语句的时候，res_xpath.xpath()的值会被清空。

账号		自动登录	找回密码
密码			立即注册

[已解决]xapth提取不了文本

马上注册，结交更多好友，享用更多功能^_^

浏览过的版块