[已解决]关于xpath爬虫里面爬取网址链接的问题

937135952 · 发表于 2020-8-22 17:38:35

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

就比如<a href='http://............'>全国社会保障理事会</a>

用Xpath方法爬取我是这么写的：（"//ul[contains(@class,'ntb')]/li/a"）
爬到的是文字
我想要爬到的是那个网址，请教各位大佬应该怎么写吖

最佳答案

月排行榜 / 总排行榜

1q23w31

2020-8-23 17:57:08

937135952 发表于 2020-8-23 17:43
AttributeError: 'list' object has no attribute 'get_attribute'
真让人头大orz

把网址发一下吧

跳转到最佳答案楼层

1q23w31 · 发表于 2020-8-23 08:29:01

("//ul[contains(@class,'ntb')]/li/a/@href")

复制代码

937135952 · 发表于 2020-8-23 17:08:34

1q23w31 发表于 2020-8-23 08:29

InvalidSelectorException: invalid selector: The result of the xpath expression "//ul[contains(@class,'ntb')]/li/a/@href" is: [object Attr]. It should be an element.
(Session info: headless chrome=81.0.4044.138)
(Driver info: chromedriver=2.32.498550 (9dec58e66c31bcc53a9ce3c7226f0c1c5810906a),platform=Windows NT 10.0.18362 x86_64)

我用的selenium里面的.find_elements_by_xpath("//ul[contains(@class,'ntb')]/li/a/@href")

1q23w31 · 发表于 2020-8-23 17:21:41

937135952 发表于 2020-8-23 17:08
InvalidSelectorException: invalid selector: The result of the xpath expression "//ul[contains(@cla ...

那试试这样

("//ul[contains(@class,'ntb')]/li/a").get_attribute('href')

复制代码

937135952 · 发表于 2020-8-23 17:43:12

1q23w31 发表于 2020-8-23 17:21
那试试这样

AttributeError: 'list' object has no attribute 'get_attribute'
真让人头大orz

疾风怪盗 · 发表于 2020-8-23 17:49:35

本帖最后由疾风怪盗于 2020-8-23 17:52 编辑

937135952 发表于 2020-8-23 17:43
AttributeError: 'list' object has no attribute 'get_attribute'
真让人头大orz

'list' object
是不是意思你这个取出来的是列表，先打印一下看看列表内容，是不是需要加个[0]这样取出元素再用.get_attribute('href')

参考https://blog.csdn.net/Beyond_F4/article/details/92647876
https://blog.csdn.net/hacklyc/article/details/65454285?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.channel_param&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.channel_param

1q23w31 · 发表于 2020-8-23 17:57:08

这个最佳答案由 1q23w31 给出，感谢 1q23w31 的回答。

单击隐藏图章

937135952 发表于 2020-8-23 17:43
AttributeError: 'list' object has no attribute 'get_attribute'
真让人头大orz

把网址发一下吧

937135952 · 发表于 2020-8-24 19:08:39

1q23w31 发表于 2020-8-23 17:57
把网址发一下吧

http://roll.caijing.com.cn/

937135952 · 发表于 2020-8-24 19:17:46

1q23w31 发表于 2020-8-23 17:57
把网址发一下吧

懂了，browser.find_elements_by_xpath，改成browser.find_element_by_xpath就行了

先用这个 browser.find_element_by_xpath("//ul[contains(@class,'ntb')]/li/a")方法存储到列表里
然后在遍历列表找到href这个特征可以吗

937135952 · 发表于 2020-8-24 19:20:13

1q23w31 发表于 2020-8-23 17:57
把网址发一下吧

ok，解决了

账号		自动登录	找回密码
密码			立即注册