937135952 发表于 2020-8-22 17:38:35

关于xpath爬虫里面爬取网址链接的问题

就比如<a href='http://............'>全国社会保障理事会</a>

用Xpath方法爬取我是这么写的:("//ul/li/a")
爬到的是文字
我想要爬到的是那个网址,请教各位大佬应该怎么写吖

1q23w31 发表于 2020-8-23 08:29:01

("//ul/li/a/@href")

937135952 发表于 2020-8-23 17:08:34

1q23w31 发表于 2020-8-23 08:29


InvalidSelectorException: invalid selector: The result of the xpath expression "//ul/li/a/@href" is: . It should be an element.
(Session info: headless chrome=81.0.4044.138)
(Driver info: chromedriver=2.32.498550 (9dec58e66c31bcc53a9ce3c7226f0c1c5810906a),platform=Windows NT 10.0.18362 x86_64)


我用的selenium里面的.find_elements_by_xpath("//ul/li/a/@href")

1q23w31 发表于 2020-8-23 17:21:41

937135952 发表于 2020-8-23 17:08
InvalidSelectorException: invalid selector: The result of the xpath expression "//ul

那试试这样("//ul/li/a").get_attribute('href')

937135952 发表于 2020-8-23 17:43:12

1q23w31 发表于 2020-8-23 17:21
那试试这样

AttributeError: 'list' object has no attribute 'get_attribute'
真让人头大orz

疾风怪盗 发表于 2020-8-23 17:49:35

本帖最后由 疾风怪盗 于 2020-8-23 17:52 编辑

937135952 发表于 2020-8-23 17:43
AttributeError: 'list' object has no attribute 'get_attribute'
真让人头大orz

'list' object
是不是意思你这个取出来的是列表,先打印一下看看列表内容,是不是需要加个这样取出元素再用.get_attribute('href')

参考https://blog.csdn.net/Beyond_F4/article/details/92647876
https://blog.csdn.net/hacklyc/article/details/65454285?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.channel_param&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.channel_param

1q23w31 发表于 2020-8-23 17:57:08

937135952 发表于 2020-8-23 17:43
AttributeError: 'list' object has no attribute 'get_attribute'
真让人头大orz

把网址发一下吧

937135952 发表于 2020-8-24 19:08:39

1q23w31 发表于 2020-8-23 17:57
把网址发一下吧

http://roll.caijing.com.cn/

937135952 发表于 2020-8-24 19:17:46

1q23w31 发表于 2020-8-23 17:57
把网址发一下吧

懂了,browser.find_elements_by_xpath,改成browser.find_element_by_xpath就行了

先用这个 browser.find_element_by_xpath("//ul/li/a")方法存储到列表里
然后在遍历列表找到href这个特征可以吗

937135952 发表于 2020-8-24 19:20:13

1q23w31 发表于 2020-8-23 17:57
把网址发一下吧

ok,解决了
页: [1]
查看完整版本: 关于xpath爬虫里面爬取网址链接的问题