关于xpath爬虫里面爬取网址链接的问题
就比如<a href='http://............'>全国社会保障理事会</a>用Xpath方法爬取我是这么写的:("//ul/li/a")
爬到的是文字
我想要爬到的是那个网址,请教各位大佬应该怎么写吖 ("//ul/li/a/@href") 1q23w31 发表于 2020-8-23 08:29
InvalidSelectorException: invalid selector: The result of the xpath expression "//ul/li/a/@href" is: . It should be an element.
(Session info: headless chrome=81.0.4044.138)
(Driver info: chromedriver=2.32.498550 (9dec58e66c31bcc53a9ce3c7226f0c1c5810906a),platform=Windows NT 10.0.18362 x86_64)
我用的selenium里面的.find_elements_by_xpath("//ul/li/a/@href") 937135952 发表于 2020-8-23 17:08
InvalidSelectorException: invalid selector: The result of the xpath expression "//ul
那试试这样("//ul/li/a").get_attribute('href')
1q23w31 发表于 2020-8-23 17:21
那试试这样
AttributeError: 'list' object has no attribute 'get_attribute'
真让人头大orz 本帖最后由 疾风怪盗 于 2020-8-23 17:52 编辑
937135952 发表于 2020-8-23 17:43
AttributeError: 'list' object has no attribute 'get_attribute'
真让人头大orz
'list' object
是不是意思你这个取出来的是列表,先打印一下看看列表内容,是不是需要加个这样取出元素再用.get_attribute('href')
参考https://blog.csdn.net/Beyond_F4/article/details/92647876
https://blog.csdn.net/hacklyc/article/details/65454285?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.channel_param&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.channel_param 937135952 发表于 2020-8-23 17:43
AttributeError: 'list' object has no attribute 'get_attribute'
真让人头大orz
把网址发一下吧
1q23w31 发表于 2020-8-23 17:57
把网址发一下吧
http://roll.caijing.com.cn/ 1q23w31 发表于 2020-8-23 17:57
把网址发一下吧
懂了,browser.find_elements_by_xpath,改成browser.find_element_by_xpath就行了
先用这个 browser.find_element_by_xpath("//ul/li/a")方法存储到列表里
然后在遍历列表找到href这个特征可以吗 1q23w31 发表于 2020-8-23 17:57
把网址发一下吧
ok,解决了
页:
[1]