鱼C论坛

 找回密码
 立即注册
查看: 2536|回复: 3

[已解决]scrapy中xpath的取值问题继续。。。

[复制链接]
发表于 2016-12-2 10:47:41 | 显示全部楼层 |阅读模式
54鱼币
        有个xpath的问题请教下:
  1. sel.xpath('//table')[0].xpath('//tr')[0].xpath('/td')
复制代码

       
        我这样是想取第一个table的第一tr下的td
        但是返回的是所有table里面的所有tr下的所有td
        是因为哪里写的不对么
        另外对于页面解析有什么详细的教程或者指点么   
        求助!!!~~~
最佳答案
2016-12-2 10:47:42
上面的问题已转换成
  1. sel.xpath('//table[1]/tbody/tr[1]/td[2]/span/text()').extract()
复制代码

解决

但是求教有没有方法能判断比如两个table下一个有p标签一个没有  我需要判断
if(p存在):
  do something
else:
  do anything

最佳答案

查看完整内容

上面的问题已转换成 解决 但是求教有没有方法能判断比如两个table下一个有p标签一个没有 我需要判断 if(p存在): do something else: do anything
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2016-12-2 10:47:42 | 显示全部楼层    本楼为最佳答案   
上面的问题已转换成
  1. sel.xpath('//table[1]/tbody/tr[1]/td[2]/span/text()').extract()
复制代码

解决

但是求教有没有方法能判断比如两个table下一个有p标签一个没有  我需要判断
if(p存在):
  do something
else:
  do anything
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2016-12-2 16:18:12 | 显示全部楼层
再请教下:
scrapy进行递归抓取链接的时候:
  1. yield Request(item['link'].decode('utf-8'), meta={'item': item}, callback=self.parse, dont_filter=False)
复制代码

dont_filter=False设置了之后是不是就可以实现链接的过滤了  重复的链接就不会再去爬取了? 是不是爬尽所有的链接才会停下来
可能我问的不是特别清楚   大家能不能明白我的意思。。。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2016-12-2 17:35:09 | 显示全部楼层
wufan 发表于 2016-12-2 14:17
上面的问题已转换成

解决

这个也解决了   是标签里面的属性有空格所以取不到  可以用contains 又坑爹了一次~~~
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-4-28 11:59

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表