|
发表于 2020-12-14 18:54:50
|
显示全部楼层
尝试了xpath的模糊定位配合轴定位- //span[contains(text(),"卷二")]/preceding-sibling::span[@class=""]
复制代码
勉强能满足楼主的需求,但这个只能满足当前书籍卷一采集的情况,批量采集可能行不通
后面的卷数(卷三 卷四等)用上面的更行不通,后来继续改换思路
- 卷一 //span[contains(text(),"全部")]/following-sibling::span[position()<70]
- 卷二 //span[contains(text(),"卷二")]/following-sibling::span[position()<72]
- 卷三 //span[contains(text(),"卷三")]/following-sibling::span[position()<75]
- 卷四 //span[contains(text(),"卷四")]/following-sibling::span[position()<79]
- 卷五 //span[contains(text(),"卷五")]/following-sibling::span[position()<80]
- 卷六 //span[contains(text(),"卷六")]/following-sibling::span[position()<81]
- 卷七 //span[contains(text(),"卷七")]/following-sibling::span[position()<70]
复制代码
如果是这样的话 分卷采集应该就没有问题了
主要还是网站的问题 如果分卷标题和分卷章节节点为父子关系,xpath写起来会容易很多
可惜不是悬赏贴 不然还能赚点鱼币 |
|