鱼C论坛

 找回密码
 立即注册
查看: 1667|回复: 15

[已解决]64爬虫的scrapy 框架中的问题,抓取不了a标签中的@href,大佬求助!

[复制链接]
发表于 2020-6-7 13:59:32 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
本帖最后由 我下何从 于 2020-6-7 14:09 编辑

64爬虫的scrapy 框架中的问题,抓取不了a标签中的@href,大佬求助!
最佳答案
2020-6-7 14:40:27
我下何从 发表于 2020-6-7 14:38
hhhhh我为什么总出现这种弱智问题
可以了也,可是为什么呢?定位模糊了反而可以了??

哈哈,你Xpath 语法都错了 就算刚刚改了 也不行 ,改刚刚这样才行

前面的程序都没有问题,那个title能够抓取下来,可是link的href就会显示无效参数

前面的程序都没有问题,那个title能够抓取下来,可是link的href就会显示无效参数
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-6-7 14:06:09 | 显示全部楼层
你Xpath 语法错误了,不能直接 a // 的   //a/text
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-6-7 14:09:32 | 显示全部楼层

一天学一点,每天都有进步

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2020-6-7 14:11:13 | 显示全部楼层
Twilight6 发表于 2020-6-7 14:06
你Xpath 语法错误了,不能直接 a // 的   //a/text

其实是更新后的图片,斜杠问题我有上网搜过,试过都不行
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-6-7 14:12:24 | 显示全部楼层
我下何从 发表于 2020-6-7 14:11
其实是更新后的图片,斜杠问题我有上网搜过,试过都不行

发代码吧
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-6-7 14:13:47 | 显示全部楼层
Twilight6 发表于 2020-6-7 14:06
你Xpath 语法错误了,不能直接 a // 的   //a/text

a 前面有没有斜杠都是不行的,都会显示无效参数,但是那个title就算把text()改成@title也行
网图.PNG
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-6-7 14:16:10 | 显示全部楼层

#########这是dmoz_spider.py             在64讲里面,总共需要写的模块就是左边的和items,小哥应该很熟,唔该赛
import scrapy

from tutor.items import DemozItem

class DmozSpider(scrapy.Spider):
    name='dmoz'
    allowed_domains=['tupianzj.com']
    start_urls=[
        'https://www.tupianzj.com/chuangyi/',
        'https://www.tupianzj.com/mingxingku/'
        ]


    def parse(self,response):
        sel=scrapy.selector.Selector(response)
        sites=sel.xpath('//div[@class="warpbox_con_bottom"]/ul/li')
        items=[]
        for site in sites:
            item=DemozItem()
            item['title']= site.xpath('a/text()').extract()
            item['links']l=site.xpath('a/@href').extract()
            items.append(item)

        return items
##############################
#######这是items.py

import scrapy


class DemozItem(scrapy.Item):
   
    title=scrapy.Field()
    links=scrapy.Field()
###########################
   
            
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-6-7 14:21:59 | 显示全部楼层
我下何从 发表于 2020-6-7 14:16
#########这是dmoz_spider.py             在64讲里面,总共需要写的模块就是左边的和items,小哥应该很 ...
import scrapy

from tutor.items import DemozItem

class DmozSpider(scrapy.Spider):
    name='dmoz'
    allowed_domains=['tupianzj.com']
    start_urls=[
        'https://www.tupianzj.com/chuangyi/',
        'https://www.tupianzj.com/mingxingku/'
        ]


    def parse(self,response):
        sel=scrapy.selector.Selector(response)
        sites=sel.xpath('//div[@class="warpbox_con_bottom"]')
        items=[]
        for site in sites:
            item=DemozItem()
            item['title']= site.xpath('//@title').extract()
            item['links']=site.xpath('//@href').extract()
            items.append(item)

        return items
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-6-7 14:22:35 | 显示全部楼层
我下何从 发表于 2020-6-7 14:16
#########这是dmoz_spider.py             在64讲里面,总共需要写的模块就是左边的和items,小哥应该很 ...

试试看?
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-6-7 14:28:06 | 显示全部楼层

小哥,还是有同样的问题,好像就是href有问题啊

小哥,还是同样的出错

小哥,还是同样的出错
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-6-7 14:29:28 | 显示全部楼层
我下何从 发表于 2020-6-7 14:28
小哥,还是有同样的问题,好像就是href有问题啊

你把你代码 items 那后面的 l 去掉...
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-6-7 14:38:44 | 显示全部楼层
Twilight6 发表于 2020-6-7 14:29
你把你代码 items 那后面的 l 去掉...

hhhhh我为什么总出现这种弱智问题
可以了也,可是为什么呢?定位模糊了反而可以了??
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-6-7 14:40:27 | 显示全部楼层    本楼为最佳答案   
我下何从 发表于 2020-6-7 14:38
hhhhh我为什么总出现这种弱智问题
可以了也,可是为什么呢?定位模糊了反而可以了??

哈哈,你Xpath 语法都错了 就算刚刚改了 也不行 ,改刚刚这样才行
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-6-7 14:42:15 | 显示全部楼层
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-6-7 14:43:09 | 显示全部楼层
Twilight6 发表于 2020-6-7 14:40
哈哈,你Xpath 语法都错了 就算刚刚改了 也不行 ,改刚刚这样才行

我发现我实力眼瞎,把那个l去掉,一开始就已经行了!!!!!谢谢小哥
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-6-7 14:44:51 | 显示全部楼层
我下何从 发表于 2020-6-7 14:43
我发现我实力眼瞎,把那个l去掉,一开始就已经行了!!!!!谢谢小哥

噗  好吧
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-1-20 20:03

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表