鱼C论坛

 找回密码
 立即注册
查看: 1149|回复: 6

代码已贴出,请大佬们看一看

[复制链接]
发表于 2020-6-27 13:25:03 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
    def parse(self, response):
            #获取当前爬取的榜单
        rank_tab=response.xpath('//ul[@class="rank-tab"]/li[@class="active"]/text()').getall()[0]
        print('='*50,'当前爬取榜单为:',rank_tab,'='*50)

        #视频的信息都放在li标签中,这里先获取所有的li标签
        #之后遍历rank_lists获取每个视频的信息
        rank_lists=response.xpath('//ul[@class="rank-list"]/li')
        for rank_list in rank_lists:
            rank_num=rank_list.xpath('div[@class="num"]/text()').get()
            title=rank_list.xpath('div/div[@class="info"]/a/text()').get()
            # 抓取视频的url,切片后获得视频的id
            id=rank_list.xpath('div/div[@class="info"]/a/@href').get().split('/av')[-1]
            # 拼接详情页api的url
            Detail_link=f'https://api.bilibili.com/x/web-interface/archive/stat?aid={id}'
            Labels_link=f'https://api.bilibili.com/x/web-interface/view/detail/tags?aid={id}'
            author=rank_list.xpath('div/div[@class="info"]/div[@class="detail"]/a/span/text()').get()
            score=rank_list.xpath('div/div[@class="info"]/div[@class="pts"]/div/text()').get()


运行结果:2020-06-27 13:21:06 [scrapy.core.engine] DEBUG: Crawled (404) <GET https://api.bilibili.com/x/web-i ... /video/BV1Rz4y1Q7tg> (referer: https://www.bilibili.com/ranking/all/0/0/30)
2020-06-27 13:21:06 [scrapy.spidermiddlewares.httperror] INFO: Ignoring response <404 https://api.bilibili.com/x/web-i ... /video/BV1Rz4y1Q7tg>: HTTP status code is not handled or not allowed


本来"aid="应该接一串数字(B站爬取视频的id)但这里却是一个很长的网址,然后导致无法正确访问,请各位大佬看看是哪里出了问题
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-6-27 13:29:27 | 显示全部楼层
是因为b站的反爬吗?
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-6-27 13:30:00 | 显示全部楼层

我也不懂
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-6-27 13:31:55 | 显示全部楼层

貌似不是
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-6-27 13:33:13 | 显示全部楼层
应该你你的连接搞错了,所以 报错信息为 404
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-6-27 13:34:50 | 显示全部楼层
liuzhengyuan 发表于 2020-6-27 13:33
应该你你的连接搞错了,所以 报错信息为 404

是的,就是链接的问题,但不知道怎么解决
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-6-27 14:06:06 | 显示全部楼层
代码和报错都贴全,具体哪行产生的报错的都看不出来。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-1-20 10:56

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表