鱼C论坛

 找回密码
 立即注册
查看: 1272|回复: 6

请问大神 在使用scrapy写爬虫的时候,保存为json格式之后是空的,打印也没报错

[复制链接]
发表于 2019-2-20 18:54:14 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
本帖最后由 wulijuan 于 2019-2-20 18:54 编辑

求告知,为什么最后保存下来的json文件是0kb啊?是xpath查找的不对吗?
在利用scrapy爬取‘http://dmoztools.net’时,项目已经创建好,item文件也已经定义了容器:

import scrapy


class Domz_Item(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    title = scrapy.Field()   
    links = scrapy.Field()
    desc = scrapy.Field()


接下来写了spider,并导Domz_Item,将title links,desc都添加到了列表items中:
import scrapy
from domzspider.items import Domz_Item



class DmozSpider(scrapy.Spider):   
    name = 'dmoz'      
    allowed_domains = ['http://dmoztools.net']   
    start_url = ['http://dmoztools.net/Computers/Open_Source/']   
    def parse(self, response):   
        sel = scrapy.selector.Selector(response)   
        # 使用xpath进行节点查找
        sites = sel.xpath('//div id="site-list-content"/div class="site-item')
        items = []
        for site in sites:     
            item  = Domz_Item()
            item['title'] = site.xpath('//a target/text()').extract()   
            item['links'] = site.xpath('//a target/@href').extract()   
            item['desc'] = site.xpath('//div class="title-and-desc/div/text()').extract()
            item.append(item)

        return items


(不是很确定这个xpath的查找方式是否正确)

然后在cmd中,将爬到的内容保存为json格式:但是保存下来的json文件是0kb????
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2019-2-20 18:54:15 | 显示全部楼层
哦豁 这是个啥格式
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-2-20 18:57:51 | 显示全部楼层
xpath写错了
  1. xpath('//div[@id="site-list-content"]/div[@class="site-item]')
复制代码
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-2-20 18:58:29 | 显示全部楼层
是不是没爬到数据啊。。。你打印出来看看。。。
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2019-2-20 19:13:00 | 显示全部楼层
Charles未晞 发表于 2019-2-20 18:58
是不是没爬到数据啊。。。你打印出来看看。。。

打印也是没有内容的 但是也么有报错
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2019-2-20 19:13:44 | 显示全部楼层

改回来了 但是还是没内容
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-2-20 19:38:46 | 显示全部楼层
你先打印源码看下内容
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2026-1-14 00:54

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表