鱼C论坛

 找回密码
 立即注册
查看: 7120|回复: 4

scrapy 抓取后导出到JSON,中文字符都变成\u4e2d\u56fd\u79d1\u6280\u4f53\u5236\u6539

[复制链接]
发表于 2018-5-26 08:21:53 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
  1.     def parse(self,response):
  2.         #filename=response.url,split("/")[-2]
  3.         #with open('webhome','wb') as f:
  4.         #    f.write(response.body)
  5.         sel=scrapy.selector.Selector(response)
  6.         sites=sel.xpath('//div[@class="list-content"]')
  7.         items=[]
  8.         for site in sites:
  9.             item=ShishiItem()
  10.             item['title'] = site.xpath('a/text()').extract()
  11.             item['url'] = site.xpath('a/@href').extract()
  12.             item['desc'] = site.xpath('p/text()').extract()
  13.             #print(title,url,desc)
  14.             items.append(item)
  15.         return items
复制代码

[
{"url": ["/news/show-4481.html"], "title": ["\u4e2d\u56fd\u79d1\u6280\u4f53\u5236\u6539\u9769\u7814\u7a76\u4f1a\u8385\u77f3\u8c03\u7814\u79d1\u6280\u4f53\u5236\u6539\u9769\u5de5\u4f5c"], "desc": ["5\u670823\u65e5\uff0c\u4e2d\u56fd\u79d1\u6280\u4f53\u5236\u6539\u9769\u7814\u7a76\u4f1a\u7406\u4e8b\u957f\u5f20\u666f\u5b89\u4e00\u884c\u8385\u77f3\u5f00\u5c55\u201c\u6df1\u5316\u79d1\u6280\u4f53\u5236\u6539\u9769\uff0c\u63d0\u5347\u4ea7\u4e1a\u521b\u65b0\u80fd\u529b\u201d\u4e13\u9898\u8c03\u7814\uff0c\u5e76\u4e0e\u5e02\u76f8\u5173\u90e8\u95e8\u8d1f\u8d23\u4eba\u7b49\u8fdb\u884c\u5ea7\u8c08\u3002\u3000\u3000\u8385\u77f3\u671f\u95f4\uff0c\u5f20\u666f\u5b89\u4e00\u884c\u5b9e\u5730\u8d70\u8bbf\u8c03\u7814\u4e86\u98de\u901a\u79d1\u6280\u3001\u4e2d\u7eba\u534f\u548c\u6d77\u661f\u79d1\u6280\u3002\u57285\u670824\u65e5\u4e0a\u5348\u4e3e\u884c\u7684\u5ea7\u8c08\u4f1a\u4e0a\uff0c\u4e0e\u6211\u5e02\u76f8\u5173\u90e8\u95e8\u8d1f\u8d23\u4eba\u3001\u2026"]},
{"url": ["/news/show-4480.html"], "title": ["\u4e09\u5e74\u5185\u5b9e\u73b0\u5e02\u533a\u9547\u533a\u6bcf\u4e07\u4eba\u67093-4\u5ea7\u516c\u5395"], "desc": ["\u8fd1\u65e5\uff0c\u300a\u77f3\u72ee\u5e02\u8fdb\u4e00\u6b65\u63a8\u8fdb\u201c\u5395\u6240\u9769\u547d\u201d\u884c\u52a8\u5b9e\u65bd\u65b9\u6848\u300b\u5370\u53d1\u51fa\u53f0\u3002\u6839\u636e\u65b9\u6848\uff0c\u6211\u5e02\u5c06\u5728\u4e09\u5e74\u5185\u5b9e\u73b0\u5e02\u533a\u548c\u6cbf\u6d77\u5404\u9547\u9547\u533a\u6bcf\u4e07\u4eba\u67093-4\u5ea7\u516c\u5395\uff0c\u5207\u5b9e\u6539\u53d8\u57ce\u4e61\u516c\u5395\u6570\u91cf\u4e0d\u8db3\u3001\u54c1\u8d28\u4e0d\u9ad8\u3001\u7ba1\u7406\u8584\u5f31\u7684\u5c40\u9762\uff0c\u8865\u9f50\u6c11\u751f\u77ed\u677f\uff0c\u4e0d\u65ad\u63d0\u5347\u6211\u5e02\u5395\u6240\u5efa\u8bbe\u7ba1\u7406\u6c34\u5e73\u3002\u3000\u3000\u6839\u636e\u65b9\u6848\uff0c\u6211\u5e02\u201c\u5395\u6240\u9769\u547d\u201d\u2026"]},
{"url": ["/news/show-4488.html"], "title": ["\u505c\u4e0d\u4e0b\u6765\uff01\u7075\u79c011\u4ebf\u7684\u9879\u76ee\u521a\u843d\u5730\uff0c\u540e\u9762\u8fd8\u67099\u4e2a\u9879\u76ee....."], "desc": []},
{"url": ["/news/show-4484.html"], "title": ["\u5c0f\u578b\u9910\u996e\u201c\u8dd1\u4e00\u8d9f\u201d\u5c31\u53ef\u5f00\u95e8\u8425\u4e1a"], "desc": ["\u201c\u771f\u7684\u6ca1\u60f3\u5230\u5f00\u5bb6\u9910\u996e\u5e97\u7adf\u7136\u4f1a\u8fd9\u4e48\u5bb9\u6613\uff0c\u4e00\u5f20\u8868\u5c31\u641e\u5b9a\uff01\u201d5\u670824\u65e5\u4e0b\u5348\uff0c\u5728\u63a5\u8fc7\u77f3\u72ee\u5e02\u5e02\u573a\u76d1\u7763\u7ba1\u7406\u5c40\u9881\u53d1\u7684\u7f16\u53f7\u4e3a\uff1aXXCYQZSSS0001\u7684\u300a\u5c0f\u578b\u9910\u996e\u5907\u6848\u6750\u6599\u786e\u8ba4\u901a\u77e5\u4e66\u300b\u540e\uff0c\u77f3\u72ee\u5e02\u5ba2\u6765\u5c45\u9910\u996e\u5e97\u8001\u677f\u5c0f\u5510\u6fc0\u52a8\u4e0d\u5df2\u3002\u636e\u6089\uff0c\u8fd9\u662f\u6211\u5e02\u5728\u77f3\u72ee\u9ad8\u65b0\u6280\u672f\u4ea7\u4e1a\u5f00\u53d1\u533a\u5f00\u5c55\u5c0f\u9910\u996e\u5907\u6848\u8bd5\u70b9\u5de5\u4f5c\u2026"]},
{"url": ["/news/show-4483.html"], "title": ["\u57f9\u80b2\u5178\u578b\u6587\u660e\u6751\u5c45 \u6253\u9020\u79fb\u98ce\u6613\u4fd7\u597d\u73af\u5883"], "desc": ["\u8fd1\u65e5\uff0c\u8bb0\u8005\u4ece\u9526\u5c1a\u9547\u5362\u539d\u6751\u83b7\u6089\uff0c\u4eca\u5e74\u7b2c\u4e00\u5b63\u5ea6\u8be5\u6751\u6751\u6c11\u7b80\u529e\u7ea2\u767d\u559c\u4e8b\u6350\u8d44\u516c\u76ca\u70ed\u5ea6\u4e0d\u51cf\uff0c\u5171\u6536\u523036000\u5143\u516c\u76ca\u6350\u8d44\uff0c\u81ea\u54cd\u5e94\u79fb\u98ce\u6613\u4fd7\u53f7\u53ec\uff0c\u6267\u884c\u6751\u89c4\u6c11\u7ea6\u5de5\u4f5c\u540e\uff0c\u5362\u539d\u6751\u5c31\u6210\u4e3a\u9526\u5c1a\u79fb\u98ce\u6613\u4fd7\u7684\u6392\u5934\u5175\uff0c\u8fd9\u662f\u8bb0\u8005\u5728\u9526\u5c1a\u9547\u91c7\u8bbf\u65f6\u7684\u6240\u89c1\u6240\u95fb\uff0c\u800c\u8fd9\u4e5f\u662f\u9526\u5c1a\u9547\u7ed3\u5408\u9547\u60c5\u52a0\u5927\u6587\u660e\u5ba3\u4f20\uff0c\u6811\u7acb\u2026"]},
{"url": ["/news/show-4482.html"], "title": ["\u9ad8\u6821\u6bd5\u4e1a\u751f\u5c31\u4e1a\u521b\u4e1a \u7535\u89c6\u7535\u8bdd\u4f1a\u8bae\u53ec\u5f00"], "desc": ["5\u670824\u65e5\uff0c\u5168\u56fd\u666e\u901a\u9ad8\u7b49\u5b66\u6821\u6bd5\u4e1a\u751f\u5c31\u4e1a\u521b\u4e1a\u5de5\u4f5c\u7535\u89c6\u7535\u8bdd\u4f1a\u8bae\u53ec\u5f00\u3002\u77f3\u72ee\u5e02\u9886\u5bfc\u674e\u658c\u3001\u5f20\u6c49\u6770\u53ca\u5404\u76f8\u5173\u90e8\u95e8\u8d1f\u8d23\u4eba\u5728\u77f3\u72ee\u5206\u4f1a\u573a\u53c2\u52a0\u4f1a\u8bae\u3002\u3000\u3000\u4f1a\u8bae\u8981\u6c42\uff0c\u5404\u5730\u533a\u5404\u6709\u5173\u90e8\u95e8\u8981\u6df1\u5165\u5b9e\u65bd\u5c31\u4e1a\u4f18\u5148\u6218\u7565\u548c\u66f4\u52a0\u79ef\u6781\u7684\u5c31\u4e1a\u653f\u7b56\uff0c\u72e0\u6293\u5c31\u4e1a\u521b\u4e1a\u5404\u9879\u65b0\u4e3e\u63aa\u843d\u5730\uff0c\u7a81\u51fa\u91cd\u70b9\uff0c\u7cbe\u51c6\u65bd\u7b56\uff0c\u4fc3\u8fdb\u7ecf\u2026"]}
]
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2018-5-26 13:13:57 | 显示全部楼层
我也碰到过  标题的汉字 不显示   你用的哪个版本的scrapy?
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-5-26 13:18:58 | 显示全部楼层
论坛说开头加上    -*- coding: utf-8 -*-
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-5-26 15:58:50 | 显示全部楼层
这是中文的Unicode编码,解码转换一下就可以了
  1. Python 3.4.1 (v3.4.1:c0e311e010fc, May 18 2014, 10:38:22) [MSC v.1600 32 bit (Intel)] on win32
  2. Type "help", "copyright", "credits" or "license" for more information.
  3. >>> a="\u8fd1\u65e5\uff0c\u8bb0\u8005\u4ece\u9526\u5c1a\u9547\u5362\u539d\u6751\u83b7\u6089\uff0c\u4eca\u5e74\u7b2c\u4e00\u5b63\u5ea6\u8be5\u6751\u6751\u6c11\u7b80\u529e\u7ea2\u767d\u559c\u4e8b\u6350\u8d44\u516c\u76ca\u70ed\u5ea6\u4e0d\u51cf\uff0c\u5171\u6536\u523036000\u5143\u516c\u76ca\u6350\u8d44\uff0c\u81ea\u54cd\u5e94\u79fb\u98ce\u6613\u4fd7\u53f7\u53ec\uff0c\u6267\u884c\u6751\u89c4\u6c11\u7ea6\u5de5\u4f5c\u540e\uff0c\u5362\u539d\u6751\u5c31\u6210\u4e3a\u9526\u5c1a\u79fb\u98ce\u6613\u4fd7\u7684\u6392\u5934\u5175\uff0c\u8fd9\u662f\u8bb0\u8005\u5728\u9526\u5c1a\u9547\u91c7\u8bbf\u65f6\u7684\u6240\u89c1\u6240\u95fb\uff0c\u800c\u8fd9\u4e5f\u662f\u9526\u5c1a\u9547\u7ed3\u5408\u9547\u60c5\u52a0\u5927\u6587\u660e\u5ba3\u4f20\uff0c\u6811\u7acb\u2026"
  4. >>> a
  5. '近日,记者从锦尚镇卢厝村获悉,今年第一季度该村村民简办红白喜事捐资公益热度不减,共收到36000元公益捐资,自响应移风易俗号召,执行村规民约工作后,卢厝村就成为锦尚移风易俗的排头兵,这是记者在锦尚镇采访时的所见所闻,而这也是锦尚镇结合镇情加大文明宣传,树立…'
  6. >>>
复制代码

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-5-28 14:59:43 | 显示全部楼层
看样子你需要在append之前需要将 “title”和“desc”encode一下,看下源代码上是那种编码,然后相对应的encode,试试?
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-6-2 05:17

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表