scrapy爬虫json格式文件保存,Python交流,编程语言专区,鱼C论坛

小黑狼5 发表于 2020-9-30 14:37:31

scrapy爬虫json格式文件保存

今天按照小甲鱼的教程写了一个基于scrapy框架的爬虫，小甲鱼将dmoz网站的内容保存为json格式后记事本打开可以正常观看。
我爬的是博客园的文章。爬出来json保存后，打开是这样的（下面贴出来其中一条结果）：
{"title": ["Dotnet Core IHttpClientFactory\u6df1\u5ea6\u7814\u7a76"], "link": ["https://www.cnblogs.com/tiger-wang/p/13752297.html"], "describe": ["\n ", "\n \u4eca\u5929\uff0c\u6211\u4eec\u6df1\u5ea6\u7814\u7a76\u4e00\u4e0bIHttpClientFactory\u3002 \u4e00\u3001\u524d\u8a00 \u6700\u65e9\uff0c\u6211\u4eec\u662f\u5728Dotnet Framework\u4e2d\u63a5\u89e6\u5230HttpClient\u3002 HttpClient\u7ed9\u6211\u4eec\u63d0\u4f9b\u4e86\u4e0eHTTP\u4ea4\u4e92\u7684\u57fa\u672c\u65b9\u5f0f\u3002\u4f46\u8fd9\u4e2aHttpClient\u5728\u5927\u91cf\u9891\u7e41\u4f7f\u7528\u65f6\uff0c\u4e5f\u4f1a\u7ed9\u6211\u4eec\u629b\u51fa\u4e24\u4e2a\u5927\u5751\uff1a\u4e00\u65b9\u9762\uff0c\u5982\u679c\u6211\u4eec\u9891\u7e41\u521b\u5efa ...\n "]}
请问怎么让它显示正确编码的文档呢？

疾风怪盗 发表于 2020-9-30 21:42:53

https://fishc.com.cn/thread-180984-1-1.html
看我之前发的求助帖，一样的
json.dumps(result_data,ensure_ascii=False)，这个ensure参数没加
可以试试看能不能解决

小黑狼5 发表于 2020-10-1 13:06:08

疾风怪盗发表于 2020-9-30 21:42
https://fishc.com.cn/thread-180984-1-1.html
看我之前发的求助帖，一样的
json.dumps(result_data,ensu ...

不一样，你的json双引号是\",我的是正常的" 而且我从命令行讲爬取的数据用json保存时候也没有使用json的dump方法。

疾风怪盗 发表于 2020-10-1 13:09:31

小黑狼5 发表于 2020-10-1 13:06
不一样，你的json双引号是\",我的是正常的" 而且我从命令行讲爬取的数据用json保存时候也没有使用jso ...

那你用的是很么方法保存json？
你的代码全放上来看看呗

lhgzbxhz 发表于 2020-10-1 14:41:10

再用另一个python程序打开再保存一遍就好了

小黑狼5 发表于 2020-10-1 17:59:30

lhgzbxhz 发表于 2020-10-1 14:41
再用另一个python程序打开再保存一遍就好了

em....不懂

lhgzbxhz 发表于 2020-10-2 17:53:15

小黑狼5 发表于 2020-10-1 17:59
em....不懂

类似这样：
# 另一个文件.py
import json

js = json.load("原文件.json")
f = open('新文件.json','w',encoding='utf-8')
json.dump(js, f, ensure_ascii=False)试试能不能用

Cool_Breeze 发表于 2020-10-3 13:16:33

疾风怪盗发表于 2020-9-30 21:42
https://fishc.com.cn/thread-180984-1-1.html
看我之前发的求助帖，一样的
json.dumps(result_data,ensu ...

对不起，手滑点支持点到反对去了。。。你的答案很好！

疾风怪盗 发表于 2020-10-3 13:37:50

Cool_Breeze 发表于 2020-10-3 13:16
对不起，手滑点支持点到反对去了。。。你的答案很好！

{:10_256:}谢谢。。。。。。。。

页: [1]

鱼C论坛's Archiver

scrapy爬虫json格式文件保存