鱼C论坛

 找回密码
 立即注册
12
返回列表 发新帖
楼主: 昨非

[已解决]关于json数据集如何处理

[复制链接]
 楼主| 发表于 2020-11-25 21:44:07 | 显示全部楼层
疾风怪盗 发表于 2020-11-25 21:37
json格式很简单,4楼回答的就很全了,我一般都爬下来后先保存了,再用pycharm打开,格式化一下,就可以看到 ...

就是只能遍历一层层找了是吧(遍历我应该还搞的定。。就是太多了)

还有,关于提取出来的内容(键值对的值)存储有没有什么建议,,

后期可能还需要用到关键字匹配啥的(就是找到图中标注的text的句子按关键字分类统计)
有何建议??
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-11-25 21:45:19 | 显示全部楼层
昨非 发表于 2020-11-25 21:40
确实不全,整个json太大了,粘不上来
正则表达式我没学过,就很难,而且数据量巨多

json数据不全的话,排错就很麻烦了,一长串去找结构,比较麻烦

用re其实很简单,就这样findall就能把对应标签key的找出来

评分

参与人数 1荣誉 +5 鱼币 +5 贡献 +3 收起 理由
昨非 + 5 + 5 + 3 谢谢啦

查看全部评分

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-11-25 21:46:47 | 显示全部楼层
昨非 发表于 2020-11-25 21:44
就是只能遍历一层层找了是吧(遍历我应该还搞的定。。就是太多了)

还有,关于提取出来的内容(键值对 ...

你那个图,我到现在也没刷出来

数据存储,我一般爬虫都是按json存的,只要格式对了,还是很方便的,结构清晰

评分

参与人数 1荣誉 +5 鱼币 +5 贡献 +3 收起 理由
昨非 + 5 + 5 + 3

查看全部评分

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2020-11-25 21:47:12 | 显示全部楼层
疾风怪盗 发表于 2020-11-25 21:45
json数据不全的话,排错就很麻烦了,一长串去找结构,比较麻烦

用re其实很简单,就这样findall就能把 ...

这个不用你排错了,挺难的麻烦了

你说的re需要考虑层数吗,就是那种嵌套的影不影响?
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-11-25 21:48:38 | 显示全部楼层
昨非 发表于 2020-11-25 21:47
这个不用你排错了,挺难的麻烦了

你说的re需要考虑层数吗,就是那种嵌套的影不影响?

用re就是像字符串一样找了,不考虑层数,考虑的是匹配,就像我写的那样,考虑的是
'"id":(.*?),'
.*?就是内容了,前后字符一致就能找到

评分

参与人数 1荣誉 +4 鱼币 +4 贡献 +3 收起 理由
昨非 + 4 + 4 + 3

查看全部评分

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2020-11-25 21:50:32 | 显示全部楼层
疾风怪盗 发表于 2020-11-25 21:48
用re就是像字符串一样找了,不考虑层数,考虑的是匹配,就像我写的那样,考虑的是
.*?就是内容了,前后 ...

嗯嗯,具体语法我自己查吧,起码有方向了

还有问题就是
对于好多字符串按关键字分类有没有什么思路或建议?
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-11-25 21:51:34 | 显示全部楼层
昨非 发表于 2020-11-25 21:47
这个不用你排错了,挺难的麻烦了

你说的re需要考虑层数吗,就是那种嵌套的影不影响?

你那个图我刷出来了,你要的就是text内容
就是19楼我写的这样,就能找出来
['"\\/\\/@笑多了会变态:北京暴雨致使有人打不开车门造成溺亡,其实被困在车里逃生时"', '"抱歉,此微博已被作者删除。查看帮助:http:\\/\\/t.cn\\/zWSudZc"', '"威尼斯当地时间9月3日晚7点,阔别银幕多时的张曼玉带着两部出演的短片回到聚光灯前,在其中一部讲述中国非法移民在英国海滩拾贝遇难事件的短片中,张曼玉更是以毫无台词的福建一带女神妈祖一角出镜。"', '"收到北京暴雨提示短信:市气象台19时35分发布暴雨蓝色预警信号:未来3小时房山东部、大兴、城六区、通州等地雨量将超过30毫米,城区防积水,山区灾区防地质灾害"', '"北京暴雨受灾为何不见哭?"', '"总理在哪里?原来在开会。温总:尽快推一批民间投资参与的重点项目"', '"[蠟燭]\\/\\/@灵性之瓶: [蜡烛]\\/\\/@董净心: [蜡烛]\\/\\/@妙音智凯: [蜡烛]\\/\\/@成就深信: [蜡烛][蜡烛][蜡烛] \\/\\/@春華秋實微语录: 阿弥陀佛![蠟燭]让我们共同祈祷北京天津[心]及7.21遇难亡灵得生净土;祈愿受灾群众早日恢复往日的家园。 [蠟燭][蠟燭][蠟燭]愿生者吉祥安乐 逝者脱离苦难![蠟燭]"']
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2020-11-25 21:54:18 | 显示全部楼层
疾风怪盗 发表于 2020-11-25 21:48
用re就是像字符串一样找了,不考虑层数,考虑的是匹配,就像我写的那样,考虑的是
.*?就是内容了,前后 ...

是不是出发审核了?
刚刚有条消息不太对劲?
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-11-25 21:54:40 | 显示全部楼层
昨非 发表于 2020-11-25 21:50
嗯嗯,具体语法我自己查吧,起码有方向了

还有问题就是

你这个字符串按关键字分类,看不懂是什么意思

是这样?
data = {'a': ['a1', 'a2'], 'b':['b1', 'b2']}

评分

参与人数 1贡献 +3 收起 理由
昨非 + 3

查看全部评分

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2020-11-25 21:56:39 | 显示全部楼层
疾风怪盗 发表于 2020-11-25 21:54
你这个字符串按关键字分类,看不懂是什么意思

是这样?

好吧,我是我没描述清楚
这是爬出来的评论内容,我们现在要将这些评论(字符串)
按照某些关键字归类然后方便后面的数据统计和可视化

评分

参与人数 1荣誉 +5 贡献 +3 收起 理由
严凯 + 5 + 3

查看全部评分

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-11-25 21:58:46 | 显示全部楼层
昨非 发表于 2020-11-25 21:56
好吧,我是我没描述清楚
这是爬出来的评论内容,我们现在要将这些评论(字符串)
按照某些关键字归类然 ...

就是要在text内找关键字吧?我之前写的,就是用字符串的find方法,循环了一个关键词的txt文档,你这数据量大,估计不适用了。。。。。。。。。。。你也可以用re来匹配,这个应该会快一点

评分

参与人数 1贡献 +3 收起 理由
昨非 + 3 麻烦了

查看全部评分

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2020-11-25 21:59:39 | 显示全部楼层
疾风怪盗 发表于 2020-11-25 21:58
就是要在text内找关键字吧?我之前写的,就是用字符串的find方法,循环了一个关键词的txt文档,你这数据 ...

好吧,我回头先操作下试试,有什么问题再来请教,多谢了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2020-11-25 22:09:27 | 显示全部楼层
疾风怪盗 发表于 2020-11-25 22:07
比如这样,找出暴雨和总理两个关键词

"\/\/@笑多了会变态:北京暴雨致使有人打不开车门造成溺亡,其实 ...

爱了,谢了老哥
这个最佳本来以为要挂一段时间
你这也太给力了吧
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2020-11-25 22:11:00 | 显示全部楼层
疾风怪盗 发表于 2020-11-25 21:54
你这个字符串按关键字分类,看不懂是什么意思

是这样?

后续有啥细节问题我可就再来问哈
谢了老哥
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2022-6-30 19:22:24 | 显示全部楼层
疾风怪盗 发表于 2020-11-25 18:24
比如这样,找出暴雨和总理两个关键词

"\/\/@笑多了会变态:北京暴雨致使有人打不开车门造成溺亡,其实 ...

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-11-17 17:52

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表