昨非 发表于 2020-11-25 21:44:07

疾风怪盗 发表于 2020-11-25 21:37
json格式很简单,4楼回答的就很全了,我一般都爬下来后先保存了,再用pycharm打开,格式化一下,就可以看到 ...

就是只能遍历一层层找了是吧(遍历我应该还搞的定。。就是太多了)

还有,关于提取出来的内容(键值对的值)存储有没有什么建议,,

后期可能还需要用到关键字匹配啥的(就是找到图中标注的text的句子按关键字分类统计)
有何建议??{:10_266:}

疾风怪盗 发表于 2020-11-25 21:45:19

昨非 发表于 2020-11-25 21:40
确实不全,整个json太大了,粘不上来
正则表达式我没学过,就很难,而且数据量巨多

json数据不全的话,排错就很麻烦了,一长串去找结构,比较麻烦

用re其实很简单,就这样findall就能把对应标签key的找出来

疾风怪盗 发表于 2020-11-25 21:46:47

昨非 发表于 2020-11-25 21:44
就是只能遍历一层层找了是吧(遍历我应该还搞的定。。就是太多了)

还有,关于提取出来的内容(键值对 ...

你那个图,我到现在也没刷出来

数据存储,我一般爬虫都是按json存的,只要格式对了,还是很方便的,结构清晰

昨非 发表于 2020-11-25 21:47:12

疾风怪盗 发表于 2020-11-25 21:45
json数据不全的话,排错就很麻烦了,一长串去找结构,比较麻烦

用re其实很简单,就这样findall就能把 ...

这个不用你排错了,挺难的麻烦了

你说的re需要考虑层数吗,就是那种嵌套的影不影响?

疾风怪盗 发表于 2020-11-25 21:48:38

昨非 发表于 2020-11-25 21:47
这个不用你排错了,挺难的麻烦了

你说的re需要考虑层数吗,就是那种嵌套的影不影响?

用re就是像字符串一样找了,不考虑层数,考虑的是匹配,就像我写的那样,考虑的是'"id":(.*?),'
.*?就是内容了,前后字符一致就能找到

昨非 发表于 2020-11-25 21:50:32

疾风怪盗 发表于 2020-11-25 21:48
用re就是像字符串一样找了,不考虑层数,考虑的是匹配,就像我写的那样,考虑的是
.*?就是内容了,前后 ...

嗯嗯,具体语法我自己查吧,起码有方向了

还有问题就是
对于好多字符串按关键字分类有没有什么思路或建议?

疾风怪盗 发表于 2020-11-25 21:51:34

昨非 发表于 2020-11-25 21:47
这个不用你排错了,挺难的麻烦了

你说的re需要考虑层数吗,就是那种嵌套的影不影响?

你那个图我刷出来了,你要的就是text内容
就是19楼我写的这样,就能找出来
['"\\/\\/@笑多了会变态:北京暴雨致使有人打不开车门造成溺亡,其实被困在车里逃生时"', '"抱歉,此微博已被作者删除。查看帮助:http:\\/\\/t.cn\\/zWSudZc"', '"威尼斯当地时间9月3日晚7点,阔别银幕多时的张曼玉带着两部出演的短片回到聚光灯前,在其中一部讲述中国非法移民在英国海滩拾贝遇难事件的短片中,张曼玉更是以毫无台词的福建一带女神妈祖一角出镜。"', '"收到北京暴雨提示短信:市气象台19时35分发布暴雨蓝色预警信号:未来3小时房山东部、大兴、城六区、通州等地雨量将超过30毫米,城区防积水,山区灾区防地质灾害"', '"北京暴雨受灾为何不见哭?"', '"总理在哪里?原来在开会。温总:尽快推一批民间投资参与的重点项目"', '"[蠟燭]\\/\\/@灵性之瓶: [蜡烛]\\/\\/@董净心: [蜡烛]\\/\\/@妙音智凯: [蜡烛]\\/\\/@成就深信: [蜡烛][蜡烛][蜡烛] \\/\\/@春華秋實微语录: 阿弥陀佛![蠟燭]让我们共同祈祷北京天津[心]及7.21遇难亡灵得生净土;祈愿受灾群众早日恢复往日的家园。 [蠟燭][蠟燭][蠟燭]愿生者吉祥安乐 逝者脱离苦难![蠟燭]"']

昨非 发表于 2020-11-25 21:54:18

疾风怪盗 发表于 2020-11-25 21:48
用re就是像字符串一样找了,不考虑层数,考虑的是匹配,就像我写的那样,考虑的是
.*?就是内容了,前后 ...

是不是出发审核了?
刚刚有条消息不太对劲?

疾风怪盗 发表于 2020-11-25 21:54:40

昨非 发表于 2020-11-25 21:50
嗯嗯,具体语法我自己查吧,起码有方向了

还有问题就是


你这个字符串按关键字分类,看不懂是什么意思

是这样?
data = {'a': ['a1', 'a2'], 'b':['b1', 'b2']}

昨非 发表于 2020-11-25 21:56:39

疾风怪盗 发表于 2020-11-25 21:54
你这个字符串按关键字分类,看不懂是什么意思

是这样?

好吧,我是我没描述清楚
这是爬出来的评论内容,我们现在要将这些评论(字符串)
按照某些关键字归类然后方便后面的数据统计和可视化

疾风怪盗 发表于 2020-11-25 21:58:46

昨非 发表于 2020-11-25 21:56
好吧,我是我没描述清楚
这是爬出来的评论内容,我们现在要将这些评论(字符串)
按照某些关键字归类然 ...

就是要在text内找关键字吧?我之前写的,就是用字符串的find方法,循环了一个关键词的txt文档,你这数据量大,估计不适用了。。。。。。。。。。。你也可以用re来匹配,这个应该会快一点

昨非 发表于 2020-11-25 21:59:39

疾风怪盗 发表于 2020-11-25 21:58
就是要在text内找关键字吧?我之前写的,就是用字符串的find方法,循环了一个关键词的txt文档,你这数据 ...

好吧,我回头先操作下试试,有什么问题再来请教,多谢了

昨非 发表于 2020-11-25 22:09:27

疾风怪盗 发表于 2020-11-25 22:07
比如这样,找出暴雨和总理两个关键词

"\/\/@笑多了会变态:北京暴雨致使有人打不开车门造成溺亡,其实 ...

爱了,谢了老哥
这个最佳本来以为要挂一段时间
你这也太给力了吧{:10_254:}

昨非 发表于 2020-11-25 22:11:00

疾风怪盗 发表于 2020-11-25 21:54
你这个字符串按关键字分类,看不懂是什么意思

是这样?

后续有啥细节问题我可就再来问哈
谢了老哥{:10_297:}

xiebg 发表于 2022-6-30 19:22:24

疾风怪盗 发表于 2020-11-25 18:24
比如这样,找出暴雨和总理两个关键词

"\/\/@笑多了会变态:北京暴雨致使有人打不开车门造成溺亡,其实 ...

{:5_109:}
页: 1 [2]
查看完整版本: 关于json数据集如何处理