鱼C论坛

 找回密码
 立即注册
查看: 965|回复: 6

一个关于数据处理的问题

[复制链接]
发表于 2022-1-10 20:31:25 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
在做股票方面的实证分析,正在数据清洗阶段,用pandas包进行的,请问对于股票上市前缺失的交易数据,一般用什么方式处理合适呢
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2022-1-10 21:15:49 | 显示全部楼层

回帖奖励 +15 鱼币

在统计上,对于缺失值,一般有几种方式进行处理

如果缺失的占比不大,例如占总样本量的 10% 以下,那么可以考虑删除掉带有缺失值的那个样本.

如果不考虑删除样本 (样本缺失量较小),可以使用其他值进行代替,例如小明的期中考试分数缺失,可以使用班级的或者全年级的平均分或者中位数等具有代表性的数值进行替代

如果缺失量较大,该列信息不重要,可以考虑直接删除整列.如果信息比较重要,可以采用分类方法.将缺失值归为单独的一个类别.你也可以选择用平均数等特征值替代,但是这么做无疑会极大程度上的影响总体样本的准确性
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2022-1-10 21:32:31 | 显示全部楼层
Daniel_Zhang 发表于 2022-1-10 21:15
在统计上,对于缺失值,一般有几种方式进行处理

如果缺失的占比不大,例如占总样本量的 10% 以下,那么可以 ...

如果是时间序列缺了连续的好多天呢(占比很小,不用剔除)
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2022-1-11 08:01:11 | 显示全部楼层

回帖奖励 +15 鱼币

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2022-1-11 08:28:05 | 显示全部楼层

回帖奖励 +15 鱼币

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2022-1-11 08:52:50 | 显示全部楼层
如果研究为主,选择有利于结论的方式处理。如果实用为主,那就是承担的风险范围。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2022-1-11 15:26:38 | 显示全部楼层
世界第一大栗旬 发表于 2022-1-10 21:32
如果是时间序列缺了连续的好多天呢(占比很小,不用剔除)

在我看来,如果只是单纯的研究的话,可以新建这几天的数据,用其他天数的平均数或者中位数等进行代替

但是如果是需要报告之类的话,可能需要考虑将这几天单独拎出来,特别说明一下这几天的数据缺失,无法进行处理,所以最后的结果可能会有一定的出入

其实占比很小的话,无论是剔除还是用其他数代替,对总体的影响都不是很大,毕竟不会因为个别的"异常值"对总体的分析影响过大.

上述的前提是,你最好能确定这几天是因为什么原因缺失的,这几天是否是假日(证券交易所休市)等.
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-1-12 12:13

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表