一个关于数据处理的问题
在做股票方面的实证分析,正在数据清洗阶段,用pandas包进行的,请问对于股票上市前缺失的交易数据,一般用什么方式处理合适呢 在统计上,对于缺失值,一般有几种方式进行处理如果缺失的占比不大,例如占总样本量的 10% 以下,那么可以考虑删除掉带有缺失值的那个样本.
如果不考虑删除样本 (样本缺失量较小),可以使用其他值进行代替,例如小明的期中考试分数缺失,可以使用班级的或者全年级的平均分或者中位数等具有代表性的数值进行替代
如果缺失量较大,该列信息不重要,可以考虑直接删除整列.如果信息比较重要,可以采用分类方法.将缺失值归为单独的一个类别.你也可以选择用平均数等特征值替代,但是这么做无疑会极大程度上的影响总体样本的准确性 Daniel_Zhang 发表于 2022-1-10 21:15
在统计上,对于缺失值,一般有几种方式进行处理
如果缺失的占比不大,例如占总样本量的 10% 以下,那么可以 ...
如果是时间序列缺了连续的好多天呢(占比很小,不用剔除) {:10_316:} {:10_256:} 如果研究为主,选择有利于结论的方式处理。如果实用为主,那就是承担的风险范围。 世界第一大栗旬 发表于 2022-1-10 21:32
如果是时间序列缺了连续的好多天呢(占比很小,不用剔除)
在我看来,如果只是单纯的研究的话,可以新建这几天的数据,用其他天数的平均数或者中位数等进行代替
但是如果是需要报告之类的话,可能需要考虑将这几天单独拎出来,特别说明一下这几天的数据缺失,无法进行处理,所以最后的结果可能会有一定的出入
其实占比很小的话,无论是剔除还是用其他数代替,对总体的影响都不是很大,毕竟不会因为个别的"异常值"对总体的分析影响过大.
上述的前提是,你最好能确定这几天是因为什么原因缺失的,这几天是否是假日(证券交易所休市)等.
页:
[1]