|
|

楼主 |
发表于 2019-4-8 09:06:38
|
显示全部楼层
本帖最后由 老笨啊 于 2019-4-8 09:10 编辑
我大致介绍下手头数据的情况吧。。
1. 手头数据量比较大,都是来源于不同企业不同时间段的记录数据。
2. 不同企业的所记录的数据种类不一。可能这家企业有某个类别的数据,但是另外一家企业则没有。因此,存在的情况比较多,就是某家企业可能拥有所有字段的数据,而某家企业可能只拥有部分字段的数据(其他字段的数据是缺失的)。
3. 因此,我想找出那些字段存在缺失的企业名单。主要是考虑后期的步骤(对企业进行分组,删除那些缺失的字段,然后进行标准化处理,找出异常值,并替换成缺失值,再整体对缺失值进行填充)。
也就是说,可能第一家企业存在2个字段数据的缺失,那我就对这家企业的数据,删除这两个字段。然后对剩余字段,进行标准化处理,找异常值,替换为缺失值(那些剩余的字段,其实也存在数据部分缺失的情况),我再统一进行数据的填充(这个填充必须按照企业分组来填,因为不同的企业其数据可能差别较大,分组填充比较合理)。
4. 我在处理这些数据的过程中,遇到了不少问题。。最让我头疼的就是,如何按照企业分组,分别对已经分组的数据中的缺失值,按照每个字段进行线性填充。。当然,也同样遇到了那些数据标准化时的问题,数据格式转换的问题等等。。 |
|