|
马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册
x
Pandas的数据清洗——构造NaN数据
在Pandas的各类数据Series和DataFrame里字段值为NaN的为缺失数据,
不代表0而是说没有赋值数据。数据的缺失有很多原因,缺失不是错误、无效,
需要对缺失的数据进行必要的技术处理,以便后续的计算、统计
- import pandas as pd
- import numpy as np
- val = np.arange(10, 38).reshape(7, 4)
- col = list("abcd")
- idx = "cake make fake sake wake lake take".split()
- df = pd.DataFrame(val, columns = col, index = idx)
- print df
- df["e"] = np.nan
- df.at["make", "e"] = 100
- df.at["wake", "e"] = 300
- df.loc["jake"] = np.nan
- df.at["jake", "c"] = 200
- df["f"] = np.nan
- print (df)
- # 下面是查看NaN数据
- # 查看缺失数据的情况可以用pandas的isnull函数看看有那些字段上的数据缺失,
- # 可以用sum进行统计。也可使用notnull和count函数统计非NaN数据量。
- print ("which has Nan?\n", df.isnull(),"\n")
- print ("each column has NaN\n", df.isnull().sum(),"\n")
- print ("total has NaN\n", df.isnull().sum().sum(),"\n")
- print ("each column values\n", df.count(),"\n")
- print ("which column values\n", df.notnull())
复制代码 |
|