马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册
x
Pandas的数据清洗——构造NaN数据
在Pandas的各类数据Series和DataFrame里字段值为NaN的为缺失数据,
不代表0而是说没有赋值数据。数据的缺失有很多原因,缺失不是错误、无效,
需要对缺失的数据进行必要的技术处理,以便后续的计算、统计
import pandas as pd
import numpy as np
val = np.arange(10, 38).reshape(7, 4)
col = list("abcd")
idx = "cake make fake sake wake lake take".split()
df = pd.DataFrame(val, columns = col, index = idx)
print df
df["e"] = np.nan
df.at["make", "e"] = 100
df.at["wake", "e"] = 300
df.loc["jake"] = np.nan
df.at["jake", "c"] = 200
df["f"] = np.nan
print (df)
# 下面是查看NaN数据
# 查看缺失数据的情况可以用pandas的isnull函数看看有那些字段上的数据缺失,
# 可以用sum进行统计。也可使用notnull和count函数统计非NaN数据量。
print ("which has Nan?\n", df.isnull(),"\n")
print ("each column has NaN\n", df.isnull().sum(),"\n")
print ("total has NaN\n", df.isnull().sum().sum(),"\n")
print ("each column values\n", df.count(),"\n")
print ("which column values\n", df.notnull())
|