pandas如何自动生成多列

老笨啊 · 发表于 2019-9-9 18:55:59

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

手头一组数据，要求进行相关的统计计算，获取某指定列的变化量、变化率、滑窗处理指定长度数据的均值、方差等。
我对单列进行了相关处理，示例代码如下：

seq_len = 7*6
WT_roll = combined_data['WATER_TEMP'].rolling(window = seq_len) #combined_data为df格式的数据
WT_diff42 = combined_data['WATER_TEMP'].diff(periods = seq_len)
WT_change42 = combined_data['WATER_TEMP'].pct_change(periods = seq_len)
combined_data['WATER_TEMP_mean'] =WT_roll.mean() #求历史记录的均值
combined_data['WATER_TEMP_std'] =WT_roll.std() #求历史记录的标准差
combined_data['WATER_TEMP_diff42'] = WT_diff42 #求对应时期点的差值
combined_data['WATER_TEMP_change42'] = WT_change42 #求对应时期点的差值

复制代码

现在需要将这个方法，应用到指定的几列中，同样在原数据基础上，自动生成相应新字段。。
该怎么解决呢？
我自己试着自定义函数来处理，但是一直报各种错。。

test = pd.DataFrame(np.random.randint(0,100,size=(10,5)),columns=['X1','X2','X3','X4','X5'])
seq_len =5
for i in test.columns:
def feature_roll(data):
print('data:',data)
data_mean = data.rolling(seq_len).mean()
data_std = data.rolling(seq_len).std()
print('data_mean:',data_mean)
return data_mean,data_std
def feature_diff(data):
data_diff = data.diff(seq_len)
return data_diff
def feature_change(data):
data_change = data.pct_change(seq_len)
print()
return data_change
test['%s_mean'%i],test['%s_std'%i] = test.apply(feature_roll)
test['%s_diff'%i] = test.apply(feature_diff)
test['%s_change'%i] = test.apply(feature_change)

复制代码

到底，该如何改代码呢？？
求指点

傻纸 · 发表于 2019-9-9 20:56:27

本帖最后由傻纸于 2019-9-9 22:05 编辑

心累了。。
for i in test.columns:
def xxx():
#待执行的语句

这样xxx函数里的语句只会执行一次，在你的例子里相当于

i=x4
def feature_roll(data):
……
test['%s_change'%i] = test.apply(feature_change)

-----
试下这个

for i in range(10):
def a():
print(i)
print("1")
a()

复制代码

输出的是9
相当于先把i累加到9，再print一次i
那么这个程序改成

i=9
print(i)

复制代码

也是一样

----

一般不会写成

for a in range(b):
def xxx():
……

而是写成

def xxx()：
for a in range(b)

老笨啊 · 发表于 2019-9-10 08:20:19

傻纸发表于 2019-9-9 20:56
心累了。。
for i in test.columns:
def xxx():

我早先就试过，先def函数，再用for循环来apply。。但是仍旧报错。。问题不在于def 和for的先后顺序。。而是我发现函数中传入df格式的数据时，打印出来是series的格式。。如果传入的是series则打印出来的是单个值。。

傻纸 · 发表于 2019-9-10 09:21:25

老笨啊发表于 2019-9-10 08:20
我早先就试过，先def函数，再用for循环来apply。。但是仍旧报错。。问题不在于def 和for的先后顺序。。而 ...

确实是跟for定义在哪无关

for i in range(10):
def a():
print(i)
a()

复制代码

我也是学到一个新写法。。其他的我也不知道了，你自己多研究下pandas库

账号		自动登录	找回密码
密码			立即注册

pandas如何自动生成多列

马上注册，结交更多好友，享用更多功能^_^

浏览过的版块