FOR运算加速

ap18z2006 · 发表于 2023-12-19 23:53:23

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

for num in num_list:
df = df1[df1['num'] == num]
df.loc[:,A_col] = MinMaxScaler.fit_transform(df[A_col])

df_list.append(df)
df = pd.concat(df_list)

加速这个循环运算，尝试了concurrent.futures和JOBLIB进行并行运算，不熟练导致效果一般，应该如何写或者还有什么其他更好的方法，万分感谢

FishC · 发表于 2023-12-19 23:53:39

在处理循环中的计算时，使用并行计算技术可以提高运算效率。下面是使用`concurrent.futures`库对给定的代码进行并行计算的示例：

import concurrent.futures
def process_num(num):
df = df1[df1 == num]
df.loc = MinMaxScaler.fit_transform(df)
return df
def main():
df_list = []
with concurrent.futures.ThreadPoolExecutor() as executor:
futures = []
for num in num_list:
future = executor.submit(process_num, num)
futures.append(future)
for future in concurrent.futures.as_completed(futures):
df = future.result()
df_list.append(df)
df = pd.concat(df_list)
# 继续处理df
if __name__ == '__main__':
main()

复制代码

在上面的代码中，`process_num`函数用于将单个数字与`df1`中的数值匹配，进行计算和转换操作。通过使用`concurrent.futures.ThreadPoolExecutor`创建线程池，可以异步执行`process_num`函数，加快计算速度。最后，使用`as_completed`函数等待所有任务完成，并将结果添加到`df_list`中。

此外，你还可以尝试使用`concurrent.futures.ProcessPoolExecutor`替代`ThreadPoolExecutor`，以实现多进程并行计算。不过需要注意的是，在Windows系统下，由于`concurrent.futures`使用`pickle`进行对象序列化，可能会导致一些兼容性问题。如果你遇到类似问题，请考虑使用`joblib`库进行并行计算。

以下是使用`joblib`库的示例代码：

from joblib import Parallel, delayed
def process_num(num):
df = df1[df1 == num]
df.loc = MinMaxScaler.fit_transform(df)
return df
def main():
num_cores = # 指定使用的CPU核心数量
df_list = Parallel(n_jobs=num_cores)(delayed(process_num)(num) for num in num_list)
df = pd.concat(df_list)
# 继续处理df
if __name__ == '__main__':
main()

复制代码

在`Parallel`函数中，`n_jobs`参数指定要使用的CPU核心数量。`delayed`装饰器用于将`process_num`函数应用于每个数字，从而实现并行计算。最后，使用`pd.concat`将所有结果连接在一起。

希望这些示例能对加速你的循环运算有所帮助。请根据你的需求选择适合的方法进行使用。

以上回复来自 FishC AI 小助理，如未能正确解答您的问题，请继续追问。

账号		自动登录	找回密码
密码			立即注册

FOR运算加速

马上注册，结交更多好友，享用更多功能^_^

浏览过的版块