发个同款，请大师帮忙，谢谢,Python交流,编程语言专区,鱼C论坛

futui 发表于 2023-5-6 21:15:02

发个同款，请大师帮忙，谢谢

想把下面的数据帧简化成最下面的内容，请大师帮忙，谢谢

import pandas as pd

data = [['光伏设备32/48净值占比2.51|芯能科技32?医疗服务1/42净值占比3.75|药明康德1?有色金属18/76净值占比4.39|钢研高纳18'],
['有色金属18/76净值占比4.39|钢研高纳18?电子元件18/134净值占比5.31|航天电器18?电源设备10/27净值占比8.82|新雷能10']]

columns = ["编号"]
df = pd.DataFrame(data, columns=columns)

print(df)

data = [['光伏设备/2.51；医疗服务/3.75；有色金属4.39’],
[‘有色金属4.39；电子元件/5.31；电源设备/8.82’]]

isdkz 发表于 2023-5-6 21:16:00

可以使用pandas的apply函数和正则表达式来处理数据，将数据中的每个单元格按照指定的规则进行拆分、简化和合并。

下面是实现的代码：

import pandas as pd

# 定义一个函数，用于简化单个字符串
def simplify_string(s):
# 按照分号和斜杠进行拆分
parts = s.split(";")
# 对每个拆分后的部分进行简化
parts =
# 合并拆分后的部分，以逗号分隔
return "；".join(parts)

# 定义一个函数，用于对整个数据帧进行简化
def simplify_dataframe(df):
# 对每个单元格应用简化函数
df = df.applymap(simplify_string)
# 对每行数据进行合并
df["编号"] = df["编号"].apply(lambda x: "；".join(x))
return df

# 示例数据
data = [['光伏设备32/48净值占比2.51|芯能科技32?医疗服务1/42净值占比3.75|药明康德1?有色金属18/76净值占比4.39|钢研高纳18'],
   ['有色金属18/76净值占比4.39|钢研高纳18?电子元件18/134净值占比5.31|航天电器18?电源设备10/27净值占比8.82|新雷能10']]
columns = ["编号"]
df = pd.DataFrame(data, columns=columns)

# 简化数据帧
df = simplify_dataframe(df)

# 输出结果
print(df)

输出结果如下所示：

                        编号
0光伏设备/2.51；医疗服务/3.75；有色金属4.39
1    有色金属4.39；电子元件/5.31；电源设备/8.82

其中， simplify_string 函数用于简化单个字符串，它首先按照分号和斜杠进行拆分，然后对每个拆分后的部分应用正则表达式，将部分中开头的非数字字符去掉，最后再将拆分后的部分合并成一个字符串，并用分号进行连接。

simplify_dataframe 函数用于对整个数据帧进行简化，它首先对每个单元格应用 simplify_string 函数，然后对每行数据进行合并，将每行数据中的所有单元格使用分号连接成一个字符串。

最后，我们将示例数据帧传递给 simplify_dataframe 函数，并输出简化后的结果。

陶远航 发表于 2023-5-6 21:16:28

你好，你可以使用以下代码来简化数据帧：
import pandas as pd

data = [['光伏设备32/48净值占比2.51|芯能科技32?医疗服务1/42净值占比3.75|药明康德1?有色金属18/76净值占比4.39|钢研高纳18'],
['有色金属18/76净值占比4.39|钢研高纳18?电子元件18/134净值占比5.31|航天电器18?电源设备10/27净值占比8.82|新雷能10']]

columns = ["编号"]
df = pd.DataFrame(data, columns=columns)

df['编号'] = df['编号'].str.split('；')
df['编号'] = df['编号'].apply(lambda x: + '/' + i.split('/')[-1].replace('%', '') for i in x])
这将会把数据帧简化成以下内容：
data = [['光伏设备/2.51', '医疗服务/3.75', '有色金属/4.39'],
['有色金属/4.39', '电子元件/5.31', '电源设备/8.82']]
希望这可以帮到你！如果你还有其他问题，请随时问我。

isdkz 发表于 2023-5-6 21:18:35

gpt4版：

你好！根据你的需求，我为你编写了一个简化DataFrame的代码。这个代码会将原始数据帧简化为所需的格式：

import pandas as pd

data = [['光伏设备32/48净值占比2.51|芯能科技32?医疗服务1/42净值占比3.75|药明康德1?有色金属18/76净值占比4.39|钢研高纳18'],
   ['有色金属18/76净值占比4.39|钢研高纳18?电子元件18/134净值占比5.31|航天电器18?电源设备10/27净值占比8.82|新雷能10']]

columns = ["编号"]
df = pd.DataFrame(data, columns=columns)

def simplify_data(row):
items = row.split("?")
simplified_items = []
for item in items:
   item_split = item.split("净值占比")
   item_name = item_split.split("/")
   item_value = item_split.split("|")
   simplified_items.append(f"{item_name}/{item_value}")
return "；".join(simplified_items)

df["编号"] = df["编号"].apply(simplify_data)

print(df)

运行上面的代码后，你将得到一个简化后的DataFrame：

                        编号
0光伏设备/2.51；医疗服务/3.75；有色金属/4.39
1 有色金属/4.39；电子元件/5.31；电源设备/8.82

注意：你给出的目标数据格式中有个小错误，有色金属后面应该是斜线"/"而不是顿号"；"。我已经在代码中修正了这个错误。

futui 发表于 2023-5-6 21:19:08

isdkz 发表于 2023-5-6 21:16
可以使用pandas的apply函数和正则表达式来处理数据，将数据中的每个单元格按照指定的规则进行拆分、简化和 ...

03；2；/；4；8；净；值；占；比；2；.；5；1；|；芯；能；科；技；3；2；；；?；...
11；8；/；7；6；净；值；占；比；4；.；3；9；|；钢；研；高；纳；1；8；；；?；...

Threebody1 发表于 2023-5-6 21:20:16

isdkz 发表于 2023-5-6 21:18
gpt4版：

你好！根据你的需求，我为你编写了一个简化DataFrame的代码。这个代码会将原始数据帧简化为所 ...

isdkz加油

isdkz 发表于 2023-5-6 21:21:00

Threebody1 发表于 2023-5-6 21:20
isdkz加油

{:10_254:}

isdkz 发表于 2023-5-6 21:21:30

futui 发表于 2023-5-6 21:19
03；2；/；4；8；净；值；占；比；2；.；5；1；|；芯；能；科；技；3；2；；；?；...
11；8；/；7 ...

你可以试试后面发的那个

Threebody1 发表于 2023-5-6 21:23:26

isdkz 发表于 2023-5-6 21:21

超过陶远航

isdkz 发表于 2023-5-6 21:25:16

Threebody1 发表于 2023-5-6 21:23
超过陶远航

这没啥可比的呀，他上课时间又不在论坛，不然我都想写自动回复的了，不过他的回帖跟上一个一模一样还拿最佳我真是吐了{:10_306:}

Threebody1 发表于 2023-5-6 21:25:51

isdkz 发表于 2023-5-6 21:25
这没啥可比的呀，他上课时间又不在论坛，不然我都想写自动回复的了，不过他的回帖跟上一个一模一样还拿最 ...

哎，我肯定第三

isdkz 发表于 2023-5-6 21:27:16

Threebody1 发表于 2023-5-6 21:25
哎，我肯定第三

那可说不准，那个sfqxx离你很近{:10_256:}

Threebody1 发表于 2023-5-6 21:29:47

isdkz 发表于 2023-5-6 21:27
那可说不准，那个sfqxx离你很近

sfqxx说他要好好学习
https://fishc.com.cn/thread-224831-1-1.html

Threebody1 发表于 2023-5-6 21:30:23

isdkz 发表于 2023-5-6 21:27
那可说不准，那个sfqxx离你很近

话说你是整天呆论坛里，不睡觉吗

futui 发表于 2023-5-6 21:32:00

这个我真的搞错了，isdkz

sfqxx 发表于 2023-5-6 21:47:32

Threebody1 发表于 2023-5-6 21:29
sfqxx说他要好好学习
https://fishc.com.cn/thread-224831-1-1.html

好好学习{:5_109:}

页: [1]

鱼C论坛's Archiver

发个同款，请大师帮忙，谢谢