[已解决]请帮忙改下excel提取字符

晚起鸟儿 · 发表于 2019-10-9 06:48:43

如图提取excel红框里的“执行机构”行下面的内容，行数和内容未知，判断如果是“/”保存为14个空格,此单元格后面不作判断。

如果此单元格含有字符“单作用”保存为“SR”,如果含有字符“双作用”保存为“DA”，并将此单元格提取的数字放到前面，如图所示：
打标1.jpg

每个单元格完成后换行，保存为text文本。谢谢各位大神关注，以下为我的代码：

import pandas as pd
import easygui as g
import re

excel_file = g.fileopenbox(msg=None, title=None, default="*.xlsx", filetypes=None, multiple=False)
df = pd.read_excel(excel_file,sep='?',skiprows=[0,1])

cols = ['执行机构']
df_list_two = df[cols]

data2 = []
result = []

for index, row in df_list_two.iterrows():
#将列表转换为无分隔符的字符串
result = ''.join(row['执行机构'])
if '单'in result:
      result='SR'
elif '双'in result:
      result='DA'
else:
      result=''

result = result.__str__()

data2 = ''.join(row['执行机构'])
if '/' in row['执行机构']:
      data2=(' ' * 14)
else:
      #使用re模块下的方法findall对data2进行正则匹配，提取出所有的数值型字符串
      data2 = re.findall(r"\d+",data2)
      data2 = ''.join(data2)
      data2 = data2.__str__()
data2 = data2,result

txt_file = g.filesavebox(msg=None, title=None, default="智能打标.text", filetypes=None)

write_file = open(txt_file, mode='w', encoding='UTF-8')

for index in range(len(data2)):
write_line = data2[index] + '\n'
write_file.write(write_line)

write_file.close()

最佳答案

月排行榜 / 总排行榜

XiaoPaiShen

2019-10-9 06:48:44

本帖最后由 XiaoPaiShen 于 2019-10-9 09:51 编辑

import pandas as pd
import easygui as g
import re
excel_file = g.fileopenbox(msg=None, title=None, default="*.xlsx", filetypes=None, multiple=False)
df = pd.read_excel(excel_file,sep='?',skiprows=[0,1])
result = []
cols = ['执行机构']
df_list = df[cols]
row_content = ''
suffix = ''
pattern = r'(\d+)'
for index, row in df_list.iterrows():
#将列表转换为无分隔符的字符串
zxjg = ''.join(row['执行机构'])
if '/' in zxjg:
row_content = ' '*14
else:
temp_content = re.findall(pattern, zxjg)
if '单'in zxjg:
suffix = 'SR'
elif '双'in zxjg:
suffix = 'DA'
row_content = '{0}{1}'.format(temp_content[0], suffix)
result.append(row_content)
txt_file = g.filesavebox(msg=None, title=None, default="智能打标.txt", filetypes=None)
write_file = open(txt_file, mode='w', encoding='UTF-8')
for index in range(len(result)):
write_line = result[index] + '\n'
write_file.write(write_line)
write_file.close()

复制代码

跳转到最佳答案楼层

XiaoPaiShen · 发表于 2019-10-9 06:48:44

这个最佳答案由 XiaoPaiShen 给出，感谢 XiaoPaiShen 的回答。

单击隐藏图章

本帖最后由 XiaoPaiShen 于 2019-10-9 09:51 编辑

import pandas as pd
import easygui as g
import re
excel_file = g.fileopenbox(msg=None, title=None, default="*.xlsx", filetypes=None, multiple=False)
df = pd.read_excel(excel_file,sep='?',skiprows=[0,1])
result = []
cols = ['执行机构']
df_list = df[cols]
row_content = ''
suffix = ''
pattern = r'(\d+)'
for index, row in df_list.iterrows():
#将列表转换为无分隔符的字符串
zxjg = ''.join(row['执行机构'])
if '/' in zxjg:
row_content = ' '*14
else:
temp_content = re.findall(pattern, zxjg)
if '单'in zxjg:
suffix = 'SR'
elif '双'in zxjg:
suffix = 'DA'
row_content = '{0}{1}'.format(temp_content[0], suffix)
result.append(row_content)
txt_file = g.filesavebox(msg=None, title=None, default="智能打标.txt", filetypes=None)
write_file = open(txt_file, mode='w', encoding='UTF-8')
for index in range(len(result)):
write_line = result[index] + '\n'
write_file.write(write_line)
write_file.close()

复制代码

yuweb · 发表于 2019-10-9 09:22:10

本帖最后由 yuweb 于 2019-10-9 09:33 编辑

我改了下代码，#########后面是我有改动的地方，加了注释

import pandas as pd
import easygui as g
import re
excel_file = g.fileopenbox(msg=None, title=None, default="*.xlsx", filetypes=None, multiple=False)
#########这边的skiprows=[0,1]可以不用
df = pd.read_excel(excel_file,sep='?')
cols = ['执行机构']
df_list_two = df[cols]
data2 = []
result = []
#########这边加一个存放结果的
data = []
for index, row in df_list_two.iterrows():
#将列表转换为无分隔符的字符串
result = ''.join(row['执行机构'])
if '单'in result:
result='SR'
elif '双'in result:
result='DA'
else:
result=''
result = result.__str__()
#print(result)
data2 = ''.join(row['执行机构'])
if '/' in row['执行机构']:
data2=(' ' * 14)
else:
#使用re模块下的方法findall对data2进行正则匹配，提取出所有的数值型字符串
data2 = re.findall(r"\d+",data2)
data2 = ''.join(data2)
data2 = data2.__str__()
#########data2 = data2,result
#########这边加存放结果
data.append(data2+result)
print(data)
txt_file = g.filesavebox(msg=None, title=None, default="智能打标.text", filetypes=None)
write_file = open(txt_file, mode='w', encoding='UTF-8')
#########这边的data2改为data
for index in range(len(data)):
#########文件末可以不用换行
if index != len(data)-1:
write_line = data[index] + '\n'
else:
write_line = data[index]
write_file.write(write_line)
write_file.close()

复制代码

测试数据和测试结果

彩虹七号 · 发表于 2019-10-9 09:38:29

本帖最后由彩虹七号于 2019-10-9 11:13 编辑

import pandas as pd
import re

df = pd.read_excel(r'filename.xlsx',skiprows=2)

def fun(x):
if '/' in x:
x = ' ' * 14
return x
elif '单作用' in x:
num = re.findall('\d+',x)[0]
x = str(num) + 'SR'
return x
elif '双作用' in x:
num = re.findall('\d+',x)[0]
x = str(num) + 'DA'
return x
else:
return x

df['执行机构'] = df['执行机构'].apply(fun)

with open("filename.txt","w") as f:
for i in range(df.shape[0]):
f.write(df.loc[i,'执行机构'])
f.write('\n')

彩虹七号 · 发表于 2019-10-9 11:01:14

本帖最后由彩虹七号于 2019-10-9 11:16 编辑

你的问题还没解决呀

晚起鸟儿 · 发表于 2019-10-9 18:50:15

彩虹七号发表于 2019-10-9 11:01
你的问题还没解决呀

我的问题一个接一个呀，这点分恐怕不大够用

晚起鸟儿 · 发表于 2019-10-9 19:19:21

XiaoPaiShen 发表于 2019-10-9 06:48

哥们为何你如此优秀，又快又好，能否收我为徒

晚起鸟儿 · 发表于 2019-10-9 19:26:08

yuweb 发表于 2019-10-9 09:22
我改了下代码，#########后面是我有改动的地方，加了注释

兄弟辛苦了，可惜你们两位都报错了……谢谢解答错.png

晚起鸟儿 · 发表于 2019-10-9 19:26:50

彩虹七号发表于 2019-10-9 11:01
你的问题还没解决呀

兄弟辛苦了，可惜你们两位都报错了……谢谢解答错.png

XiaoPaiShen · 发表于 2019-10-9 22:41:23

晚起鸟儿发表于 2019-10-9 19:19
哥们为何你如此优秀，又快又好，...

太客气了，我们加为好友吧，有问题可以相互讨论。

账号		自动登录	找回密码
密码			立即注册

[已解决]请帮忙改下excel提取字符

最佳答案

评分

评分

评分

评分

浏览过的版块