对多个Excel文件内单元格,以规则库提取数据的指导方向?
本帖最后由 nh_wzg 于 2020-11-12 12:57 编辑提个简单的需求,看下有哪些方向的视频教程可以快速看一下?
小甲鱼的这套视频主要介绍使用openpyxl模块的功能,都是对excle文件的基本读写与格式处理功能。
使用excel时间比较长的用户会有这样的需求:
几个渠道发过来的excel表格,行列内容有相似,但又不都是标准的一一对应,想进行数据整理为标准内容格式
实际就是建立不同渠道发过来的excel表格单元格内容,与最终整理后表格单元格,逻辑对应关系的建立。
这样类似于鱼C论坛里面的 《数据分析》https://fishc.com.cn/thread-79537-1-1.html
但觉得又没有这么高端吧。
用例子说话:
1、来了三个渠道的报价文件,都报各种水果的价格:
第一个文件包含有,红富士苹果|单价|货期,
第二个文件包含有,甘泉苹果|单价|货期,
第三个文件包含有,山东苹果|单价|货期,
2、用户建立其中的一个python匹配规则:苹果|单价|货期同时提取出来
3、用户的匹配规则库,可以按需求增多,然后对匹配出来的数据进行汇集,再进行进一步的使用。
如果用python来实现,基本要准备些什么工具与模块?大致的过程?
有这样以python为工具,结合用户需求的规则库,对excel文件进行归纳处理的教程或视频,请指点下?
先谢谢!
样例:链接:https://pan.baidu.com/s/1WlhFsGOOkwYMznxOVeHDNw 提取码:2020
https://s3.ax1x.com/2020/11/12/BxtJ2j.jpg 看起来VBA更适合 不太明白你的意思,但是是不是你的需求用pandas可以解决?要么你贴个样表上来,还有需求的输出结果样式 本帖最后由 nh_wzg 于 2020-11-12 12:47 编辑
谢谢楼上的回复,增加样例及想法的截图。没办法附加文件与图片、
样例:链接: https://pan.baidu.com/s/1WlhFsGOOkwYMznxOVeHDNw 提取码: 2020
图片:
重复,删除
本帖最后由 nh_wzg 于 2020-12-8 02:08 编辑重复,删除
这样试试?
import pandas as pd
import os,re
path=r'D:\python\test\样例'
p=re.compile('\w+苹果')
def find_apple(x):
if len(p.findall(x['名称']))>0:
return 1
else:
return 0
def check_apple(data):
data['flag'] = data.apply(find_apple, axis=1)
data = data.isin(['1'])]
return data
zhangsan=pd.read_excel(os.path.join(path,'张三.xlsx'))
zhangsan=check_apple(zhangsan)
print(zhangsan)
lisi=pd.read_excel(os.path.join(path,'李四.xlsx'))
lisi=check_apple(lisi)
print(lisi)
wangwu=pd.read_excel(os.path.join(path,'王五.xlsx'))
wangwu=check_apple(wangwu)
print(wangwu)
result=pd.concat()
result=result.iloc[:,:-1]
print(result)
result.to_excel(os.path.join(path,'result.xlsx'),index=False)
现在想到需要考虑的另外一系列与规则库相关的问题是:
1、每条规则库里的规则,可以生成一个记录分集》这个没有问题
2、这样已经生成的分集之间的交集情况如何?》需要调整规则设定不?
3、未匹配上规则库的任一条规则的分集,数量与内容如何?》需要增加新规则不? 样例共享过期,重新生成一个。
链接: https://pan.baidu.com/s/1v_AmL804sdbYUeo84ICOvw 提取码: yzr9
页:
[1]