nh_wzg 发表于 2020-11-12 10:33:45

对多个Excel文件内单元格,以规则库提取数据的指导方向?

本帖最后由 nh_wzg 于 2020-11-12 12:57 编辑

提个简单的需求,看下有哪些方向的视频教程可以快速看一下?

小甲鱼的这套视频主要介绍使用openpyxl模块的功能,都是对excle文件的基本读写与格式处理功能。

使用excel时间比较长的用户会有这样的需求:

几个渠道发过来的excel表格,行列内容有相似,但又不都是标准的一一对应,想进行数据整理为标准内容格式

实际就是建立不同渠道发过来的excel表格单元格内容,与最终整理后表格单元格,逻辑对应关系的建立。

这样类似于鱼C论坛里面的 《数据分析》https://fishc.com.cn/thread-79537-1-1.html

但觉得又没有这么高端吧。

用例子说话:
1、来了三个渠道的报价文件,都报各种水果的价格:
第一个文件包含有,红富士苹果|单价|货期,
第二个文件包含有,甘泉苹果|单价|货期,
第三个文件包含有,山东苹果|单价|货期,

2、用户建立其中的一个python匹配规则:苹果|单价|货期同时提取出来

3、用户的匹配规则库,可以按需求增多,然后对匹配出来的数据进行汇集,再进行进一步的使用。

如果用python来实现,基本要准备些什么工具与模块?大致的过程?

有这样以python为工具,结合用户需求的规则库,对excel文件进行归纳处理的教程或视频,请指点下?

先谢谢!
样例:链接:https://pan.baidu.com/s/1WlhFsGOOkwYMznxOVeHDNw 提取码:2020
https://s3.ax1x.com/2020/11/12/BxtJ2j.jpg

suchocolate 发表于 2020-11-12 10:35:49

看起来VBA更适合

疾风怪盗 发表于 2020-11-12 11:24:02

不太明白你的意思,但是是不是你的需求用pandas可以解决?要么你贴个样表上来,还有需求的输出结果样式

nh_wzg 发表于 2020-11-12 12:19:42

本帖最后由 nh_wzg 于 2020-11-12 12:47 编辑

谢谢楼上的回复,增加样例及想法的截图。没办法附加文件与图片、

样例:链接: https://pan.baidu.com/s/1WlhFsGOOkwYMznxOVeHDNw 提取码: 2020

图片:

nh_wzg 发表于 2020-11-12 12:54:47

重复,删除

本帖最后由 nh_wzg 于 2020-12-8 02:08 编辑

重复,删除

疾风怪盗 发表于 2020-11-12 22:26:07

这样试试?
import pandas as pd
import os,re
path=r'D:\python\test\样例'
p=re.compile('\w+苹果')
def find_apple(x):
    if len(p.findall(x['名称']))>0:
      return 1
    else:
      return 0
def check_apple(data):
    data['flag'] = data.apply(find_apple, axis=1)
    data = data.isin(['1'])]
    return data
zhangsan=pd.read_excel(os.path.join(path,'张三.xlsx'))
zhangsan=check_apple(zhangsan)
print(zhangsan)
lisi=pd.read_excel(os.path.join(path,'李四.xlsx'))
lisi=check_apple(lisi)
print(lisi)
wangwu=pd.read_excel(os.path.join(path,'王五.xlsx'))
wangwu=check_apple(wangwu)
print(wangwu)
result=pd.concat()
result=result.iloc[:,:-1]
print(result)
result.to_excel(os.path.join(path,'result.xlsx'),index=False)



nh_wzg 发表于 2020-12-14 09:39:04

现在想到需要考虑的另外一系列与规则库相关的问题是:

1、每条规则库里的规则,可以生成一个记录分集》这个没有问题

2、这样已经生成的分集之间的交集情况如何?》需要调整规则设定不?

3、未匹配上规则库的任一条规则的分集,数量与内容如何?》需要增加新规则不?

nh_wzg 发表于 2021-1-2 17:16:04

样例共享过期,重新生成一个。
链接: https://pan.baidu.com/s/1v_AmL804sdbYUeo84ICOvw 提取码: yzr9
页: [1]
查看完整版本: 对多个Excel文件内单元格,以规则库提取数据的指导方向?