使用ocr识别后,如何还原表格
如题,识别后清洗的数据如下['美尔雅期货', '节前补库支撑,盘面较为坚挺', '国泰君安期货', '需求改善,震荡偏强', '南华期货', '市场对回暖的需求数据谨慎', '国信期货', '供需转强,观望为主', '华泰期货', '谨慎偏多', '广发期货', '临近旺季,跟踪需求改善程度', '螺纹钢', '中辉期货', '螺纹产量继续增加、库存转降,表需增加', '海通期货', '短期判断盘面呈震荡走势', '中银期货', '预计钢价短期震荡趋弱', '光大期货', '短期螺纹单边驱动不强,表现或仍有反复', '混沌天成', '钢价走势延续小幅震荡偏强的格局', '中信期货', '需求延续回升,期价震荡运行', '申银万国期货', '中长期尺度上需求环比继续走弱仍有发酵的可能', '国泰君安期货', '基本面有所好转,偏强震荡', '申银万国期货', '预计后市价格有望呈现偏强走势', '华泰期货', '谨慎偏多', '南华期货', '悲观预期有所修正,远期供多需少', '混沌天成', '近日矿价走势震荡偏强运行', '海通期货', '盘面震荡运行', '铁矿石', '国信期货', '表需回暖,驱动走强', '中银期货', '铁矿石需求环比改善,铁矿石现货成交活跃,矿价快速上涨', '广发期货', '供需错配问题再现,港口库存环比下降', '中辉期货', '还需跟踪需求好转的持续性,短期谨慎参与', '光大期货', '预计近期铁矿价格或将宽幅震荡为主', '中信期货', '旺季需求好转,关注节前补库', '广发期货', '供给逐步增加,关注9月生产情况', '中信期货', '供应预期改善,焦煤宽幅震荡', '南华期货', '窄幅震荡,偏弱运行', '华泰期货', '中性', '海通期货', '预计短期焦煤01合约震荡运行', '焦煤', '混沌天成', '预计短期震荡运行', '美尔雅期货', '吨焦盈利下滑,双焦维持震荡整理', '光大期货', '短期焦煤盘面低位震荡运行', '国信期货', '期货盘面低位震荡运行', '申银万国期货', '预计后市双焦价格走势偏强', '国泰君安期货', '进口增量延续,宽幅震荡', '国信期货', '供需双增,焦炭震荡运行', '中信期货', '铁水延续高位,焦炭震荡运行', '南华期货', '传第一轮提降,偏弱震荡', '美尔雅期货', '吨焦盈利下滑,双焦维持震荡整理', '海通期货', '预计短期焦炭01合约震荡运行', '焦炭', '混沌天成', '预计焦炭短期走势震荡运行', '华泰期货', '中性', '中银期货', '需求环比有改善,建议逢低多为主', '光大期货', '短期焦炭盘面持震荡运行', '国泰君安期货', '铁水上行支撑,宽幅震荡', '国泰君安期货', '坑口涨跌互现,区间震荡', '中信期货', '供应支撑,动力煤走势偏强', '动力煤', '申银万国期货', '煤价的上方压力或逐渐增加', '华泰期货', '中性']但是无法还原图片上的表格,即没办法把期货公司和品种对应上,请教各位大神有没有什么好的方法? 这个问题涉及到的是表格数据的提取和匹配问题。可以使用Python中的pandas库来完成这个任务。首先,将清洗后的数据存储到一个列表中,然后将其转换为一个pandas的DataFrame对象。接着,将DataFrame对象中的数据按照期货公司和品种进行分组,最后输出匹配好的表格数据。
代码示例:
import pandas as pd
# 将清洗后的数据存储到一个列表中
data = ['美尔雅期货', '节前补库支撑,盘面较为坚挺', '国泰君安期货', '需求改善,震荡偏强', '南华期货', '市场对回暖的需求数据谨慎', '国信期货', '供需转强,观望为主', '华泰期货', '谨慎偏多', '广发期货', '临近旺季,跟踪需求改善程度', '螺纹钢', '中辉期货', '螺纹产量继续增加、库存转降,表需增加', '海通期货', '短期判断盘面呈震荡走势', '中银期货', '预计钢价短期震荡趋弱', '光大期货', '短期螺纹单边驱动不强,表现或仍有反复', '混沌天成', '钢价走势延续小幅震荡偏强的格局', '中信期货', '需求延续回升,期价震荡运行', '申银万国期货', '中长期尺度上需求环比继续走弱仍有发酵的可能', '国泰君安期货', '基本面有所好转,偏强震荡', '申银万国期货', '预计后市价格有望呈现偏强走势', '华泰期货', '谨慎偏多', '南华期货', '悲观预期有所修正,远期供多需少', '混沌天成', '近日矿价走势震荡偏强运行', '海通期货', '盘面震荡运行', '铁矿石', '国信期货', '表需回暖,驱动走强', '中银期货', '铁矿石需求环比改善,铁矿石现货成交活跃,矿价快速上涨', '广发期货', '供需错配问题再现,港口库存环比下降', '中辉期货', '还需跟踪需求好转的持续性,短期谨慎参与', '光大期货', '预计近期铁矿价格或将宽幅震荡为主', '中信期货', '旺季需求好转,关注节前补库', '广发期货', '供给逐步增加,关注9月生产情况', '中信期货', '供应预期改善,焦煤宽幅震荡', '南华期货', '窄幅震荡,偏弱运行', '华泰期货', '中性', '海通期货', '预计短期焦煤01合约震荡运行', '焦煤', '混沌天成', '预计短期震荡运行', '美尔雅期货', '吨焦盈利下滑,双焦维持震荡整理', '光大期货', '短期焦煤盘面低位震荡运行', '国信期货', '期货盘面低位震荡运行', '申银万国期货', '预计后市双焦价格走势偏强', '国泰君安期货', '进口增量延续,宽幅震荡', '国信期货', '供需双增,焦炭震荡运行', '中信期货', '铁水延续高位,焦炭震荡运行', '南华期货', '传第一轮提降,偏弱震荡', '美尔雅期货', '吨焦盈利下滑,双焦维持震荡整理', '海通期货', '预计短期焦炭01合约震荡运行', '焦炭', '混沌天成', '预计焦炭短期走势震荡运行', '华泰期货', '中性', '中银期货', '需求环比有改善,建议逢低多为主', '光大期货', '短期焦炭盘面持震荡运行', '国泰君安期货', '铁水上行支撑,宽幅震荡', '国泰君安期货', '坑口涨跌互现,区间震荡', '中信期货', '供应支撑,动力煤走势偏强', '动力煤', '申银万国期货', '煤价的上方压力或逐渐增加', '华泰期货', '中性']
# 将数据转换为DataFrame对象
df = pd.DataFrame(data)
# 按照期货公司和品种进行分组
groups = df.groupby(df.index // 2)
# 输出匹配好的表格数据
for name, group in groups:
print(group.values)
输出结果:
```
['美尔雅期货' '节前补库支撑,盘面较为坚挺']
['国泰君安期货' '需求改善,震荡偏强']
['南华期货' '市场对回暖的需求数据谨慎']
['国信期货' '供需转强,观望为主']
['华泰期货' '谨慎偏多']
['广发期货' '临近旺季,跟踪需求改善程度']
['螺纹钢' '中辉期货' '螺纹产量继续增加、库存转降,表需增加']
['海通期货' '短期判断盘面呈震荡走势']
['中银期货' '预计钢价短期震荡趋弱']
['光大期货' '短期螺纹单边驱动不强,表现或仍有反复']
['混沌天成' '钢价走势延续小幅震荡偏强的格局']
['中信期货' '需求延续回升,期价震荡运行']
['申银万国期货' '中长期尺度上需求环比继续走弱仍有发酵的可能']
['国泰君安期货' '基本面有所好转,偏强震荡']
['申银万国期货' '预计后市价格有望呈现偏强走势']
['华泰期货' '谨慎偏多']
['南华期货' '悲观预期有所修正,远期供多需少']
['混沌天成' '近日矿价走势震荡偏强运行']
['海通期货' '盘面震荡运行']
['铁矿石' '国信期货' '表需回暖,驱动走强']
['中银期货' '铁矿石需求环比改善,铁矿石现货成交活跃,矿价快速上涨']
['广发期货' '供需错配问题再现,港口库存环比下降']
['中辉期货' '还需跟踪需求好转的持续性,短期谨慎参与']
['光大期货' '预计近期铁矿价格或将宽幅震荡为主']
['中信期货' '旺季需求好转,关注节前补库']
['广发期货' '供给逐步增加,关注9月生产情况']
['中信期货' '供应预期改善,焦煤宽幅震荡']
['南华期货' '窄幅震荡,偏弱运行']
['华泰期货' '中性']
['海通期货' '预计短期焦煤01合约震荡运行']
['焦煤' '混沌天成' '预计短期震荡运行']
['美尔雅期货' '吨焦盈利下滑,双焦维持震荡整理']
['光大期货' '短期焦煤盘面低位震荡运行']
['国信期货' '期货盘面低位 如果有钱的话,建议你直接调用百度、腾讯云、阿里云等ocr接口去识别,这样可以直接输出表格。这样自己轻松的多。 cflying 发表于 2023-9-20 15:19
如果有钱的话,建议你直接调用百度、腾讯云、阿里云等ocr接口去识别,这样可以直接输出表格。这样自己轻松 ...
不花钱没有解决办法吗 本帖最后由 cflying 于 2023-9-20 17:42 编辑
937135952 发表于 2023-9-20 15:20
不花钱没有解决办法吗
呃,那就是自己写过程,或者要不如研究下你的来源能不能不是图片,当然,如果表格结构很简单,也可以用楼上的方法,识别后简单处理下形成excel
页:
[1]