鱼C论坛

 找回密码
 立即注册
查看: 2157|回复: 4

如何处理数字中的逗号?

[复制链接]
发表于 2020-2-12 19:56:56 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
本帖最后由 ilsoviet1917 于 2020-2-12 20:01 编辑

筛选数据,但是超过1000的数据中,如果有逗号分隔符就会报错,如何处理?

用E:\数据分析\2>python pandas_value_meets_condition.py supplier_data.csv pandas_output_loc.csv运行后出现错误提示:

Traceback (most recent call last):
  File "pandas_value_meets_condition.py", line 12, in <module>
    data_frame['Cost'] = data_frame['Cost'].str.strip('$').astype(float)
  File "C:\Users\ilsov\AppData\Local\Programs\Python\Python36\lib\site-packages\pandas\core\generic.py", line 5882, in astype
    dtype=dtype, copy=copy, errors=errors, **kwargs
  File "C:\Users\ilsov\AppData\Local\Programs\Python\Python36\lib\site-packages\pandas\core\internals\managers.py", line 581, in astype
    return self.apply("astype", dtype=dtype, **kwargs)
  File "C:\Users\ilsov\AppData\Local\Programs\Python\Python36\lib\site-packages\pandas\core\internals\managers.py", line 438, in apply
    applied = getattr(b, f)(**kwargs)
  File "C:\Users\ilsov\AppData\Local\Programs\Python\Python36\lib\site-packages\pandas\core\internals\blocks.py", line 559, in astype
    return self._astype(dtype, copy=copy, errors=errors, values=values, **kwargs)
  File "C:\Users\ilsov\AppData\Local\Programs\Python\Python36\lib\site-packages\pandas\core\internals\blocks.py", line 643, in _astype
    values = astype_nansafe(vals1d, dtype, copy=True, **kwargs)
  File "C:\Users\ilsov\AppData\Local\Programs\Python\Python36\lib\site-packages\pandas\core\dtypes\cast.py", line 729, in astype_nansafe
    return arr.astype(dtype, copy=True)
ValueError: could not convert string to float: '6,015.00 '
这个CSV文件里有两个大于1000的值,并且有逗号分隔符,报错因该是这个原因。怎么解决呢?

  1. import pandas as pd
  2. import sys

  3. input_file = sys.argv[1]
  4. output_file = sys.argv[2]

  5. data_frame = pd.read_csv(input_file)
  6. data_frame['Cost'] = data_frame['Cost'].str.strip('




  7. ).astype(float)

  8. data_frame_value_meets_condition = data_frame.loc[(data_frame['Supplier Name']\
  9. .str.contains('Z')) | (data_frame['Cost'] > 600.0), :]

  10. data_frame_value_meets_condition.to_csv(output_file, index = False)
复制代码





supplier_data.zip

353 Bytes, 下载次数: 0

csv文件

小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2020-2-12 20:02:36 | 显示全部楼层
08-13行是
data_frame['Cost'] = data_frame['Cost'].str.strip('$').astype(float)
我也不知道为什么会变成那样
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-2-12 20:03:43 | 显示全部楼层
~没有下载你的数据文件,所以只提供思路:
1.利用数据特征,使用正则表达式找出相关数据并改造,应该是这样的格式
  1. "\d,\d"
复制代码

2.如果逗号只出现在数字中,利用repalce替换

希望对你有所帮助

小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-2-12 20:04:44 From FishC Mobile | 显示全部楼层
把逗号替换成虚无
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-2-12 20:08:01 | 显示全部楼层
本帖最后由 ilsoviet1917 于 2020-2-12 20:15 编辑
wp231957 发表于 2020-2-12 20:04
把逗号替换成虚无


没有办法在筛选和输出的时候保留这些逗号吗?
用astype强制转换类型的时候居然没把逗号去掉?
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2026-1-22 10:15

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表