鱼C论坛

 找回密码
 立即注册
查看: 2147|回复: 11

pandas处理

[复制链接]
发表于 2023-5-11 18:37:37 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
批量将txt文档转化为excel文件,excel文件命名只保留数字。
.添加excel文件表头,年,月,日,降水(保留一位小数)。
.如果降水出现负值和-999,替换为0
import pandas as pd
import os
input_dir = "input"  # 输入目录
output_dir = "output"  # 输出目录


for file_name in input_files:
    # 读取txt文件并转换为DataFrame
    file_path = os.path.join(input_dir, file_name)
    df = pd.read_csv(file_path, sep="\t", header=None, names=["date", "precipitation"])
   
    # 添加年、月、日列
    df["year"] = df["date"].apply(lambda x: int(str(x)[:4]))
   df["month"] = df["date"].apply(lambda x: int(str(x)[4:6]) if not str(x)[4:6].isspace() else 0)
    df["day"] = df["date"].apply(lambda x: int(str(x)[6:]))
   
    # 删除原日期列
    df = df.drop("date", axis=1)
   
    # 替换无效值
    df = df.replace(-999, 0)
    df = df[df["precipitation"] >= 0]
   
    # 保留一位小数
    df["precipitation"] = round(df["precipitation"], 1)
   
    # 保存为Excel文件
    output_file_name = "".join(filter(str.isdigit, file_name)) + ".xlsx"
    output_file_path = os.path.join(output_dir, output_file_name)
    df.to_excel(output_file_path, index=False)




为何 # 添加年、月、日列
    df["year"] = df["date"].apply(lambda x: int(str(x)[:4]))
   df["month"] = df["date"].apply(lambda x: int(str(x)[4:6]) if not str(x)[4:6].isspace() else 0)
    df["day"] = df["date"].apply(lambda x: int(str(x)[6:]))
出错,应该如何更改求指教
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2023-5-11 18:37:56 | 显示全部楼层
代码中添加年、月、日列的部分出错可能是因为读入的日期格式不符合预期。在这种情况下,可以使用pandas中的to_datetime函数将日期转换为datetime格式,然后使用datetime的属性来提取年、月、日。修改代码如下:
# 添加年、月、日列df["date"] = pd.to_datetime(df["date"], format="%Y%m%d")df["year"] = df["date"].dt.yeardf["month"] = df["date"].dt.monthdf["day"] = df["date"].dt.day
这里,我们首先使用to_datetime函数将日期列转换为datetime格式,然后使用dt属性来提取年、月、日。format参数指定日期的格式,"%Y%m%d"表示年月日的顺序分别是年、月、日,如20220101。修改后的代码应该可以正确添加年、月、日列了。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-5-11 18:38:47 | 显示全部楼层
isdkz 发表于 2023-5-11 18:37
代码中添加年、月、日列的部分出错可能是因为读入的日期格式不符合预期。在这种情况下,可以使用pandas中的 ...

19秒差距?你是小号还是爬虫,
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-5-11 18:41:18 | 显示全部楼层
sfqxx 发表于 2023-5-11 18:38
19秒差距?你是小号还是爬虫,

点评

我很赞同!: 5.0
我很赞同!: 5
发出贴:37秒前,回复:18秒前,超级可疑  发表于 2023-5-11 18:42
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-5-11 18:44:24 | 显示全部楼层
出错的原因是缩进不一致。应该将第一行和第二行的缩进对齐,即:

  
df["year"] = df["date"].apply(lambda x: int(str(x)[:4]))
    df["month"] = df["date"].apply(lambda x: int(str(x)[4:6]) if not str(x)[4:6].isspace() else 0)
    df["day"] = df["date"].apply(lambda x: int(str(x)[6:]))

另外,如果日期格式有非数字字符,比如空格或其他符号,会导致字符串切片出现错误。可以在字符串切片之前使用 `.strip()`去除空格等字符,可以改为:

  
df["year"] = df["date"].apply(lambda x: int(str(x).strip()[:4]))
    df["month"] = df["date"].apply(lambda x: int(str(x).strip()[4:6]) if not str(x).strip()[4:6].isspace() else 0)
    df["day"] = df["date"].apply(lambda x: int(str(x).strip()[6:]))

这样处理后,在出现非数字字符时就不会报错了。
有用请设置最佳答案
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-5-11 18:45:07 | 显示全部楼层
sfqxx 发表于 2023-5-11 18:44
我很赞同!: 5
发出贴:37秒前,回复:18秒前,超级可疑   


想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-5-11 20:26:17 | 显示全部楼层
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-5-11 20:30:39 | 显示全部楼层

(刷分中请勿打扰)
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-5-12 08:57:59 | 显示全部楼层
感激分享,认真学习。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-5-13 07:36:46 | 显示全部楼层
这段代码出错的原因是第二个 lambda 表达式中 if not str(x)[4:6].isspace() else 0 返回了一个 int 类型的 0,而不是 NaN 或空值。在 pandas 中,如果没有显式地指定数据类型或缺失值,那么默认情况下读取的数据会以字符串形式存储,并将空值存储为 NaN。

正确的写法是将该语句修改为 if not str(x)[4:6].isspace() else pd.NaT(NaT 表示不确定的 NaT 值)。因此,修改后的代码如下所示:
# 添加年、月、日列
df["year"] = df["date"].apply(lambda x: int(str(x)[:4]))
df["month"] = df["date"].apply(lambda x: int(str(x)[4:6]) if not str(x)[4:6].isspace() else pd.NaT)
df["day"] = df["date"].apply(lambda x: int(str(x)[6:]) if not str(x)[6:].isspace() else pd.NaT)
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-5-23 19:22:16 | 显示全部楼层
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-12-23 22:23

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表