pandas处理

王book · 发表于 2023-5-11 18:37:37

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

批量将txt文档转化为excel文件，excel文件命名只保留数字。
.添加excel文件表头，年，月，日，降水（保留一位小数）。
.如果降水出现负值和-999，替换为0
import pandas as pd
import os
input_dir = "input" # 输入目录
output_dir = "output" # 输出目录

for file_name in input_files:
# 读取txt文件并转换为DataFrame
file_path = os.path.join(input_dir, file_name)
df = pd.read_csv(file_path, sep="\t", header=None, names=["date", "precipitation"])

# 添加年、月、日列
df["year"] = df["date"].apply(lambda x: int(str(x)[:4]))
df["month"] = df["date"].apply(lambda x: int(str(x)[4:6]) if not str(x)[4:6].isspace() else 0)
df["day"] = df["date"].apply(lambda x: int(str(x)[6:]))

# 删除原日期列
df = df.drop("date", axis=1)

# 替换无效值
df = df.replace(-999, 0)
df = df[df["precipitation"] >= 0]

# 保留一位小数
df["precipitation"] = round(df["precipitation"], 1)

# 保存为Excel文件
output_file_name = "".join(filter(str.isdigit, file_name)) + ".xlsx"
output_file_path = os.path.join(output_dir, output_file_name)
df.to_excel(output_file_path, index=False)

为何 # 添加年、月、日列
df["year"] = df["date"].apply(lambda x: int(str(x)[:4]))
df["month"] = df["date"].apply(lambda x: int(str(x)[4:6]) if not str(x)[4:6].isspace() else 0)
df["day"] = df["date"].apply(lambda x: int(str(x)[6:]))
出错，应该如何更改求指教

isdkz · 发表于 2023-5-11 18:37:56

代码中添加年、月、日列的部分出错可能是因为读入的日期格式不符合预期。在这种情况下，可以使用pandas中的to_datetime函数将日期转换为datetime格式，然后使用datetime的属性来提取年、月、日。修改代码如下：

# 添加年、月、日列
df["date"] = pd.to_datetime(df["date"], format="%Y%m%d")
df["year"] = df["date"].dt.year
df["month"] = df["date"].dt.month
df["day"] = df["date"].dt.day
复制代码

这里，我们首先使用to_datetime函数将日期列转换为datetime格式，然后使用dt属性来提取年、月、日。format参数指定日期的格式，"%Y%m%d"表示年月日的顺序分别是年、月、日，如20220101。修改后的代码应该可以正确添加年、月、日列了。

sfqxx · 发表于 2023-5-11 18:38:47

isdkz 发表于 2023-5-11 18:37
代码中添加年、月、日列的部分出错可能是因为读入的日期格式不符合预期。在这种情况下，可以使用pandas中的 ...

19秒差距？你是小号还是爬虫，

歌者文明清理员 · 发表于 2023-5-11 18:41:18

sfqxx 发表于 2023-5-11 18:38
19秒差距？你是小号还是爬虫，

sfqxx · 发表于 2023-5-11 18:44:24

出错的原因是缩进不一致。应该将第一行和第二行的缩进对齐，即：

df["year"] = df["date"].apply(lambda x: int(str(x)[:4]))

df["month"] = df["date"].apply(lambda x: int(str(x)[4:6]) if not str(x)[4:6].isspace() else 0)

df["day"] = df["date"].apply(lambda x: int(str(x)[6:]))
复制代码

另外，如果日期格式有非数字字符，比如空格或其他符号，会导致字符串切片出现错误。可以在字符串切片之前使用 `.strip()`去除空格等字符，可以改为：

df["year"] = df["date"].apply(lambda x: int(str(x).strip()[:4]))

df["month"] = df["date"].apply(lambda x: int(str(x).strip()[4:6]) if not str(x).strip()[4:6].isspace() else 0)

df["day"] = df["date"].apply(lambda x: int(str(x).strip()[6:]))
复制代码

这样处理后，在出现非数字字符时就不会报错了。
有用请设置最佳答案

歌者文明清理员 · 发表于 2023-5-11 18:45:07

sfqxx 发表于 2023-5-11 18:44
我很赞同！: 5
发出贴:37秒前，回复:18秒前，超级可疑

liuhongrun2022 · 发表于 2023-5-11 20:26:17

歌者文明清理员发表于 2023-5-11 18:45

他们两个...

歌者文明清理员 · 发表于 2023-5-11 20:30:39

liuhongrun2022 发表于 2023-5-11 20:26
他们两个...

（刷分中请勿打扰）

Axiujiu · 发表于 2023-5-12 08:57:59

感激分享，认真学习。

陶远航 · 发表于 2023-5-13 07:36:46

这段代码出错的原因是第二个 lambda 表达式中 if not str(x)[4:6].isspace() else 0 返回了一个 int 类型的 0，而不是 NaN 或空值。在 pandas 中，如果没有显式地指定数据类型或缺失值，那么默认情况下读取的数据会以字符串形式存储，并将空值存储为 NaN。

正确的写法是将该语句修改为 if not str(x)[4:6].isspace() else pd.NaT（NaT 表示不确定的 NaT 值）。因此，修改后的代码如下所示：

# 添加年、月、日列
df["year"] = df["date"].apply(lambda x: int(str(x)[:4]))
df["month"] = df["date"].apply(lambda x: int(str(x)[4:6]) if not str(x)[4:6].isspace() else pd.NaT)
df["day"] = df["date"].apply(lambda x: int(str(x)[6:]) if not str(x)[6:].isspace() else pd.NaT)

复制代码

显示全部楼层 · 发表于 2023-5-23 19:22:16

提示: 作者被禁止或删除内容自动屏蔽

账号		自动登录	找回密码
密码			立即注册

guofeng8899 该用户已被删除	发表于 2023-5-23 19:22:16 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽
guofeng8899 该用户已被删除	小甲鱼最新课程 -> https://ilovefishc.com
	回复使用道具举报显身卡

pandas处理

马上注册，结交更多好友，享用更多功能^_^

点评

浏览过的版块