解决多级标题中出现的unnamed问题,Python交流,编程语言专区,鱼C论坛

darknight006 发表于 2023-1-4 20:06:34

解决多级标题中出现的unnamed问题

作业里有一部分内容是从网页上扒一个csv文件，并且进行数据处理，但是在多级标题的时候出了点问题，代码如下
df = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/00523/Exasens.csv',header=)
df.columns = ['_'.join(col) for col in df.columns.values]
发现在read_csv使用这个multiindex会出现unnamed的现象，貌似在excel不会有，可能是文件的问题
也有查在read_csv中加一个index_col=，发现没啥用。。。
有大佬给讲下是为啥嘛还有应该咋做啊
这是我输出的效果
javascript:;
这是我想要的效果
javascript:;

阿奇_o 发表于 2023-1-4 20:06:35

从第四行开始读取（好像有个skip_row参数试试，没有就自己有iloc切出来），然后重新命名列名为你想要的。
ps: ID列的数据是不是有问题？ID列怎么会有多少月份日期的数据？

darknight006 发表于 2023-1-4 20:07:35

尴尬图片没粘贴上去
这是我输出的效果
javascript:;
这是我想要的效果
javascript:;

darknight006 发表于 2023-1-4 23:51:47

阿奇_o 发表于 2023-1-4 22:17
从第四行开始读取（好像有个skip_row参数试试，没有就自己有iloc切出来），然后重新命名列名为你想要的。
...

总觉得改名的局限性很大{:10_245:}，之前作业就是写的只跟题目相关，老师换了一个数据源就出错了，查了一下read_csv貌似就是会有这种命名顺序{:10_245:}

阿奇_o 发表于 2023-1-5 00:07:23

本帖最后由阿奇_o 于 2023-1-5 00:09 编辑

darknight006 发表于 2023-1-4 23:51
总觉得改名的局限性很大，之前作业就是写的只跟题目相关，老师换了一个数据源就出错了，查了一 ...

貌似高大上的“数据分析”，其背后50%～80%的工作量是搞定前期的数据准备，和数据清洗、筛选、规整等！！！

z5560636 发表于 2023-1-5 10:11:30

你们老师很鸡贼，你实际上看到的 columns 是一个元组
import pandas as pd
df = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/00523/Exasens.csv',header=)
ccd = []
for col in df.columns.values:
for item in col:
if "Unnamed" not in item:
ccd.append(item)

请把这么鸡贼的老师，介绍给我，让我也多学一点。

darknight006 发表于 2023-1-5 19:07:07

z5560636 发表于 2023-1-5 10:11
你们老师很鸡贼，你实际上看到的 columns 是一个元组

大佬我能看懂你写的是啥意思但是实操起来不行啊{:10_245:}
这个columns是元组是咋看出来的可以讲解下不

z5560636 发表于 2023-1-8 01:28:36

本帖最后由 z5560636 于 2023-1-8 01:30 编辑

页: [1]

鱼C论坛's Archiver

解决多级标题中出现的unnamed问题