darknight006 发表于 2023-1-4 20:06:34

解决多级标题中出现的unnamed问题

作业里有一部分内容是从网页上扒一个csv文件,并且进行数据处理,但是在多级标题的时候出了点问题,代码如下
df = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/00523/Exasens.csv',header=)
df.columns = ['_'.join(col) for col in df.columns.values]
发现在read_csv使用这个multiindex会出现unnamed的现象,貌似在excel不会有,可能是文件的问题
也有查在read_csv中加一个index_col=,发现没啥用。。。
有大佬给讲下是为啥嘛 还有应该咋做啊
这是我输出的效果
javascript:;
这是我想要的效果
javascript:;

阿奇_o 发表于 2023-1-4 20:06:35

从第四行开始读取(好像有个skip_row参数试试,没有就自己有iloc切出来),然后重新命名列名为你想要的。
ps: ID列的数据是不是有问题?ID列怎么会有多少月份日期的数据?

darknight006 发表于 2023-1-4 20:07:35

尴尬图片没粘贴上去
这是我输出的效果
javascript:;
这是我想要的效果
javascript:;

darknight006 发表于 2023-1-4 23:51:47

阿奇_o 发表于 2023-1-4 22:17
从第四行开始读取(好像有个skip_row参数试试,没有就自己有iloc切出来),然后重新命名列名为你想要的。
...

总觉得改名的局限性很大{:10_245:},之前作业就是写的只跟题目相关,老师换了一个数据源就出错了,查了一下read_csv貌似就是会有这种命名顺序{:10_245:}

阿奇_o 发表于 2023-1-5 00:07:23

本帖最后由 阿奇_o 于 2023-1-5 00:09 编辑

darknight006 发表于 2023-1-4 23:51
总觉得改名的局限性很大,之前作业就是写的只跟题目相关,老师换了一个数据源就出错了,查了一 ...

貌似高大上的“数据分析”,其背后50%~80%的工作量是搞定前期的数据准备,和数据清洗、筛选、规整等!!!

z5560636 发表于 2023-1-5 10:11:30

你们老师很鸡贼,你实际上看到的 columns 是一个元组
import pandas as pd
df = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/00523/Exasens.csv',header=)
ccd = []
for col in df.columns.values:
    for item in col:
      if "Unnamed" not in item:
            ccd.append(item)


请把这么鸡贼的老师,介绍给我,让我也多学一点。

darknight006 发表于 2023-1-5 19:07:07

z5560636 发表于 2023-1-5 10:11
你们老师很鸡贼,你实际上看到的 columns 是一个元组




大佬 我能看懂你写的是啥意思 但是实操起来不行啊{:10_245:}
这个columns是元组是咋看出来的可以讲解下不

z5560636 发表于 2023-1-8 01:28:36

本帖最后由 z5560636 于 2023-1-8 01:30 编辑


页: [1]
查看完整版本: 解决多级标题中出现的unnamed问题