解决多级标题中出现的unnamed问题
作业里有一部分内容是从网页上扒一个csv文件,并且进行数据处理,但是在多级标题的时候出了点问题,代码如下df = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/00523/Exasens.csv',header=)
df.columns = ['_'.join(col) for col in df.columns.values]
发现在read_csv使用这个multiindex会出现unnamed的现象,貌似在excel不会有,可能是文件的问题
也有查在read_csv中加一个index_col=,发现没啥用。。。
有大佬给讲下是为啥嘛 还有应该咋做啊
这是我输出的效果
javascript:;
这是我想要的效果
javascript:; 从第四行开始读取(好像有个skip_row参数试试,没有就自己有iloc切出来),然后重新命名列名为你想要的。
ps: ID列的数据是不是有问题?ID列怎么会有多少月份日期的数据? 尴尬图片没粘贴上去
这是我输出的效果
javascript:;
这是我想要的效果
javascript:; 阿奇_o 发表于 2023-1-4 22:17
从第四行开始读取(好像有个skip_row参数试试,没有就自己有iloc切出来),然后重新命名列名为你想要的。
...
总觉得改名的局限性很大{:10_245:},之前作业就是写的只跟题目相关,老师换了一个数据源就出错了,查了一下read_csv貌似就是会有这种命名顺序{:10_245:} 本帖最后由 阿奇_o 于 2023-1-5 00:09 编辑
darknight006 发表于 2023-1-4 23:51
总觉得改名的局限性很大,之前作业就是写的只跟题目相关,老师换了一个数据源就出错了,查了一 ...
貌似高大上的“数据分析”,其背后50%~80%的工作量是搞定前期的数据准备,和数据清洗、筛选、规整等!!! 你们老师很鸡贼,你实际上看到的 columns 是一个元组
import pandas as pd
df = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/00523/Exasens.csv',header=)
ccd = []
for col in df.columns.values:
for item in col:
if "Unnamed" not in item:
ccd.append(item)
请把这么鸡贼的老师,介绍给我,让我也多学一点。 z5560636 发表于 2023-1-5 10:11
你们老师很鸡贼,你实际上看到的 columns 是一个元组
大佬 我能看懂你写的是啥意思 但是实操起来不行啊{:10_245:}
这个columns是元组是咋看出来的可以讲解下不 本帖最后由 z5560636 于 2023-1-8 01:30 编辑
页:
[1]