关于pandas中提取部分列重新命名列名报错求助,Python交流,编程语言专区,鱼C论坛

往北向南 发表于 2022-1-11 16:07:17

关于pandas中提取部分列重新命名列名报错求助

本帖最后由往北向南于 2022-1-11 16:07 编辑

案例需求：读取当前目录下某招聘网站数据.csv 文件的 positionId、positionName、salary 列，并将标题设置为 ID、岗位名称、薪资

我的方法是：
data = pd.read_csv('某招聘网站数据.csv',usecols=['positionId','positionName','salary'],header = 0,names=['ID','岗位名称','薪资'])

但是报错：
ValueError: Usecols do not match columns, columns expected but not found: ['positionName', 'salary', 'positionId']

参考答案是：
data = pd.read_csv('某招聘网站数据.csv', usecols=,header = 0,names=['ID','岗位名称','薪资'])

疑问：
我看差别在于 usecols我使用的是列名，参考答案是列序号，这个区别在哪儿

z5560636 发表于 2022-1-12 09:42:00

应该是read_csv 的时候时候读进来的值并没有直接取别名，只是用数组下表来表示，你读完之后可以直接 rename 重命名。

rsj0315 发表于 2022-1-12 10:17:30

df = 读取的csv，
df.columns=['新列1','新列2'，‘新列3’]

试试这个方法

往北向南 发表于 2022-1-12 11:26:36

rsj0315 发表于 2022-1-12 10:17
df = 读取的csv，
df.columns=['新列1','新列2'，‘新列3’]

您说的方法我这边试过可行，只是不明白问题中问题点在哪儿，下面是用的其他2中方法，含您这边提及的1种。
方法1：
data1 = pd.read_csv('某招聘网站数据.csv',usecols=['positionId','positionName','salary'])
data1.columns = ['ID','岗位名称','薪资']
方法2：
data2 = pd.read_csv('某招聘网站数据.csv',usecols=['positionId','positionName','salary'])
data2.rename(columns = {'positionId':'ID','positionName':'岗位名称'},inplace = True)

阿奇_o 发表于 2022-1-12 13:09:51

本帖最后由阿奇_o 于 2022-1-12 13:24 编辑

去看read_csv的API呀，文档通常都会对所有参数进行说明。

补充：
我亲自去看了一下，试验了两下，结论是：
如果csv文件里包括"列名"，你就可以用usecols=['col1', 'col2'] 这样的写法，因为文件里已经包括列名，它可以找到。
如果不包括列名，那就会报 not found 。
所以，通用的是用 usecols= 这样的指定。

至于重命名列名，通常是用 df.columns = [...]

往北向南 发表于 2022-1-12 14:25:40

阿奇_o 发表于 2022-1-12 13:09
去看read_csv的API呀，文档通常都会对所有参数进行说明。

补充：

不好意思，发帖时遗漏啦，列名是存在的。
https://lf9-survey.bytetos.com/obj/web.business.image/202201125d0d2932522dc3774b50b291

阿奇_o 发表于 2022-1-12 14:46:41

往北向南发表于 2022-1-12 14:25
不好意思，发帖时遗漏啦，列名是存在的。

header参数也会影响。header, names, usecols 这三个参数共同影响。需要仔细看文档。

zeeedo 发表于 2022-6-13 21:03:03

同样做题遇到这个报错，一个猜测，不一定对
# data = pd.read_csv('某招聘网站数据.csv', usecols=['positionId', 'positionName', 'salary'], names=['ID', '岗位名称', '薪资'])
# 报错无法找到指定列名，猜测原因为有names参数自定义表头，因此丢弃原表头，导致无法找到指定列名，包括指定header = 0 也无效，感觉就是usecols = 列名的形式和names不能共用

zeeedo 发表于 2022-6-13 21:21:14

OK, found some issues that have been discussed
https://stackoverflow.com/questions/29442370/how-to-correctly-read-csv-in-pandas-while-changing-the-names-of-the-columns

页: [1]

鱼C论坛's Archiver

关于pandas中提取部分列重新命名列名报错求助