[已解决]关于pandas的应用

私はり · 发表于 2021-4-2 20:59:03

您需要登录才可以下载或查看，没有账号？立即注册

x

我想要将这个文件内的基本信息那一列
分成三列学历工作经验因为薪资前面已经给出
我感觉重复了想把它分出来删除掉
请问该怎么做？

最佳答案

阿奇_o

2021-4-3 00:20:07

私はり发表于 2021-4-2 21:15
我要用程序来实现
是个作业

太久没用pandas。。搞了一小时。。
就这样吧，

import pandas as pd
df = pd.read_csv('lagou_recruitment.csv')
# 分列操作
work_year = pd.Series(df['基本要求'].apply(lambda s : s.split(' ')[1])).rename('工作年限') # 工作年限
edu_bgd = pd.Series(df['基本要求'].apply(lambda s : s.split(' ')[3])).rename('学历') # 学历
# print(type(work_year))
# print(work_year, edu_bgd)
# 去掉不需要的列
df_cut = df.drop(columns=['Unnamed: 0', '基本要求'])
# print(df_cut.columns)
# 把要的列，拼起来
s = pd.concat([ df_cut[['岗位名称', '公司名称', '城市', '地点', '薪资']], work_year, edu_bgd,
df_cut[['公司状况', '岗位技能', '公司福利']] ], axis=1)
# 重命名列名
print(s.columns)
new_cols_name = list(df_cut.columns)[:5] + ['工作年限', '学历'] + list(df_cut.columns[5:])
print(new_cols_name)
df_re = s.rename(columns=dict(zip(s.columns, new_cols_name))) # 对列重命名，需要用字典。。
# 写入csv
df_re.to_csv('lagou_r_new.csv', index=False, encoding='utf-8-sig') # -sig 解决乱码问题
print(df_re)

复制代码

阿奇_o · 发表于 2021-4-2 21:12:27

Excel点几下鼠标，一个分列操作，就可以搞定了。。必须用pandas么？自己想练习一下？

私はり · 发表于 2021-4-2 21:15:07

阿奇_o 发表于 2021-4-2 21:12
Excel点几下鼠标，一个分列操作，就可以搞定了。。必须用pandas么？自己想练习一下？

我要用程序来实现
是个作业

阿奇_o · 发表于 2021-4-3 00:20:07

私はり发表于 2021-4-2 21:15
我要用程序来实现
是个作业

太久没用pandas。。搞了一小时。。
就这样吧，

import pandas as pd
df = pd.read_csv('lagou_recruitment.csv')
# 分列操作
work_year = pd.Series(df['基本要求'].apply(lambda s : s.split(' ')[1])).rename('工作年限') # 工作年限
edu_bgd = pd.Series(df['基本要求'].apply(lambda s : s.split(' ')[3])).rename('学历') # 学历
# print(type(work_year))
# print(work_year, edu_bgd)
# 去掉不需要的列
df_cut = df.drop(columns=['Unnamed: 0', '基本要求'])
# print(df_cut.columns)
# 把要的列，拼起来
s = pd.concat([ df_cut[['岗位名称', '公司名称', '城市', '地点', '薪资']], work_year, edu_bgd,
df_cut[['公司状况', '岗位技能', '公司福利']] ], axis=1)
# 重命名列名
print(s.columns)
new_cols_name = list(df_cut.columns)[:5] + ['工作年限', '学历'] + list(df_cut.columns[5:])
print(new_cols_name)
df_re = s.rename(columns=dict(zip(s.columns, new_cols_name))) # 对列重命名，需要用字典。。
# 写入csv
df_re.to_csv('lagou_r_new.csv', index=False, encoding='utf-8-sig') # -sig 解决乱码问题
print(df_re)

复制代码

私はり · 发表于 2021-4-3 13:55:08

阿奇_o 发表于 2021-4-3 00:20
太久没用pandas。。搞了一小时。。
就这样吧，

好的谢谢

私はり · 发表于 2021-4-3 14:20:44

阿奇_o 发表于 2021-4-3 00:20
太久没用pandas。。搞了一小时。。
就这样吧，

import pandas as pd
data = pd.read_csv(r'D:\lagou_recruitment.csv')
data.head()
data.columns = ['Unnamed', '岗位名称', '公司名称', '城市', '地点', '薪资', '基本要求', '公司状况', '岗位技能', '公司福利']
data = data.drop(['Unnamed'],axis=1)
data.head()
为什么我这里会报错
会显示 ‘基本要求’ 这个错
dups = data.duplicated()
print('Number of duplicate rows = %d' % (dups.sum()))
print('Number of rows before discarding duplicates = %d' % (data.shape[0]))
data2 = data.drop_duplicates()#删除重复值
print('Number of rows after discarding duplicates = %d' % (data2.shape[0]))
work_year = pd.Series(data2['基本要求'].apply(lambda s : s.split(' ')[1])).rename('工作年限') # 工作年限
edu_bgd = pd.Series(data2['基本要求'].apply(lambda s : s.split(' ')[3])).rename('学历') # 学历
print(type(work_year))
print(work_year, edu_bgd)

复制代码

私はり · 发表于 2021-4-3 15:27:42

阿奇_o 发表于 2021-4-3 00:20
太久没用pandas。。搞了一小时。。
就这样吧，

我做好了
不知道为什么有时会报错
有时不会
谢谢了

账号		自动登录	找回密码
密码			立即注册