|
马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册
x
我想要将这个文件内的基本信息那一列
分成三列 学历 工作经验 因为薪资前面已经给出
我感觉重复了 想把它分出来删除掉
请问该怎么做?
太久没用pandas。。搞了一小时。。
就这样吧,
- import pandas as pd
- df = pd.read_csv('lagou_recruitment.csv')
- # 分列操作
- work_year = pd.Series(df['基本要求'].apply(lambda s : s.split(' ')[1])).rename('工作年限') # 工作年限
- edu_bgd = pd.Series(df['基本要求'].apply(lambda s : s.split(' ')[3])).rename('学历') # 学历
- # print(type(work_year))
- # print(work_year, edu_bgd)
- # 去掉不需要的列
- df_cut = df.drop(columns=['Unnamed: 0', '基本要求'])
- # print(df_cut.columns)
- # 把要的列,拼起来
- s = pd.concat([ df_cut[['岗位名称', '公司名称', '城市', '地点', '薪资']], work_year, edu_bgd,
- df_cut[['公司状况', '岗位技能', '公司福利']] ], axis=1)
- # 重命名 列名
- print(s.columns)
- new_cols_name = list(df_cut.columns)[:5] + ['工作年限', '学历'] + list(df_cut.columns[5:])
- print(new_cols_name)
- df_re = s.rename(columns=dict(zip(s.columns, new_cols_name))) # 对列重命名,需要用 字典。。
- # 写入csv
- df_re.to_csv('lagou_r_new.csv', index=False, encoding='utf-8-sig') # -sig 解决乱码问题
- print(df_re)
复制代码
|
|