鱼C论坛

 找回密码
 立即注册
查看: 1327|回复: 6

[已解决]关于pandas的应用

[复制链接]
发表于 2021-4-2 20:59:03 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
我想要将这个文件内的基本信息那一列
分成三列 学历   工作经验   因为薪资前面已经给出
我感觉重复了  想把它分出来删除掉
请问该怎么做?
最佳答案
2021-4-3 00:20:07
私はり 发表于 2021-4-2 21:15
我要用程序来实现
是个作业

太久没用pandas。。搞了一小时。。
就这样吧,
  1. import pandas as pd
  2. df = pd.read_csv('lagou_recruitment.csv')

  3. # 分列操作
  4. work_year = pd.Series(df['基本要求'].apply(lambda s : s.split(' ')[1])).rename('工作年限') # 工作年限
  5. edu_bgd = pd.Series(df['基本要求'].apply(lambda s : s.split(' ')[3])).rename('学历') # 学历
  6. # print(type(work_year))
  7. # print(work_year, edu_bgd)

  8. # 去掉不需要的列
  9. df_cut = df.drop(columns=['Unnamed: 0', '基本要求'])
  10. # print(df_cut.columns)

  11. # 把要的列,拼起来
  12. s = pd.concat([  df_cut[['岗位名称', '公司名称', '城市', '地点', '薪资']], work_year, edu_bgd,
  13.                  df_cut[['公司状况', '岗位技能', '公司福利']] ], axis=1)

  14. # 重命名 列名
  15. print(s.columns)
  16. new_cols_name = list(df_cut.columns)[:5] + ['工作年限', '学历'] + list(df_cut.columns[5:])
  17. print(new_cols_name)
  18. df_re = s.rename(columns=dict(zip(s.columns, new_cols_name))) # 对列重命名,需要用 字典。。

  19. # 写入csv
  20. df_re.to_csv('lagou_r_new.csv', index=False, encoding='utf-8-sig') # -sig 解决乱码问题
  21. print(df_re)
复制代码

lagou_recruitment.zip

68.24 KB, 下载次数: 1

文件

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2021-4-2 21:12:27 | 显示全部楼层
Excel点几下鼠标,一个分列操作,就可以搞定了。。 必须用pandas么?自己想练习一下?
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2021-4-2 21:15:07 | 显示全部楼层
阿奇_o 发表于 2021-4-2 21:12
Excel点几下鼠标,一个分列操作,就可以搞定了。。 必须用pandas么?自己想练习一下?

我要用程序来实现
是个作业
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-4-3 00:20:07 | 显示全部楼层    本楼为最佳答案   
私はり 发表于 2021-4-2 21:15
我要用程序来实现
是个作业

太久没用pandas。。搞了一小时。。
就这样吧,
  1. import pandas as pd
  2. df = pd.read_csv('lagou_recruitment.csv')

  3. # 分列操作
  4. work_year = pd.Series(df['基本要求'].apply(lambda s : s.split(' ')[1])).rename('工作年限') # 工作年限
  5. edu_bgd = pd.Series(df['基本要求'].apply(lambda s : s.split(' ')[3])).rename('学历') # 学历
  6. # print(type(work_year))
  7. # print(work_year, edu_bgd)

  8. # 去掉不需要的列
  9. df_cut = df.drop(columns=['Unnamed: 0', '基本要求'])
  10. # print(df_cut.columns)

  11. # 把要的列,拼起来
  12. s = pd.concat([  df_cut[['岗位名称', '公司名称', '城市', '地点', '薪资']], work_year, edu_bgd,
  13.                  df_cut[['公司状况', '岗位技能', '公司福利']] ], axis=1)

  14. # 重命名 列名
  15. print(s.columns)
  16. new_cols_name = list(df_cut.columns)[:5] + ['工作年限', '学历'] + list(df_cut.columns[5:])
  17. print(new_cols_name)
  18. df_re = s.rename(columns=dict(zip(s.columns, new_cols_name))) # 对列重命名,需要用 字典。。

  19. # 写入csv
  20. df_re.to_csv('lagou_r_new.csv', index=False, encoding='utf-8-sig') # -sig 解决乱码问题
  21. print(df_re)
复制代码
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2021-4-3 13:55:08 | 显示全部楼层
阿奇_o 发表于 2021-4-3 00:20
太久没用pandas。。搞了一小时。。
就这样吧,

好的  谢谢
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2021-4-3 14:20:44 | 显示全部楼层
阿奇_o 发表于 2021-4-3 00:20
太久没用pandas。。搞了一小时。。
就这样吧,
  1. import pandas as pd
  2. data = pd.read_csv(r'D:\lagou_recruitment.csv')
  3. data.head()
  4. data.columns = ['Unnamed', '岗位名称', '公司名称', '城市', '地点', '薪资', '基本要求', '公司状况', '岗位技能', '公司福利']
  5. data = data.drop(['Unnamed'],axis=1)
  6. data.head()

  7. 为什么我这里会报错
  8. 会显示  ‘基本要求’ 这个错
  9. dups = data.duplicated()
  10. print('Number of duplicate rows = %d' % (dups.sum()))
  11. print('Number of rows before discarding duplicates = %d' % (data.shape[0]))
  12. data2 = data.drop_duplicates()#删除重复值
  13. print('Number of rows after discarding duplicates = %d' % (data2.shape[0]))
  14. work_year = pd.Series(data2['基本要求'].apply(lambda s : s.split(' ')[1])).rename('工作年限') # 工作年限
  15. edu_bgd = pd.Series(data2['基本要求'].apply(lambda s : s.split(' ')[3])).rename('学历') # 学历
  16. print(type(work_year))
  17. print(work_year, edu_bgd)
复制代码
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2021-4-3 15:27:42 | 显示全部楼层
阿奇_o 发表于 2021-4-3 00:20
太久没用pandas。。搞了一小时。。
就这样吧,

我做好了
不知道为什么 有时会报错
有时不会
谢谢了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-5-17 19:22

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表