| 
 | 
 
马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册  
 
x
 
s =[{"bk":"主板","agdm":"000001","agjc":"<a href=\'http://www.szse.cn/certificate/individual/index.html?code=000001\' target=\'_blank\'><u>平安银行</u></a>"},{"bk":"主板","agdm":"000002","agjc":"<a href=\'http://www.szse.cn/certificate/individual/index.html?code=000002\' target=\'_blank\'><u>万  科A</u></a>"}] 
df = pd.DataFrame(s) 
 
我想提取数据帧中第3列(agjc)中的中文名称,即 
平安银行,万  科A 
并去掉中文名中的空格,求大师帮忙,谢谢
可以使用正则表达式来提取数据帧中第3列(agjc)中的中文名称,并使用replace函数去掉中文名中的空格。 
 
以下是代码实现: 
 
 
- import pandas as pd
 
  
- s = [{"bk":"主板","agdm":"000001","agjc":"<a href=\'http://www.szse.cn/certificate/individual/index.html?code=000001\' target=\'_blank\'><u>平安银行</u></a>"},{"bk":"主板","agdm":"000002","agjc":"<a href=\'http://www.szse.cn/certificate/individual/index.html?code=000002\' target=\'_blank\'><u>万  科A</u></a>"}]
 
  
- df = pd.DataFrame(s)
 
  
- # 提取中文名称
 
 - pattern = r'>([\u4e00-\u9fa5\s]*?)</u'
 
 - df['agjc'] = df['agjc'].str.extract(pattern)[0]
 
  
- # 去掉空格
 
 - df['agjc'] = df['agjc'].str.replace(' ', '')
 
  
- print(df['agjc'])
 
 
  复制代码 
 
运行结果为: 
 
0    平安银行 
1     万科A 
Name: agjc, dtype: object 
 
 
可以看到,代码成功地提取了第3列的中文名称并去掉了其中的空格。 
有用请设置最佳答案 
 
 
 |   
 
 
 
 |