[已解决]去掉某列空格，并提取中文字符，求大师帮忙，谢谢

futui · 发表于 2023-4-24 20:37:30

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

s =[{"bk":"主板","agdm":"000001","agjc":"<a href=\'http://www.szse.cn/certificate/individual/index.html?code=000001\' target=\'_blank\'>平安银行</a>"},{"bk":"主板","agdm":"000002","agjc":"<a href=\'http://www.szse.cn/certificate/individual/index.html?code=000002\' target=\'_blank\'>万科Ａ</a>"}]
df = pd.DataFrame(s)

我想提取数据帧中第3列(agjc)中的中文名称，即
平安银行，万科Ａ
并去掉中文名中的空格，求大师帮忙，谢谢

最佳答案

月排行榜 / 总排行榜

sfqxx

2023-4-24 20:39:07

可以使用正则表达式来提取数据帧中第3列（agjc）中的中文名称，并使用replace函数去掉中文名中的空格。

以下是代码实现：

import pandas as pd

s = [{"bk":"主板","agdm":"000001","agjc":"<a href=\'http://www.szse.cn/certificate/individual/index.html?code=000001\' target=\'_blank\'>平安银行</a>"},{"bk":"主板","agdm":"000002","agjc":"<a href=\'http://www.szse.cn/certificate/individual/index.html?code=000002\' target=\'_blank\'>万科Ａ</a>"}]

df = pd.DataFrame(s)

# 提取中文名称

pattern = r'>([\u4e00-\u9fa5\s]*?)</u'

df['agjc'] = df['agjc'].str.extract(pattern)[0]

# 去掉空格

df['agjc'] = df['agjc'].str.replace(' ', '')

print(df['agjc'])

复制代码

运行结果为：

0 平安银行
1 万科Ａ
Name: agjc, dtype: object

可以看到，代码成功地提取了第3列的中文名称并去掉了其中的空格。
有用请设置最佳答案

跳转到最佳答案楼层

sfqxx · 发表于 2023-4-24 20:39:07

可以使用正则表达式来提取数据帧中第3列（agjc）中的中文名称，并使用replace函数去掉中文名中的空格。

以下是代码实现：

import pandas as pd

s = [{"bk":"主板","agdm":"000001","agjc":"<a href=\'http://www.szse.cn/certificate/individual/index.html?code=000001\' target=\'_blank\'>平安银行</a>"},{"bk":"主板","agdm":"000002","agjc":"<a href=\'http://www.szse.cn/certificate/individual/index.html?code=000002\' target=\'_blank\'>万科Ａ</a>"}]

df = pd.DataFrame(s)

# 提取中文名称

pattern = r'>([\u4e00-\u9fa5\s]*?)</u'

df['agjc'] = df['agjc'].str.extract(pattern)[0]

# 去掉空格

df['agjc'] = df['agjc'].str.replace(' ', '')

print(df['agjc'])

复制代码

运行结果为：

0 平安银行
1 万科Ａ
Name: agjc, dtype: object

可以看到，代码成功地提取了第3列的中文名称并去掉了其中的空格。
有用请设置最佳答案

账号		自动登录	找回密码
密码			立即注册