[已解决]关于pandas中提取两个以上数值的做法

老笨啊 · 发表于 2019-3-20 09:11:53

您需要登录才可以下载或查看，没有账号？立即注册

x

上述做法只能提取一个。。那如何用正则来一次性提取多个字符呢？？

最佳答案

塔利班

2019-3-20 15:31:23

老笨啊发表于 2019-3-20 15:13
谢谢。
这个是明确知道有两个数字的情况。。
如果数据量比较大的时候，无法查看其中有多少种情况，而是 ...

>>> df=pd.DataFrame([[1,'30像素50像素'],[2,'50像素100像素150像素']],columns=['no','name'])
>>> df['name'].str.extractall('(\d+)[^0-9]+?')

复制代码

wp231957 · 发表于 2019-3-20 10:42:44

复制代码

老笨啊 · 发表于 2019-3-20 14:57:53

wp231957 发表于 2019-3-20 10:42

你这个是要单独导入re模块啊？
我是想只用pandas库，看能不能一次性提取两个以上的数值。。
{1，}这个不就是表示表示匹配字符出现一次以上么。。可是仍旧只能获取到一个数值啊

塔利班 · 发表于 2019-3-20 15:08:11

复制代码

老笨啊 · 发表于 2019-3-20 15:13:18

塔利班发表于 2019-3-20 15:08

谢谢。
这个是明确知道有两个数字的情况。。
如果数据量比较大的时候，无法查看其中有多少种情况，而是要把所有‘像素’前的数字全部提取出来呢？
比如说，里面有‘30像素’，‘30像素50像素’，‘30像素50像素70像素’。。
这个时候用什么办法提取出所有‘像素’前的数字呢？

老笨啊 · 发表于 2019-3-20 15:14:45

塔利班发表于 2019-3-20 15:08

顺便请教个事，我看了一个文档中关于正则的字符含义，说是其中w表示匹配单词字符，为a-z,A-Z，0-9，_。那中文字符应该是不包含在其中的吧？

塔利班 · 发表于 2019-3-20 15:26:45

老笨啊发表于 2019-3-20 15:14
顺便请教个事，我看了一个文档中关于正则的字符含义，说是其中w表示匹配单词字符，为a-z,A-Z，0-9，_。那 ...

>>> re.search('\w+','我去')
<_sre.SRE_Match object; span=(0, 2), match='我去'>

塔利班 · 发表于 2019-3-20 15:31:23

老笨啊发表于 2019-3-20 15:13
谢谢。
这个是明确知道有两个数字的情况。。
如果数据量比较大的时候，无法查看其中有多少种情况，而是 ...

>>> df=pd.DataFrame([[1,'30像素50像素'],[2,'50像素100像素150像素']],columns=['no','name'])
>>> df['name'].str.extractall('(\d+)[^0-9]+?')

复制代码

老笨啊 · 发表于 2019-3-20 15:54:43

塔利班发表于 2019-3-20 15:26
>>> re.search('\w+','我去')

那说明这个w并不是文档中的，只代表了大小写字母，0-9的数字及下划线啊。。还包含中文字符啊
那W代表是什么意思？对w取反，意思是特殊符号？

老笨啊 · 发表于 2019-3-20 15:55:21

塔利班发表于 2019-3-20 15:31

谢谢，原来还有extractall，抽取全部的命令。。

塔利班 · 发表于 2019-3-20 16:01:15

你问的太多了，建议你还是百度下

老笨啊 · 发表于 2019-3-21 09:39:51

塔利班发表于 2019-3-20 16:01
你问的太多了，建议你还是百度下

我百度过了的。。说的和我上面写的意思差不多。。
w 等价于 [a-zA-Z0-9_]
W 等价于 [^a-zA-Z0-9_],就是排除了\w的情况，也就是说它们表示的意思相反。
所以我才奇怪，为什么中文要用w匹配，而不是W。。。

塔利班 · 发表于 2019-3-21 09:46:21

你记住就行了，这就相当于汉字是中文的字母

账号		自动登录	找回密码
密码			立即注册