鱼C论坛

 找回密码
 立即注册
查看: 2060|回复: 12

[已解决]关于pandas中提取两个以上数值的做法

[复制链接]
发表于 2019-3-20 09:11:53 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
微信图片_20190320090953.png

上述做法只能提取一个。。那如何用正则来一次性提取多个字符呢??
最佳答案
2019-3-20 15:31:23
老笨啊 发表于 2019-3-20 15:13
谢谢。
这个是明确知道有两个数字的情况。。
如果数据量比较大的时候,无法查看其中有多少种情况,而是 ...
  1. >>> df=pd.DataFrame([[1,'30像素50像素'],[2,'50像素100像素150像素']],columns=['no','name'])
  2. >>> df['name'].str.extractall('(\d+)[^0-9]+?')
复制代码
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2019-3-20 10:42:44 | 显示全部楼层
  1. import re
  2. import string

  3. t = '100abc200sdia300dfgfdsg'
  4. tm = re.sub("\D", " ", t)
  5. print(tm.split()[0],tm.split()[1],tm.split()[2])
复制代码
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2019-3-20 14:57:53 | 显示全部楼层

你这个是要单独导入re模块啊?
我是想只用pandas库,看能不能一次性提取两个以上的数值。。
{1,}这个不就是表示表示匹配字符出现一次以上么。。可是仍旧只能获取到一个数值啊
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-3-20 15:08:11 | 显示全部楼层
  1. >>> import pandas as pd
  2. >>> df=pd.DataFrame([[1,'30像素50像素'],[2,'50像素100像素']],columns=['no','name'])
  3. >>> df
  4.    no       name
  5. 0   1   30像素50像素
  6. 1   2  50像素100像素
  7. >>> df['name'].str.extract('(\d+).+?(\d+).+?')
  8.     0    1
  9. 0  30   50
  10. 1  50  100
复制代码
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2019-3-20 15:13:18 | 显示全部楼层

谢谢。
这个是明确知道有两个数字的情况。。
如果数据量比较大的时候,无法查看其中有多少种情况,而是要把所有‘像素’前的数字全部提取出来呢?
比如说,里面有‘30像素’,‘30像素50像素’,‘30像素50像素70像素’。。
这个时候用什么办法提取出所有‘像素’前的数字呢?
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2019-3-20 15:14:45 | 显示全部楼层

顺便请教个事,我看了一个文档中关于正则的字符含义,说是其中w表示匹配单词字符,为a-z,A-Z,0-9,_。那中文字符应该是不包含在其中的吧?
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-3-20 15:26:45 | 显示全部楼层
老笨啊 发表于 2019-3-20 15:14
顺便请教个事,我看了一个文档中关于正则的字符含义,说是其中w表示匹配单词字符,为a-z,A-Z,0-9,_。那 ...

>>> re.search('\w+','我去')
<_sre.SRE_Match object; span=(0, 2), match='我去'>
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-3-20 15:31:23 | 显示全部楼层    本楼为最佳答案   
老笨啊 发表于 2019-3-20 15:13
谢谢。
这个是明确知道有两个数字的情况。。
如果数据量比较大的时候,无法查看其中有多少种情况,而是 ...
  1. >>> df=pd.DataFrame([[1,'30像素50像素'],[2,'50像素100像素150像素']],columns=['no','name'])
  2. >>> df['name'].str.extractall('(\d+)[^0-9]+?')
复制代码
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2019-3-20 15:54:43 | 显示全部楼层
塔利班 发表于 2019-3-20 15:26
>>> re.search('\w+','我去')

那说明这个w并不是文档中的,只代表了大小写字母,0-9的数字及下划线啊。。还包含中文字符啊
那W代表是什么意思?对w取反,意思是特殊符号?
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2019-3-20 15:55:21 | 显示全部楼层

谢谢,原来还有extractall,抽取全部的命令。。
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-3-20 16:01:15 | 显示全部楼层
你问的太多了,建议你还是百度下
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2019-3-21 09:39:51 | 显示全部楼层
塔利班 发表于 2019-3-20 16:01
你问的太多了,建议你还是百度下

我百度过了的。。说的和我上面写的意思差不多。。
w   等价于 [a-zA-Z0-9_]
W 等价于 [^a-zA-Z0-9_],就是排除了\w的情况,也就是说它们表示的意思相反。
所以我才奇怪,为什么中文要用w匹配,而不是W。。。
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-3-21 09:46:21 | 显示全部楼层
你记住就行了,这就相当于汉字是中文的字母
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-10-22 03:07

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表