鱼C论坛

 找回密码
 立即注册
查看: 1414|回复: 16

[已解决]用正则表达式

[复制链接]
发表于 2018-4-2 22:47:32 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
  <b style='color:green'>
         我同一时间用正则表达式匹配出4个值如何把他们写到一块?
        我的正则: re.findall('(alt="\S*\s|v:average">\d\.\d</span>|<span>\d+.{4}</span>|<span class="inq">.*?</span>)', body
        </b>
最佳答案
2018-4-3 22:40:38
塔利班 发表于 2018-4-3 22:40
正则之前的代码里就有啊,
我运行结果如下

好像少了人数那个,再调整下就好了
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2018-4-2 22:51:15 | 显示全部楼层
4个值用()括起就行了。返回4个值的元组
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-4-3 09:02:33 | 显示全部楼层
具体怎么做?
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-4-3 12:25:21 | 显示全部楼层

你的4个情况或起来,每个加括号
你的body后边是不是还有个),
如果是
result=''.join(re.findall('(alt="\S*\s)|(v:average">\d\.\d</span>)|(<span>\d+.{4}</span>)|(<span class="inq">.*?</span>)', body))
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-4-3 21:16:34 | 显示全部楼层
塔利班 发表于 2018-4-3 12:25
你的4个情况或起来,每个加括号
你的body后边是不是还有个),
如果是

你这个好像不管用结果一样的还是
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-4-3 21:20:14 | 显示全部楼层
南城顾她 发表于 2018-4-3 21:16
你这个好像不管用结果一样的还是

你想要的是什么样的,看看网页url
看看要抓的是什么
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-4-3 21:28:09 | 显示全部楼层
塔利班 发表于 2018-4-3 21:20
你想要的是什么样的,看看网页url
看看要抓的是什么

就是 'https://movie.douban.com/top250'
我想要的是我一次性正则获取4条记录是在一起的 比如用一个电影的评分和评价和电影名评语在一块
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-4-3 21:48:15 | 显示全部楼层
南城顾她 发表于 2018-4-3 21:28
就是 'https://movie.douban.com/top250'
我想要的是我一次性正则获取4条记录是在一起的 比如用一个电影 ...

原来是这样,我还以为只出现一次的
这些元素都是和电影在一起的,把需要的部分用括号括起来,中间用.*?连接,非贪婪匹配就好了,还有需要编译re.DOTALL,这样.可以匹配换行
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-4-3 22:01:59 | 显示全部楼层
塔利班 发表于 2018-4-3 21:48
原来是这样,我还以为只出现一次的
这些元素都是和电影在一起的,把需要的部分用括号括起来,中间用.*? ...

全部在一起的话一次性提取出来的元素太多了我感觉索引在想有没有能写一次性匹配4个正则在一块这样的
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-4-3 22:10:05 | 显示全部楼层
南城顾她 发表于 2018-4-3 22:01
全部在一起的话一次性提取出来的元素太多了我感觉索引在想有没有能写一次性匹配4个正则在一块这样的

如果是每个电影元素数目都一样的话挨个匹配也行,索引也该一样,
但是一次性取出来和一次性匹配4个正则我还没整懂区别
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-4-3 22:24:39 | 显示全部楼层
塔利班 发表于 2018-4-3 22:10
如果是每个电影元素数目都一样的话挨个匹配也行,索引也该一样,
但是一次性取出来和一次性匹配4个正则 ...

我费贪婪匹配一直失败
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-4-3 22:30:43 | 显示全部楼层
  1. import urllib.request
  2. import re


  3. url='https://movie.douban.com/top250'
  4. res=urllib.request.urlopen(url)
  5. html=res.read().decode('utf-8')
  6. pattern=r'<a href=.*?class="">.*?<span.*?title">(.+?)<.*?v:average">(.*?)<.*?inq">(.*?)<'
  7. rule=re.compile(pattern,re.DOTALL)
  8. result=rule.findall(html)
  9. print(result)
复制代码
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-4-3 22:33:48 | 显示全部楼层

爬豆瓣网的电影名和评分和多少人评价和评语一块的正则给我看看就好,感谢
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-4-3 22:35:29 | 显示全部楼层
南城顾她 发表于 2018-4-3 22:33
爬豆瓣网的电影名和评分和多少人评价和评语一块的正则给我看看就好,感谢

客气,我其实也是查了半天,对网络爬虫还是比较犯怵。。
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-4-3 22:36:29 | 显示全部楼层
塔利班 发表于 2018-4-3 22:35
客气,我其实也是查了半天,对网络爬虫还是比较犯怵。。

你能把正则发一遍给我么 我用你上面的没有匹配出来好尴尬   我的最佳答案设置不了等明天我再设把  
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-4-3 22:40:01 | 显示全部楼层
南城顾她 发表于 2018-4-3 22:36
你能把正则发一遍给我么 我用你上面的没有匹配出来好尴尬   我的最佳答案设置不了等明天我再设把

正则之前的代码里就有啊,
我运行结果如下
1.png
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-4-3 22:40:38 | 显示全部楼层    本楼为最佳答案   
塔利班 发表于 2018-4-3 22:40
正则之前的代码里就有啊,
我运行结果如下

好像少了人数那个,再调整下就好了
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-10-1 02:26

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表