鱼C论坛

 找回密码
 立即注册
查看: 863|回复: 6

关于正则表达式的问题

[复制链接]
发表于 2020-4-30 14:08:41 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
本帖最后由 Saint_HUFS 于 2020-4-30 14:15 编辑

import re
import sys
import codecs
from imp import reload
def myfun(input_file):
    p1 = re.compile(r"-\{.*?(zh-hans|zh-cn):([^;]*?)(;.*?)?\}-")
    p2 = re.compile(r'[(\(][,;。?!\s]*[)\)]')
    p3 = re.compile(r'[「『]')
    p4 = re.compile(r'[」』]')
    outfile = codecs.open('std_' + input_file, 'w', 'utf-8')
    with codecs.open(input_file, 'r', 'utf-8') as myfile:
        for line in myfile:
            line = p1.sub(r'\2', line)
            line = p2.sub(r'', line)
            line = p3.sub(r'“', line)
            line = p4.sub(r'”', line)
            outfile.write(line)
    outfile.close()

请问一下这里的‘\2’是什么意思啊,是指(zh-hans|zh-cn)吗?
谢谢
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-4-30 14:23:22 | 显示全部楼层
line = p1.sub(r'\2', line)
就是把 line 中所有匹配 p1 的都替换成r'\2'
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-4-30 15:03:09 | 显示全部楼层
正则表达式常用方法:

re.match 尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match()就返回none
函数语法: re.match(pattern, string, flags=0)

re.search 扫描整个字符串并返回第一个成功的匹配。
函数语法: re.search(pattern, string, flags=0)

re.sub 替换字符串 re.sub(pattern,replace,string)

re.findall 查找全部 re.findall(pattern,string,flags=0)
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-4-30 15:09:14 | 显示全部楼层
永恒的蓝色梦想 发表于 2020-4-30 14:23
就是把 line 中所有匹配 p1 的都替换成r'\2'

恩,可是我不理解替换函数里面<\id>的用法这个<\id>到底是什么?请问这里的\2指哪一部分呢?
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-4-30 15:10:20 | 显示全部楼层
Twilight6 发表于 2020-4-30 15:03
正则表达式常用方法:

re.match 尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,m ...

恩,可是我不理解sub替换函数里面<\id>的用法这个<\id>到底是什么?所以想请问这里的\2指哪一部分呢?
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-4-30 15:12:42 | 显示全部楼层
Saint_HUFS 发表于 2020-4-30 15:09
恩,可是我不理解替换函数里面的用法这个到底是什么?请问这里的\2指哪一部分呢?

\2 是被替换成 \2
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-4-30 18:35:42 | 显示全部楼层
本帖最后由 Twilight6 于 2020-4-30 18:43 编辑
Saint_HUFS 发表于 2020-4-30 15:10
恩,可是我不理解sub替换函数里面的用法这个到底是什么?所以想请问这里的\2指哪一部分呢?


这个是html的,python只是读取网页,提取数据,没有<\id><id>的用法

p1.sub(r'\2', line) 是 将p1里的数据里的\2的字符串都替换为line的字符串


想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-11-27 00:46

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表