关于正则表达式的问题,Python交流,编程语言专区,鱼C论坛

Saint_HUFS 发表于 2020-4-30 14:08:41

关于正则表达式的问题

本帖最后由 Saint_HUFS 于 2020-4-30 14:15 编辑

import re
import sys
import codecs
from imp import reload
def myfun(input_file):
p1 = re.compile(r"-\{.*?(zh-hans|zh-cn):([^;]*?)(;.*?)?\}-")
p2 = re.compile(r'[（\(][，；。？！\s]*[）\)]')
p3 = re.compile(r'[「『]')
p4 = re.compile(r'[」』]')
outfile = codecs.open('std_' + input_file, 'w', 'utf-8')
with codecs.open(input_file, 'r', 'utf-8') as myfile:
   for line in myfile:
      line = p1.sub(r'\2', line)
         line = p2.sub(r'', line)
         line = p3.sub(r'“', line)
         line = p4.sub(r'”', line)
         outfile.write(line)
outfile.close()

请问一下这里的‘\2’是什么意思啊，是指(zh-hans|zh-cn)吗？
谢谢

永恒的蓝色梦想 发表于 2020-4-30 14:23:22

line = p1.sub(r'\2', line)就是把 line 中所有匹配 p1 的都替换成r'\2'

Twilight6 发表于 2020-4-30 15:03:09

正则表达式常用方法：

re.match 尝试从字符串的起始位置匹配一个模式，如果不是起始位置匹配成功的话，match()就返回none
函数语法： re.match(pattern, string, flags=0)

re.search 扫描整个字符串并返回第一个成功的匹配。
函数语法： re.search(pattern, string, flags=0)

re.sub 替换字符串 re.sub(pattern,replace,string)

re.findall 查找全部 re.findall(pattern,string,flags=0)

Saint_HUFS 发表于 2020-4-30 15:09:14

永恒的蓝色梦想发表于 2020-4-30 14:23
就是把 line 中所有匹配 p1 的都替换成r'\2'

恩，可是我不理解替换函数里面<\id>的用法这个<\id>到底是什么？请问这里的\2指哪一部分呢？

Saint_HUFS 发表于 2020-4-30 15:10:20

Twilight6 发表于 2020-4-30 15:03
正则表达式常用方法：

re.match 尝试从字符串的起始位置匹配一个模式，如果不是起始位置匹配成功的话，m ...

恩，可是我不理解sub替换函数里面<\id>的用法这个<\id>到底是什么？所以想请问这里的\2指哪一部分呢？

永恒的蓝色梦想 发表于 2020-4-30 15:12:42

Saint_HUFS 发表于 2020-4-30 15:09
恩，可是我不理解替换函数里面的用法这个到底是什么？请问这里的\2指哪一部分呢？

\2 是被替换成 \2

Twilight6 发表于 2020-4-30 18:35:42

本帖最后由 Twilight6 于 2020-4-30 18:43 编辑

Saint_HUFS 发表于 2020-4-30 15:10
恩，可是我不理解sub替换函数里面的用法这个到底是什么？所以想请问这里的\2指哪一部分呢？

这个是html的，python只是读取网页，提取数据，没有<\id><id>的用法

p1.sub(r'\2', line) 是将p1里的数据里的\2的字符串都替换为line的字符串

页: [1]

鱼C论坛's Archiver

关于正则表达式的问题