Amgalang 发表于 2021-11-24 19:49:56

提取两个字符中间的内容,谢谢

您好,我有一个A.txt 其中的一行数据如下“词典示例内容”所示。我想读取A.txt 提取以“【”符号开始以“᠃”符号结束的中间内容。其中让人头疼的是“【”符号后面有多个“᠃”符号的情况。这时,我想提取最后面那个“᠃”和“【”中间的内容。然后一个数据一行的保存。希望得到您的帮助,谢谢。

词典示例内容:(不是乱码,时utf-8的文本)
ᠶᠡᠭᠡ#их ᠪᠡᠭ᠎ᠠ ᠭᠡᠳᠡᠭ ᠲᠡᠢ ᠡᠰᠡᠷᠬᠦᠴᠡᠯᠳᠦᠭᠰᠡᠠ ᠤᠤᠡᠬ᠎ᠠ᠃ ① ᠭᠡᠮᠵᠢᠶ᠎ᠠ ᠪᠡᠷ ᠤᠢᠯᠡᠮᠵᠢ᠄ ᠶᠡᠭᠡ ᠬᠤᠳᠠ; ᠶᠡᠭᠡ ᠤᠰᠦᠳᠡᠢ ᠭᠤᠦᠯ; ᠶᠡᠭᠡ ᠭᠤᠪᠢ ᠵᠢᠠ ᠵᠤᠷᠢᠬᠳᠡᠠ᠃ 【ᠶᠡᠭᠡ ᠪᠡᠶ᠎ᠠ】 ᠬᠦᠪᠴᠢᠠ ᠪᠡᠶ᠎ᠠ᠃【ᠶᠡᠭᠡ ᠪᠡᠷᠢᠯᠭ᠎ᠠ】 ᠰᠢᠨ᠎ᠡ ᠪᠡᠷ ᠪᠡᠷᠢᠬᠤ ᠪᠡᠷᠢᠯᠭ᠎ᠠ᠄ ᠶᠡᠭᠡ ᠪᠡᠷᠢᠯᠭ᠎ᠠ ᠵᠢᠠ ᠭᠡᠯᠳᠡᠰ; ᠪᠡᠷᠢᠯᠭ᠎ᠠ ᠵᠢᠠ ᠲᠤᠢᠯᠦᠪᠯᠡᠭᠡ᠃ 【ᠶᠡᠭᠡ ᠲᠡᠯᠭᠡᠬᠦᠷ】 ᠲᠤᠢᠷᠦᠯ ᠪᠦᠷᠢ ᠵᠢᠠ ᠪᠡᠷᠡᠭ᠎ᠠ ᠶᠡᠭᠤᠮ᠎ᠠ ᠬᠤᠳᠡᠯᠳᠦᠬᠤ ᠲᠡᠯᠭᠡᠬᠦᠷ᠃ 【ᠶᠡᠭᠡ ᠫᠤᠦ】 ᠰᠤᠮᠦ ᠨᠢ ᠬᠤᠯᠠ ᠭᠠᠵᠡᠷ ᠨᠢᠰᠬᠦ ᠨᠢᠭᠡ ᠵᠤᠢᠢᠯ ᠲᠤᠮᠦ ᠫᠤᠦ᠄ ᠲᠡᠩᠺ ᠡᠰᠡᠷᠬᠦᠴᠡᠬᠦ ᠶᠡᠭᠡ ᠫᠤᠦ᠃ 【ᠶᠡᠭᠡ ᠪᠦᠷᠢᠶ᠎ᠠ】 ᠪᠦᠳᠦᠬᠦᠠ ᠲᠤᠤᠭᠠᠷᠡᠬᠤ ᠨᠢᠭᠡ ᠵᠤᠢᠢᠯ ᠤᠢᠯᠢᠶᠡᠪᠦᠷᠢ ᠬᠦᠭᠵᠢᠮ ᠤᠨ ᠵᠡᠪᠰᠡᠭ᠃ 【ᠶᠡᠭᠡ ᠴᠡᠷᠢᠭ】 А ᠡᠯᠳᠡᠪ ᠵᠡᠪᠰᠡᠭ ᠪᠦᠬᠦᠢ ᠤᠢᠯᠡᠮᠵᠢ ᠴᠡᠷᠢᠭ᠃ Б ᠭᠤᠦᠯ ᠬᠦᠴᠦᠠ᠃

想要得到的结果:
【ᠶᠡᠭᠡ ᠪᠡᠶ᠎ᠠ】 ᠬᠦᠪᠴᠢᠠ ᠪᠡᠶ᠎ᠠ᠃
【ᠶᠡᠭᠡ ᠪᠡᠷᠢᠯᠭ᠎ᠠ】 ᠰᠢᠨ᠎ᠡ ᠪᠡᠷ ᠪᠡᠷᠢᠬᠤ ᠪᠡᠷᠢᠯᠭ᠎ᠠ᠄ ᠶᠡᠭᠡ ᠪᠡᠷᠢᠯᠭ᠎ᠠ ᠵᠢᠠ ᠭᠡᠯᠳᠡᠰ; ᠪᠡᠷᠢᠯᠭ᠎ᠠ ᠵᠢᠠ ᠲᠤᠢᠯᠦᠪᠯᠡᠭᠡ᠃
【ᠶᠡᠭᠡ ᠲᠡᠯᠭᠡᠬᠦᠷ】 ᠲᠤᠢᠷᠦᠯ ᠪᠦᠷᠢ ᠵᠢᠠ ᠪᠡᠷᠡᠭ᠎ᠠ ᠶᠡᠭᠤᠮ᠎ᠠ ᠬᠤᠳᠡᠯᠳᠦᠬᠤ ᠲᠡᠯᠭᠡᠬᠦᠷ᠃
【ᠶᠡᠭᠡ ᠫᠤᠦ】 ᠰᠤᠮᠦ ᠨᠢ ᠬᠤᠯᠠ ᠭᠠᠵᠡᠷ ᠨᠢᠰᠬᠦ ᠨᠢᠭᠡ ᠵᠤᠢᠢᠯ ᠲᠤᠮᠦ ᠫᠤᠦ᠄ ᠲᠡᠩᠺ ᠡᠰᠡᠷᠬᠦᠴᠡᠬᠦ ᠶᠡᠭᠡ ᠫᠤᠦ᠃
【ᠶᠡᠭᠡ ᠪᠦᠷᠢᠶ᠎ᠠ】 ᠪᠦᠳᠦᠬᠦᠠ ᠲᠤᠤᠭᠠᠷᠡᠬᠤ ᠨᠢᠭᠡ ᠵᠤᠢᠢᠯ ᠤᠢᠯᠢᠶᠡᠪᠦᠷᠢ ᠬᠦᠭᠵᠢᠮ ᠤᠨ ᠵᠡᠪᠰᠡᠭ᠃
【ᠶᠡᠭᠡ ᠴᠡᠷᠢᠭ】 А ᠡᠯᠳᠡᠪ ᠵᠡᠪᠰᠡᠭ ᠪᠦᠬᠦᠢ ᠤᠢᠯᠡᠮᠵᠢ ᠴᠡᠷᠢᠭ᠃ Б ᠭᠤᠦᠯ ᠬᠦᠴᠦᠠ᠃

Amgalang 发表于 2021-11-24 19:56:08

我的文档上传后,真出现乱码了,不好意思,请大家 看这一条。想要提取“【”开头,“.”结尾的中间内容,其中“【”符号后面有多个“.”符号的情况。这时,我想提取最后面那个“.”和“【”中间的内容。然后一个数据一行的保存。
词典示例内容:
【AB】11111111111.【CC】A2222222222.B3333333333.

想要得到的结果:
【AB】11111111111.
【CC】A2222222222.B3333333333.

人造人 发表于 2021-11-24 20:10:40

本帖最后由 人造人 于 2021-11-24 20:11 编辑

>>> text
'【AB】11111111111.【CC】A2222222222.B3333333333.'
>>> re.findall(r'【[^【]*', text)
['【AB】11111111111.', '【CC】A2222222222.B3333333333.']
>>>

Amgalang 发表于 2021-11-24 20:12:05

人造人 发表于 2021-11-24 20:10


谢谢您的帮助{:10_287:}

人造人 发表于 2021-11-24 20:12:21

正则表达式我改了一下,去掉了括号
页: [1]
查看完整版本: 提取两个字符中间的内容,谢谢