-这- 发表于 2021-11-23 15:39:41

匹配中文字符

本帖最后由 -这- 于 2021-11-23 17:14 编辑

我想问下,我需要匹配(第一千二百二十章)这样格式的字符串,我的想法是如果目标字符串行中包含有'第','章'就输出,但是现在大段文字中有时会包含有两个中文目标,这就直接匹配上了,但是我只想提取符合的字符串行,正则还不太会,有能满足条件的代码吗

错误判断:'第一xxxxx,章法xxxxx'
正确判断:'第一千二百二十章'

suchocolate 发表于 2021-11-23 15:41:36

看你的需求是爬取小说,用xpath似乎更合理。
把你的代码发上来吧。

-这- 发表于 2021-11-23 15:53:46

suchocolate 发表于 2021-11-23 15:41
看你的需求是爬取小说,用xpath似乎更合理。
把你的代码发上来吧。

{:10_266:}不是爬取小说,只是单纯想匹配小说章节,我只想问问用正则怎么写

-这- 发表于 2021-11-23 15:57:55

suchocolate 发表于 2021-11-23 15:41
看你的需求是爬取小说,用xpath似乎更合理。
把你的代码发上来吧。

{:10_250:}因为我之前匹配‘第和‘’章’结果出现问题了

suchocolate 发表于 2021-11-23 17:07:31

-这- 发表于 2021-11-23 15:57
因为我之前匹配‘第和‘’章’结果出现问题了

把原始文本发一下吧,要考虑一下章后面的内容。

-这- 发表于 2021-11-23 17:14:16

suchocolate 发表于 2021-11-23 17:07
把原始文本发一下吧,要考虑一下章后面的内容。

{:10_297:}谢谢了,我已经弄出来了,还是非常感谢你的回复
if re.search(r'^第.*章.*', i)

suchocolate 发表于 2021-11-23 17:27:42

-这- 发表于 2021-11-23 17:14
谢谢了,我已经弄出来了,还是非常感谢你的回复

ok。
有问题继续后面补充
页: [1]
查看完整版本: 匹配中文字符