鱼C论坛

 找回密码
 立即注册
查看: 2732|回复: 6

正则如何匹配网页上的中文??

[复制链接]
发表于 2016-6-6 09:37:59 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
<span id="txtCity">吉林</span> 用.匹配不出字符串中的中文???
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2016-6-6 10:27:42 | 显示全部楼层
本帖最后由 挥舞乾坤 于 2016-6-6 10:30 编辑

给你个我自己用的取文本的函数,不是很完美有些时候会报错,不过绝大多数时候可以用
  1. import re

  2. def qwb(text, start_str, end_str):
  3.     cmp = re.compile(start_str+'(.*?)'+end_str,re.S)
  4.     result = cmp.search(text)
  5.     return result and result.group(1)

  6. if __name__ == '__main__':
  7.     text = '<span id="txtCity">吉林</span>'

  8.     s1 = 'id="txtCity">'
  9.     s2 = '</span>'
  10.     print(qwb(text,s1,s2))
复制代码
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2016-6-6 14:51:31 | 显示全部楼层
挥舞乾坤 发表于 2016-6-6 10:27
给你个我自己用的取文本的函数,不是很完美有些时候会报错,不过绝大多数时候可以用

嗯嗯,能不能用findall方法?
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2016-6-6 15:30:24 | 显示全部楼层
西风碧树 发表于 2016-6-6 14:51
嗯嗯,能不能用findall方法?

可以用findall,不过需要注意一下,没匹配到结果的情况下,返回空列表,如果用下标访问,会越界,需要判断一下
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2016-6-6 16:32:56 | 显示全部楼层
同求~
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2016-6-6 17:12:30 | 显示全部楼层
挥舞乾坤 发表于 2016-6-6 15:30
可以用findall,不过需要注意一下,没匹配到结果的情况下,返回空列表,如果用下标访问,会越界,需要判断一下

嗯嗯,我想获得爬来网页中的中文啊,比如爬糗事百科中的文字
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2016-6-12 15:24:23 | 显示全部楼层
findall
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2026-2-21 06:38

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表