[已解决]求教这段代码什么意思！各位大神求详解

takehsi · 发表于 2017-12-1 17:12:37

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

r = requests.get(urls).content
pattern = re.compile('<cite>(.*?)</cite>')
a = re.findall(pattern,r)
b = '\n'.join(a).replace('', '').replace('', '')

求教这段代码什么意思！各位大神求详解

r = requests.get(urls).content
pattern = re.compile('<cite>(.*?)</cite>')
a = re.findall(pattern,r)
b = '\n'.join(a).replace('', '').replace('', '')

复制代码

最佳答案

月排行榜 / 总排行榜

YY杰

2017-12-1 17:28:22

本帖最后由 YY杰于 2017-12-1 17:35 编辑

r = requests.get(urls).content # 把地址-urls中的文字内容保存到变量 r 里
pattern = re.compile('<cite>(.*?)</cite>') # 定义非贪婪模式的正则表达式
a = re.findall(pattern,r) # 按照表达式从r中抽取所有以“<cite>”开头，以“</cite>”结尾的字符串片段（但不包含头尾），将所有字符串片段保存到列表（list）a中
b = '\n'.join(a).replace('', '').replace('', '') # 这块分两部分说①b='\n'.join(a) --> 把列表a中的字符串元素用换行符（'\n'）连起来，变成一个大字符串
# .replace('', '').replace('','') # ②把连起来的大字符串中，所有''和''替换成空字符''，换句话说就是去掉大字符串中的上述两个子串
"""
举个例子
假设r的内容为 " 123<cite>12312</cite>abc -----\n <cite>45645</cite>789</cite>"
那么a的内容就是["12312", "45645"] #最后的</cite>会被无视
经过join之后的大字符串就是 "12312\n45645"
再经过replace就变成了"12312\n45645"
"""

复制代码

总结来说就是从一段xml中找到所有符合<cite>...</cite>的句式，抠出来其中的内容用换行符连接成新的字符串，并且去掉其中的和

跳转到最佳答案楼层

YY杰 · 发表于 2017-12-1 17:28:22

本帖最后由 YY杰于 2017-12-1 17:35 编辑

r = requests.get(urls).content # 把地址-urls中的文字内容保存到变量 r 里
pattern = re.compile('<cite>(.*?)</cite>') # 定义非贪婪模式的正则表达式
a = re.findall(pattern,r) # 按照表达式从r中抽取所有以“<cite>”开头，以“</cite>”结尾的字符串片段（但不包含头尾），将所有字符串片段保存到列表（list）a中
b = '\n'.join(a).replace('', '').replace('', '') # 这块分两部分说①b='\n'.join(a) --> 把列表a中的字符串元素用换行符（'\n'）连起来，变成一个大字符串
# .replace('', '').replace('','') # ②把连起来的大字符串中，所有''和''替换成空字符''，换句话说就是去掉大字符串中的上述两个子串
"""
举个例子
假设r的内容为 " 123<cite>12312</cite>abc -----\n <cite>45645</cite>789</cite>"
那么a的内容就是["12312", "45645"] #最后的</cite>会被无视
经过join之后的大字符串就是 "12312\n45645"
再经过replace就变成了"12312\n45645"
"""

复制代码

总结来说就是从一段xml中找到所有符合<cite>...</cite>的句式，抠出来其中的内容用换行符连接成新的字符串，并且去掉其中的和

takehsi · 发表于 2017-12-2 10:00:28

YY杰发表于 2017-12-1 17:28
总结来说就是从一段xml中找到所有符合...的句式，抠出来其中的内容用换行符连接成新的字符串，并且 ...

怎么转为python3的写法啊？？

我是初学改后报 TypeError: cannot use a string pattern on a bytes-like object
百度了一下没找到答案
怎么解决额？

YY杰 · 发表于 2017-12-2 10:47:44

takehsi 发表于 2017-12-2 10:00
怎么转为python3的写法啊？？

我是初学改后报 TypeError: cannot use a string pattern on a bytes-li ...

#py2：
r = requests.get(urls).content
#py3:
import urllib.request as urlr
r = urlr.urlopen(urls).read()

复制代码

takehsi · 发表于 2017-12-2 14:20:39

YY杰发表于 2017-12-2 10:47

一直提示
TypeError: cannot use a string pattern on a bytes-like object
这个错误怎么解决？？

takehsi · 发表于 2017-12-2 14:57:58

takehsi 发表于 2017-12-2 14:20
一直提示
TypeError: cannot use a string pattern on a bytes-like object
这个错误怎么解决？？

已解决谢谢了！！！

账号		自动登录	找回密码
密码			立即注册

[已解决]求教这段代码什么意思！各位大神求详解

马上注册，结交更多好友，享用更多功能^_^

浏览过的版块