[已解决]关于正则表达式的

昼临明麟 · 发表于 2019-7-23 22:59:08

import urllib.request
import re
def get_url(url):
req = urllib.request.Request(url)
req.add_header("User-Agent","""Mozilla/5.0 (Windows NT 10.0; Win64; x64)
AppleWebKit/537.36 (KHTML, like Gecko)
Chrome/64.0.3282.140 Safari/537.36 Edge/18.17763)"""
)
page = urllib.request.urlopen(req)
html = page.read().decode("utf-8")

return html
def get_id(html):
id_360 = r'((\d|[a-z]){32})'
id_list = re.findall(id_360,html)
print(id_list)
if __name__ == '__main__':
url = "http://image.so.com/i?q=%E5%8A%A8%E6%BC%AB%E5%A3%81%E7%BA%B8&src=srp&bz_parent=45&bz_child=67&bz_color=&bz_width=1536&bz_height=864&box=box_bz&bz_type=pc#/"
get_id(get_url(url))

我只想要前面那一串东西，怎么搞，为什么会出现后面那单独的一个。
求个答案
???????????????????????????????????

最佳答案

月排行榜 / 总排行榜

graceasyi

2019-7-23 22:59:09

id_360 = r'((\d|[a-z]){32})' 这一句应该改成：id_360 = r'[\da-z]{32}'

小括号() 是为了提取匹配的字符串。表达式中有几个()就有几个相应的匹配字符串。
比如：re.findall(r'(\d)(\d)',"93ed56ae") ，结果：[('9', '3'), ('5', '6')]

中括号[] 是定义匹配的字符范围。所以这里应该用中括号：[\da-z]

跳转到最佳答案楼层

graceasyi · 发表于 2019-7-23 22:59:09

这个最佳答案由 graceasyi 给出，感谢 graceasyi 的回答。

单击隐藏图章

id_360 = r'((\d|[a-z]){32})' 这一句应该改成：id_360 = r'[\da-z]{32}'

小括号() 是为了提取匹配的字符串。表达式中有几个()就有几个相应的匹配字符串。
比如：re.findall(r'(\d)(\d)',"93ed56ae") ，结果：[('9', '3'), ('5', '6')]

中括号[] 是定义匹配的字符范围。所以这里应该用中括号：[\da-z]

wp231957 · 发表于 2019-7-24 08:51:45

挺奇怪的那一串串字符都再哪里放着呢我查看源码里面也没有啊

ietar · 发表于 2019-7-24 09:50:30

本帖最后由 ietar 于 2019-7-24 10:03 编辑

排版好乱建议用'[code]' 把代码封装起来

匹配模式的问题
id_360 = r'[\da-z]{32}'
就行了
原因不太清楚=。=

原因大概查了下按照楼主的模式写法是2个匹配组匹配组1是那个长度32的匹配组2是那个小写字母或数字
于是返回的列表每个元素都是元组分别对应匹配组1和匹配组2

阴文强 · 发表于 2019-7-24 15:02:34

。。。萌新表示听不懂

DT_Nelson · 发表于 2019-7-24 15:48:11

re.findall()会把你写的所有分组都以元组的形式显示出来
如果不想要，就用

for a, b in id_list:
print(a)

复制代码

账号		自动登录	找回密码
密码			立即注册