匹配btc查询网站的地址链接的问题

oooipussy · 发表于 2020-6-20 17:57:14

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

本帖最后由 oooipussy 于 2020-6-20 17:59 编辑

import urllib.request
import re
block = "0000000000000dc3998b2615c2a1754dd38eda2ab80624e9562873c5b20a4713"
block_url = "https://btc.com/" + block
block_page = '?page=2&order_by=tx_block_idx&asc=1'
print (block_url)
response = urllib.request.urlopen(block_url)
html = response.read().decode('utf-8','ignore')
result_next_block = re.search('(https://btc.com/)(\d(\w|\d){33})(")' , html)
print (result_next_block)

复制代码

上面是对某块网页的读取

在取地址的时候只能取得地址 33位而不是 34位为什么

我的正则刚刚学的
也就是这句:
result_next_block = re.search('(https://btc.com/)(\d(\w|\d){33})(")' , html)

结果是这样的:
https://btc.com/0000000000000dc3 ... 4e9562873c5b20a4713
<_sre.SRE_Match object; span=(17373, 17424), match='https://btc.com/16aMVLpAWj9zDXpooSx9WyXxkLEwgHwL6> 这里最后还应该有一个S ,也就是正确结果是16aMVLpAWj9zDXpooSx9WyXxkLEwgHwL6S
但是我为什么取不到?
哪里不对么?

oooipussy · 发表于 2020-6-21 18:34:33

无人?

suchocolate · 发表于 2020-6-21 19:56:01

本帖最后由 suchocolate 于 2020-6-21 20:37 编辑

你的匹配其实是能匹配的，用print打印一下可以看到第2子组就是：

print(result_next_block.groups())
('https://btc.com/', '16aMVLpAWj9zDXpooSx9WyXxkLEwgHwL6S', 'S', '"')
# 想获取第2子组：
print(result_next_block.group(2))

复制代码

不过我觉得没必要那么麻烦还要算位，还要考虑子组，可以直接匹配输出：

result_next_block = re.findall(r'href="https://btc.com/(.*?)" class="txio-address"', html)[0]
print(result_next_block)
16aMVLpAWj9zDXpooSx9WyXxkLEwgHwL6S

复制代码

oooice · 发表于 2020-6-22 11:06:54

suchocolate 发表于 2020-6-21 19:56
你的匹配其实是能匹配的，用print打印一下可以看到第2子组就是：
不过我觉得没必要那么麻烦还要算位，还要 ...

谢谢你！

账号		自动登录	找回密码
密码			立即注册