[已解决]re.findall('正文(.*?)</tbody>', data, re.S)[0]最后[0]表示什么

15067441343 · 发表于 2023-6-21 22:58:25

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

toc_url_list = []
toc_block = re.findall('正文(.*?)</tbody>', data, re.S)[0]
toc_url = re.findall('href="(.*?)"', toc_block, re.S)
for url in toc_url:
toc_url_list.append(start_url + url)
print(toc_block)
运行代码后，标红这行代码，去掉最后[0]横着显示。不去[0]，竖着显示。大神帮解释下，谢谢了

最佳答案

月排行榜 / 总排行榜

sfqxx

2023-6-21 23:06:53

这行代码中使用了Python内置的re（正则表达式）模块的findall函数，在指定范围内，查找所有匹配某个特定正则表达式的字符串，并将它们以列表的形式返回。

具体来说，这行代码的作用是从字符串data中匹配出包含字符串“正文”和</tbody>之间的部分，然后通过re.findall函数提取其中所有以“href=”开头的字符串，即链接URL。所以得到的结果是一个包含多个URL链接的列表toc_url。

如果不去掉最后的[0]，输出结果将以包含所有匹配结果的列表形式展示，每个匹配结果为列表中的一个元素。如果去掉最后的[0]，输出结果将只展示第一个匹配结果，以单个字符串的形式展示。

求最佳答案

跳转到最佳答案楼层

sfqxx · 发表于 2023-6-21 23:06:53

这行代码中使用了Python内置的re（正则表达式）模块的findall函数，在指定范围内，查找所有匹配某个特定正则表达式的字符串，并将它们以列表的形式返回。

具体来说，这行代码的作用是从字符串data中匹配出包含字符串“正文”和</tbody>之间的部分，然后通过re.findall函数提取其中所有以“href=”开头的字符串，即链接URL。所以得到的结果是一个包含多个URL链接的列表toc_url。

如果不去掉最后的[0]，输出结果将以包含所有匹配结果的列表形式展示，每个匹配结果为列表中的一个元素。如果去掉最后的[0]，输出结果将只展示第一个匹配结果，以单个字符串的形式展示。

求最佳答案

isdkz · 发表于 2023-6-21 23:07:11

从你提供的Python代码片段来看，这里的  [0]  是Python中列表索引的概念。

在Python中，列表是一种有序的集合，可以通过索引来访问其中的每一个元素。索引是从0开始的。因此， [0]  就是访问列表中的第一个元素。

代码  re.findall('正文(.*?)</tbody>', data, re.S)  是使用正则表达式在数据  data  中查找所有匹配  '正文(.*?)</tbody>'  模式的字符串。 re.findall  函数会返回一个列表，其中包含所有的匹配项。因此， [0]  就是获取这个结果列表中的第一个匹配项。

如果你去掉  [0] ，那么  re.findall  返回的就是一个包含所有匹配项的列表，而不仅仅是第一个匹配项。

至于你提到的横着显示和竖着显示，我想这可能与你使用的环境或者打印方式有关。如果你直接打印一个列表，通常每个元素会占据一行，看起来像是竖着显示。而如果你打印列表的单个元素，那就会看起来像是横着显示。

希望这能解答你的问题，如果还有其他疑问，欢迎继续提问！

歌者文明清理员 · 发表于 2023-6-21 23:13:57

sfqxx 发表于 2023-6-21 23:06
这行代码中使用了Python内置的re（正则表达式）模块的findall函数，在指定范围内，查找所有匹配某个特定正 ...

az

陶远航 · 发表于 2023-6-22 20:46:58

这段代码中标红的一行是使用正则表达式（re模块）在字符串 data 中查找 <tbody> 标签之前的内容，并提取其中以 href 开头的URL链接。 '正文(.*?)</tbody>' 作为正则表达式的模式，表示匹配以 '正文' 开始，随后是任意字符（非贪婪模式），并以 '</tbody>' 结束的部分。

通过使用 re.findall() 函数，可以获取到所有符合模式的结果，这些结果被存储在 toc_url 列表中。接下来，代码将遍历 toc_url 列表中的每个URL，并添加一个完整的URL路径（由 start_url 和 URL半链接构成）到 toc_url_list 列表中。

如果去掉标红的该行代码 [0]，则不仅仅提取第一个匹配的URL链接，而是提取所有匹配的URL链接。因此，最终的输出列表 toc_url_list 将包含所有在 toc_block 中找到的URL链接。

liuhongrun2022 · 发表于 2023-6-24 10:22:20

歌者文明清理员发表于 2023-6-21 23:13
az

az

账号		自动登录	找回密码
密码			立即注册

[已解决]re.findall('正文(.*?)</tbody>', data, re.S)[0]最后[0]表示什么

马上注册，结交更多好友，享用更多功能^_^

浏览过的版块