鱼C论坛

 找回密码
 立即注册
查看: 2961|回复: 8

[已解决]bs4

[复制链接]
发表于 2023-5-7 14:32:25 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
  1. from bs4 import BeautifulSoup
  2. soup = BeautifulSoup('''<html>
  3. <head>
  4.   <meta charset='utf-8'>
  5. </head>
  6. <body>
  7.   <div>
  8.    <p id="myid" class="test">1</p>
  9.   </div>
  10.   <div>
  11.    <span>Span</span>
  12.   </div>
  13. </body>
  14. </html>''')
复制代码

两个问题:
  • 已有变量 tag = soup.findAll('div')[0],请问如何选取 tag 的父节点
  • 如何获取 tag 的子节点 p 的 id 和 class?最好多列几种方法
最佳答案
2023-5-7 14:36:31
1. 要选取  tag  的父节点,您可以使用  parent  属性。例如:

  1. parent_node = tag.parent
复制代码


2. 要获取  tag  的子节点  p  的  id  和  class  属性,有以下几种方法:

方法一:使用  find  函数,并通过属性作为参数直接获取属性值。

  1. p_tag = tag.find('p')
  2. p_id = p_tag['id']
  3. p_class = p_tag['class']
复制代码


方法二:使用  find  函数获取  p  标签,然后使用  get  函数来获取属性值。

  1. p_tag = tag.find('p')
  2. p_id = p_tag.get('id')
  3. p_class = p_tag.get('class')
复制代码


方法三:使用  select_one  函数获取  p  标签,并通过属性作为参数直接获取属性值。

  1. p_tag = tag.select_one('p')
  2. p_id = p_tag['id']
  3. p_class = p_tag['class']
复制代码


方法四:使用  select_one  函数获取  p  标签,然后使用  get  函数来获取属性值。

  1. p_tag = tag.select_one('p')
  2. p_id = p_tag.get('id')
  3. p_class = p_tag.get('class')
复制代码


有多种方法可以达到获取 p 标签属性值的目的,根据您的需求选择适合的方法。
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2023-5-7 14:34:26 | 显示全部楼层
1.你可以用以下方法来选取 tag 的父节点:
  1. tag = soup.findAll('div')[0]
  2. parent = tag.parent # 获取 tag 的直接父节点
  3. parents = tag.parents # 获取 tag 的所有祖先节点,返回一个生成器
复制代码

你可以用以下方法来获取 tag 的子节点 p 的 id 和 class:
  1. tag = soup.findAll('div')[0]
  2. p = tag.find('p') # 获取 tag 的第一个子节点 p
  3. p_id = p['id'] # 获取 p 的 id 属性
  4. p_class = p['class'] # 获取 p 的 class 属性
复制代码

希望这些信息对你有帮助。
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-5-7 14:36:31 | 显示全部楼层    本楼为最佳答案   
1. 要选取  tag  的父节点,您可以使用  parent  属性。例如:

  1. parent_node = tag.parent
复制代码


2. 要获取  tag  的子节点  p  的  id  和  class  属性,有以下几种方法:

方法一:使用  find  函数,并通过属性作为参数直接获取属性值。

  1. p_tag = tag.find('p')
  2. p_id = p_tag['id']
  3. p_class = p_tag['class']
复制代码


方法二:使用  find  函数获取  p  标签,然后使用  get  函数来获取属性值。

  1. p_tag = tag.find('p')
  2. p_id = p_tag.get('id')
  3. p_class = p_tag.get('class')
复制代码


方法三:使用  select_one  函数获取  p  标签,并通过属性作为参数直接获取属性值。

  1. p_tag = tag.select_one('p')
  2. p_id = p_tag['id']
  3. p_class = p_tag['class']
复制代码


方法四:使用  select_one  函数获取  p  标签,然后使用  get  函数来获取属性值。

  1. p_tag = tag.select_one('p')
  2. p_id = p_tag.get('id')
  3. p_class = p_tag.get('class')
复制代码


有多种方法可以达到获取 p 标签属性值的目的,根据您的需求选择适合的方法。
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2023-5-7 14:40:23 | 显示全部楼层
isdkz 发表于 2023-5-7 14:36
1. 要选取  tag  的父节点,您可以使用  parent  属性。例如:

还有一个问题,就是如何判断 tag 的子元素个数(不能是孙元素等等)
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-5-7 14:44:16 | 显示全部楼层
歌者文明清理员 发表于 2023-5-7 14:40
还有一个问题,就是如何判断 tag 的子元素个数(不能是孙元素等等)

要判断  tag  的直接子元素个数(不包括孙元素),您可以使用  children  属性。以下是一个例子:

  1. number_of_children = len(list(tag.children))
复制代码


这里我们首先从  tag  获取其直接子元素,然后将其转换为 Python 列表,最后使用  len  函数获得列表的长度,即子元素个数。请注意, children  仅包括直接子元素,不包括孙元素。
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2023-5-7 14:45:31 | 显示全部楼层
isdkz 发表于 2023-5-7 14:44
要判断  tag  的直接子元素个数(不包括孙元素),您可以使用  children  属性。以下是一个例子:

最后一个问题,如何判断一个子元素在父元素中的位置,类似于index
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-5-7 14:46:48 | 显示全部楼层
歌者文明清理员 发表于 2023-5-7 14:45
最后一个问题,如何判断一个子元素在父元素中的位置,类似于index

要确定子元素在父元素中的位置(类似于索引),您可以使用以下方法:

  1. def find_child_index(parent, target_child):
  2.     children_list = list(parent.children)
  3.     for index, child in enumerate(children_list):
  4.         if child == target_child:
  5.             return index
  6.     return -1  # 如果子元素不在父元素中,返回 -1
复制代码


在这个函数中,我们首先将父元素的  children  属性转换为 Python 列表。然后,我们遍历该列表并使用  enumerate  获取当前子元素的索引。如果找到目标子元素,则返回其索引。如果在父元素的子元素中找不到目标子元素,返回  -1 。

例如,使用以下代码获取子元素  span  在其父元素中的位置:

  1. span_tag = soup.find('span')
  2. parent = span_tag.parent
  3. child_index = find_child_index(parent, span_tag)
复制代码
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2023-5-7 14:47:25 | 显示全部楼层
isdkz 发表于 2023-5-7 14:46
要确定子元素在父元素中的位置(类似于索引),您可以使用以下方法:

直接children_list.index(target_child)可以吗
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-5-7 14:51:25 | 显示全部楼层
歌者文明清理员 发表于 2023-5-7 14:47
直接children_list.index(target_child)可以吗

抱歉刚刚没有考虑到这个更简洁的方法。是的,您可以直接使用  children_list.index(target_child)  来获取子元素在父元素中的位置。下面是修改后的代码:

  1. def find_child_index(parent, target_child):
  2.     children_list = list(parent.children)
  3.     try:
  4.         return children_list.index(target_child)
  5.     except ValueError:
  6.         return -1  # 如果子元素不在父元素中,返回 -1
复制代码


这个函数现在使用  index  方法查找目标子元素在  children_list  中的位置。如果找到目标子元素,将返回其索引;否则, index  方法将引发  ValueError  异常,我们捕获这个异常并返回  -1 。
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-6-29 02:51

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表