|
发表于 2023-11-14 21:24:50
|
显示全部楼层
本楼为最佳答案
BeautifulSoup库提供了丰富的方法和属性来解析和处理HTML/XML文档。其中一些常用的方法和属性包括:
1. find() 方法:用于查找符合条件的第一个标签。
2. find_all() 方法:用于查找符合条件的所有标签。
3. text 属性:用于获取标签内的文本内容。
4. get() 方法:用于获取标签的属性值。
5. children 属性:用于获取子标签的迭代器。
6. parent 属性:用于获取父标签。
使用方法和属性的示例代码如下:
- from bs4 import BeautifulSoup
- html_doc = """
- <html><head><title>测试</title></head>
- <body>
- <p class="title"><b>BeautifulSoup库方法和属性</b></p>
- <p class="description">详细介绍BeautifulSoup库的方法和属性。</p>
- </body></html>
- """
- soup = BeautifulSoup(html_doc, 'html.parser')
- # 使用 find() 方法查找标签
- title_tag = soup.find('title')
- print(title_tag)
- # 使用 text 属性获取文本内容
- print(title_tag.text)
- # 使用 find_all() 方法查找所有符合条件的标签
- p_tags = soup.find_all('p')
- for tag in p_tags:
- print(tag.text)
- # 使用 get() 方法获取标签的属性值
- p_tag = soup.find('p', {'class': 'title'})
- print(p_tag.get('class'))
- # 使用 children 属性获取子标签
- for child in p_tag.children:
- print(child)
- # 使用 parent 属性获取父标签
- print(title_tag.parent)
复制代码
关于BeautifulSoup库的更多方法和属性的详细使用方法,可以参考官方文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc/ |
|