|
马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册
x
BeautifulSouop将复杂的HTML文档转换成一个复杂的树形结构,每个节点都是Python对象。所有对象可以归类为四种:
1.Tag:标签(即HTML中所有的标签,如<b><a><td><p><tr><li><img><title><head><html>等)
2.NavigabalString:字符串(即所有标签中的字符串。如:<a href="">homepage</a>中的homepage)
3.BeautifulSoup:表示的是一个文档的全部内容,大部分时候可以把它当做Tag对象,它支持遍历文档树和搜索文档树的全部内容。但是因为不是真正的HTML或XML的Tag,所以没有name和
attribute属性
4.Comment:即文档的注释部分,这是一个NavigabalString对象。
每一个对象都是一个节点。
访问标签名字:tag.name
访问标签所有属性:tag.attr
访问标签单个属性:tag['属性名']————和字典方法类似
赋值或更改属性值:tag['属性名'] = ‘值’
删除属性:del tag['属性名']
多值属性:访问时会以列表形式返回
字符串:字符串常常被包含在tag内,即NavigabalString类
方法:
tag.string:返回标签中的字符串节点(当标签中只有一个字符串对象,即不包含其他标签时,或者此标签的父标签只有这一个子标签节点并且父标签中没有字符串节点时才会返回字符串,否则会返回空值)
tag.strings:返回一个迭代器,包含所有子标签节点的字符串,包括tag标签。可用for循环遍历出来。
tag.stripped_strings:功能同上,但可以自动去除空字符。如全部是空格的行会被忽略,段首段尾的空白会被删除
tag.string.replace_with("替代字符串"):字符串不可被编辑,但可以被替换。
tag.find_all('标签名'):找到tag标签中所有的指定标签
tag.contents:将所有的子节点以列表的形式返回
tag.children:返回一个包含所有子节点的迭代器
tag.descendants:将一个标签中所有的子孙节点全部迭代返回。
tag.parent:返回最近的父节点
tag.parents:返回标签的所有父节点,一直到根节点位置
tag.next_sibling:下一个兄弟节点(即同层次的节点)
tag.previous_sibling:上一个兄弟节点
tag.next_siblings:迭代输出所有的下一个兄弟节点
tag.previous_siblings:迭代输出所有的上一个兄弟节点
tag.next_element:上一个元素
tag.previous_element:下一个元素
tag.next_elements:迭代器包含后面所有同级元素
tag.previous_elements:迭代器包含前面所有的同级元素
|
|