|
马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册
x
本帖最后由 MSK 于 2017-7-10 11:25 编辑
在BeautifulSoup初窥中,我们初步了解了BeautifulSoup,这一节我们将介绍
BeautifulSoup对象
推荐阅读:BeautifulSoup节点
[b]Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种:
Tag ,
NavigableString,
BeautifulSoup ,
Comment .[/b]
[b]
Tag对象 [/b]
Tag 对象与XML或HTML原生文档中的tag相同:
- soup = BeautifulSoup('<b class="boldest">Extremely bold</b>')
- tag = soup.b
- type(tag)
- # <class 'bs4.element.Tag'>
复制代码
属性
1.Name
每个tag都有自己的名字(标签名),通过 .name 来获取:
如果对Tag进行修改,那将影响所有通过当前Beautiful Soup对象生成的HTML文档:
- tag.name = "blockquote"
- tag
- # <blockquote class="boldest">Extremely bold</blockquote>
复制代码
2.Attributes
一个tag可能有很多个属性. tag <b class="boldest"> 有一个 “class” 的属性,值为 “boldest” . tag的属性的操作方法与字典相同:
- tag['class']
- # u'boldest'
复制代码
也可以直接”点”取属性, 比如: .attrs :
- tag.attrs
- # {u'class': u'boldest'}
- [size=4]tag的属性可以被添加,删除或修改. 再说一次, tag的属性操作方法与字典一样[/size]
- tag['class'] = 'verybold'
- tag['id'] = 1
- tag
- # <blockquote class="verybold" id="1">Extremely bold</blockquote>
- del tag['class']
- del tag['id']
- tag
- # <blockquote>Extremely bold</blockquote>
- tag['class']
- # KeyError: 'class'
- print(tag.get('class'))
- # None
复制代码
[b]
NavigableString对象 [/b]
字符串常被包含在tag内.Beautiful Soup用 NavigableString 类来包装tag中的字符串:
- tag.string
- # u'Extremely bold'
- type(tag.string)
- # <class 'bs4.element.NavigableString'>
复制代码
tag中包含的字符串不能编辑,但是可以被替换成其它的字符串,用 replace_with() 方法:
- tag.string.replace_with("No longer bold")
- tag
- # <blockquote>No longer bold</blockquote>
复制代码
[b]
BeautifulSoup对象 [/b]
BeautifulSoup 对象表示的是一个文档的全部内容.大部分时候,可以把它当作 Tag 对象
其实就是生成的soup
- soup.name
- # u'[document]'
复制代码
[b]
Comment对象 [/b]
Comment 对象就是html文档的注释,是一个特殊类型的 NavigableString 对象:
- temp = "<b><!--Hey, buddy. Want to buy a used parser?--></b>"
- soup = BeautifulSoup(temp,'html.parser')
- comment = soup.b.string
- type(comment)
- # <class 'bs4.element.Comment'>
复制代码
|
评分
-
查看全部评分
|