马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册
x
本帖最后由 MSK 于 2017-7-10 11:25 编辑
在BeautifulSoup初窥中,我们初步了解了BeautifulSoup,这一节我们将介绍
BeautifulSoup对象
推荐阅读:BeautifulSoup节点
[b]Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种:
Tag ,
NavigableString,
BeautifulSoup ,
Comment .[/b]
[b]
Tag对象 [/b]
Tag 对象与XML或HTML原生文档中的tag相同:
soup = BeautifulSoup('<b class="boldest">Extremely bold</b>')
tag = soup.b
type(tag)
# <class 'bs4.element.Tag'>
属性
1.Name
每个tag都有自己的名字(标签名),通过 .name 来获取:
如果对Tag进行修改,那将影响所有通过当前Beautiful Soup对象生成的HTML文档:
tag.name = "blockquote"
tag
# <blockquote class="boldest">Extremely bold</blockquote>
2.Attributes
一个tag可能有很多个属性. tag <b class="boldest"> 有一个 “class” 的属性,值为 “boldest” . tag的属性的操作方法与字典相同:
tag['class']
# u'boldest'
也可以直接”点”取属性, 比如: .attrs :
tag.attrs
# {u'class': u'boldest'}
tag的属性可以被添加,删除或修改. 再说一次, tag的属性操作方法与字典一样
tag['class'] = 'verybold'
tag['id'] = 1
tag
# <blockquote class="verybold" id="1">Extremely bold</blockquote>
del tag['class']
del tag['id']
tag
# <blockquote>Extremely bold</blockquote>
tag['class']
# KeyError: 'class'
print(tag.get('class'))
# None
[b]
NavigableString对象 [/b]
字符串常被包含在tag内.Beautiful Soup用 NavigableString 类来包装tag中的字符串:
tag.string
# u'Extremely bold'
type(tag.string)
# <class 'bs4.element.NavigableString'>
tag中包含的字符串不能编辑,但是可以被替换成其它的字符串,用 replace_with() 方法:
tag.string.replace_with("No longer bold")
tag
# <blockquote>No longer bold</blockquote>
[b]
BeautifulSoup对象 [/b]
BeautifulSoup 对象表示的是一个文档的全部内容.大部分时候,可以把它当作 Tag 对象
其实就是生成的soup
soup.name
# u'[document]'
[b]
Comment对象 [/b]
Comment 对象就是html文档的注释,是一个特殊类型的 NavigableString 对象:
temp = "<b><!--Hey, buddy. Want to buy a used parser?--></b>"
soup = BeautifulSoup(temp,'html.parser')
comment = soup.b.string
type(comment)
# <class 'bs4.element.Comment'>
|