鱼C论坛

 找回密码
 立即注册
查看: 4194|回复: 0

[技术交流] python爬虫进阶BeautifulSoup对象【1】

[复制链接]
发表于 2017-7-9 14:35:53 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
本帖最后由 MSK 于 2017-7-10 11:25 编辑

BeautifulSoup初窥中,我们初步了解了BeautifulSoup,这一节我们将介绍
BeautifulSoup对象
推荐阅读:BeautifulSoup节点





[b]Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种:


Tag ,

NavigableString,

BeautifulSoup ,

Comment .[/b]




[b]

Tag对象
[/b]

Tag 对象与XML或HTML原生文档中的tag相同:

soup = BeautifulSoup('<b class="boldest">Extremely bold</b>')
tag = soup.b
type(tag)
# <class 'bs4.element.Tag'>



属性


1.Name
每个tag都有自己的名字(标签名),通过 .name 来获取:

tag.name
# u'b'

如果对Tag进行修改,那将影响所有通过当前Beautiful Soup对象生成的HTML文档:

tag.name = "blockquote"
tag
# <blockquote class="boldest">Extremely bold</blockquote>


2.Attributes




一个tag可能有很多个属性. tag <b class="boldest"> 有一个 “class” 的属性,值为 “boldest” . tag的属性的操作方法与字典相同:
tag['class']
# u'boldest'




也可以直接”点”取属性, 比如: .attrs :
tag.attrs
# {u'class': u'boldest'}




tag的属性可以被添加,删除或修改. 再说一次, tag的属性操作方法与字典一样

tag['class'] = 'verybold'
tag['id'] = 1
tag
# <blockquote class="verybold" id="1">Extremely bold</blockquote>

del tag['class']
del tag['id']
tag
# <blockquote>Extremely bold</blockquote>

tag['class']
# KeyError: 'class'
print(tag.get('class'))
# None




[b]

NavigableString对象
[/b]



字符串常被包含在tag内.Beautiful Soup用 NavigableString 类来包装tag中的字符串:



tag.string
# u'Extremely bold'
type(tag.string)
# <class 'bs4.element.NavigableString'>



tag中包含的字符串不能编辑,但是可以被替换成其它的字符串,用 replace_with() 方法:


tag.string.replace_with("No longer bold")
tag
# <blockquote>No longer bold</blockquote>





[b]

BeautifulSoup对象
[/b]



BeautifulSoup 对象表示的是一个文档的全部内容.大部分时候,可以把它当作 Tag 对象
其实就是生成的soup



soup.name
# u'[document]'



[b]

Comment对象
[/b]



Comment 对象就是html文档的注释,是一个特殊类型的 NavigableString 对象:




temp = "<b><!--Hey, buddy. Want to buy a used parser?--></b>"
soup = BeautifulSoup(temp,'html.parser')
comment = soup.b.string
type(comment)
# <class 'bs4.element.Comment'>

评分

参与人数 2鱼币 +5 收起 理由
小甲鱼 + 3
康小泡 + 2

查看全部评分

本帖被以下淘专辑推荐:

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-11-24 18:35

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表