jump_p 发表于 2020-6-3 11:11:31

关于lxml

本帖最后由 jump_p 于 2020-6-3 11:16 编辑

import lxml.html

with open('xpath.html','r',encoding = 'utf-8') as f:
    html = lxml.html.fromstring(f.read())
   
print('HTML对象:{}'.format(html))

print('\n实例一:选择所有的<div>元素(2个):')
all_div = html.xpath('//div')
print(all_div)

以上这段代码,html = lxml.html.fromstring(f.read()) 的作用是将保存在xpath.html中的HTML代码转换成HTML对象,
HTML对象是什么意思?

Twilight6 发表于 2020-6-3 11:21:08

lxml.html是个解析器,把他转成 html 对象后就可以用 xpath 提取数据了

Twilight6 发表于 2020-6-3 11:23:13

Python中的 HTML 对象类型,你这样问就好比问对象是什么了

jump_p 发表于 2020-6-3 11:24:33

Twilight6 发表于 2020-6-3 11:21
lxml.html是个解析器,把他转成 html 对象后就可以用 xpath 提取数据了

所以HTML对象是一个抽象的概念?转换成对象等同于解析HTML代码的意思?

Twilight6 发表于 2020-6-3 11:27:00

jump_p 发表于 2020-6-3 11:24
所以HTML对象是一个抽象的概念?转换成对象等同于解析HTML代码的意思?

他就是区分是什么类型的对象,比如numpy数组是 ndarray 对象你这的 html 就是HTML对象

jump_p 发表于 2020-6-3 12:32:31

Twilight6 发表于 2020-6-3 11:27
他就是区分是什么类型的对象,比如numpy数组是 ndarray 对象你这的 html 就是HTML对象

哦!就像类的实例化对象,对吧?

Twilight6 发表于 2020-6-3 12:49:18

jump_p 发表于 2020-6-3 12:32
哦!就像类的实例化对象,对吧?

{:10_245:}不对吧噗    和类的实例化有区别   你就只要记得是一种分类作用吧   比如 字符串类型 整型 这样的作用

jump_p 发表于 2020-6-3 13:04:57

Twilight6 发表于 2020-6-3 12:49
不对吧噗    和类的实例化有区别   你就只要记得是一种分类作用吧   比如 字符串类型 整型 这 ...

嗯,我简单理解就是转换成可供Xpath分析的对象{:10_291:}

Twilight6 发表于 2020-6-3 13:07:58

jump_p 发表于 2020-6-3 13:04
嗯,我简单理解就是转换成可供Xpath分析的对象

{:10_266:}嗯

jump_p 发表于 2020-6-3 13:08:56

Twilight6 发表于 2020-6-3 13:07


{:10_266:}
页: [1]
查看完整版本: 关于lxml