huashengzi 发表于 2020-9-11 10:33:09

python读取本地网页内容

本帖最后由 huashengzi 于 2020-9-11 13:45 编辑

“hello world”
在电脑里浏览器打开页面的情况下,能否用python读取网页的内容,不通过访问服务器。
求大神解答。

我想请教下,我听说(不确定)比如一些统计淘宝上商品价格的,是可以不用访问服务器,只根据页面内容就可以统计到,是否可行呢?

CH10 发表于 2020-9-11 10:44:12

{:10_306:}鼠标右键,网页另存为能达到你想要的的效果,如果你想获取网页链接里面的内容还是要一步步发起请求爬虫获取

suchocolate 发表于 2020-9-11 11:49:29

本帖最后由 suchocolate 于 2020-9-11 12:11 编辑

浏览器打开的网页已经加载到了浏览器的内存中(当然也有临时文件),其他程序不能直接读浏览器的内存。
你可以把浏览器的网页保存成文件,然后python open读取,之后交给html解析器处理。
不过这样到繁琐,建议还是用requests等去服务器get,然后交给html解析器。


另外,像lxml这样的解析器有读取本地html文件的函数:from lxml import etree

html = etree.parse('text.html', etree.HTMLParser())
result = html.xpath('//*')

huashengzi 发表于 2020-9-11 13:44:56

suchocolate 发表于 2020-9-11 11:49
浏览器打开的网页已经加载到了浏览器的内存中(当然也有临时文件),其他程序不能直接读浏览器的内存。
你 ...

是的,如果需要另存为文件再读取,就繁琐了。

我想请教下,我听说(不确定)比如一些统计淘宝上商品价格的,是可以不用访问服务器,只根据页面内容就可以统计到,是否可行呢?

wzdr 发表于 2020-9-11 14:02:46

{:10_256:}{:10_256:}

suchocolate 发表于 2020-9-11 18:39:41

本帖最后由 suchocolate 于 2020-9-11 18:47 编辑

huashengzi 发表于 2020-9-11 13:44
是的,如果需要另存为文件再读取,就繁琐了。

我想请教下,我听说(不确定)比如一些统计淘宝上商品价 ...

你的意思是不是不加载出网页,直接get到数据?这种可能是ajax。
总之想拿数据,都要访问服务器,不可能凭空获取。
页: [1]
查看完整版本: python读取本地网页内容