python读取本地网页内容

huashengzi · 发表于 2020-9-11 10:33:09

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

本帖最后由 huashengzi 于 2020-9-11 13:45 编辑

“hello world”

复制代码

在电脑里浏览器打开页面的情况下，能否用python读取网页的内容，不通过访问服务器。
求大神解答。

我想请教下，我听说（不确定）比如一些统计淘宝上商品价格的，是可以不用访问服务器，只根据页面内容就可以统计到，是否可行呢？

CH10 · 发表于 2020-9-11 10:44:12

鼠标右键，网页另存为能达到你想要的的效果，如果你想获取网页链接里面的内容还是要一步步发起请求爬虫获取

suchocolate · 发表于 2020-9-11 11:49:29

本帖最后由 suchocolate 于 2020-9-11 12:11 编辑

浏览器打开的网页已经加载到了浏览器的内存中（当然也有临时文件），其他程序不能直接读浏览器的内存。
你可以把浏览器的网页保存成文件，然后python open读取，之后交给html解析器处理。
不过这样到繁琐，建议还是用requests等去服务器get，然后交给html解析器。

另外，像lxml这样的解析器有读取本地html文件的函数：

from lxml import etree
html = etree.parse('text.html', etree.HTMLParser())
result = html.xpath('//*')

复制代码

huashengzi · 发表于 2020-9-11 13:44:56

suchocolate 发表于 2020-9-11 11:49
浏览器打开的网页已经加载到了浏览器的内存中（当然也有临时文件），其他程序不能直接读浏览器的内存。
你 ...

是的，如果需要另存为文件再读取，就繁琐了。

我想请教下，我听说（不确定）比如一些统计淘宝上商品价格的，是可以不用访问服务器，只根据页面内容就可以统计到，是否可行呢？

wzdr · 发表于 2020-9-11 14:02:46

suchocolate · 发表于 2020-9-11 18:39:41

本帖最后由 suchocolate 于 2020-9-11 18:47 编辑

huashengzi 发表于 2020-9-11 13:44
是的，如果需要另存为文件再读取，就繁琐了。

我想请教下，我听说（不确定）比如一些统计淘宝上商品价 ...

你的意思是不是不加载出网页，直接get到数据？这种可能是ajax。
总之想拿数据，都要访问服务器，不可能凭空获取。

账号		自动登录	找回密码
密码			立即注册