python读取本地网页内容,Python交流,编程语言专区,鱼C论坛

huashengzi 发表于 2020-9-11 10:33:09

python读取本地网页内容

本帖最后由 huashengzi 于 2020-9-11 13:45 编辑

“hello world”
在电脑里浏览器打开页面的情况下，能否用python读取网页的内容，不通过访问服务器。
求大神解答。

我想请教下，我听说（不确定）比如一些统计淘宝上商品价格的，是可以不用访问服务器，只根据页面内容就可以统计到，是否可行呢？

CH10 发表于 2020-9-11 10:44:12

{:10_306:}鼠标右键，网页另存为能达到你想要的的效果，如果你想获取网页链接里面的内容还是要一步步发起请求爬虫获取

suchocolate 发表于 2020-9-11 11:49:29

本帖最后由 suchocolate 于 2020-9-11 12:11 编辑

浏览器打开的网页已经加载到了浏览器的内存中（当然也有临时文件），其他程序不能直接读浏览器的内存。
你可以把浏览器的网页保存成文件，然后python open读取，之后交给html解析器处理。
不过这样到繁琐，建议还是用requests等去服务器get，然后交给html解析器。

另外，像lxml这样的解析器有读取本地html文件的函数：from lxml import etree

html = etree.parse('text.html', etree.HTMLParser())
result = html.xpath('//*')

huashengzi 发表于 2020-9-11 13:44:56

suchocolate 发表于 2020-9-11 11:49
浏览器打开的网页已经加载到了浏览器的内存中（当然也有临时文件），其他程序不能直接读浏览器的内存。
你 ...

是的，如果需要另存为文件再读取，就繁琐了。

我想请教下，我听说（不确定）比如一些统计淘宝上商品价格的，是可以不用访问服务器，只根据页面内容就可以统计到，是否可行呢？

wzdr 发表于 2020-9-11 14:02:46

{:10_256:}{:10_256:}

suchocolate 发表于 2020-9-11 18:39:41

本帖最后由 suchocolate 于 2020-9-11 18:47 编辑

huashengzi 发表于 2020-9-11 13:44
是的，如果需要另存为文件再读取，就繁琐了。

我想请教下，我听说（不确定）比如一些统计淘宝上商品价 ...

你的意思是不是不加载出网页，直接get到数据？这种可能是ajax。
总之想拿数据，都要访问服务器，不可能凭空获取。

页: [1]

鱼C论坛's Archiver

python读取本地网页内容