python读取本地网页内容
本帖最后由 huashengzi 于 2020-9-11 13:45 编辑“hello world”
在电脑里浏览器打开页面的情况下,能否用python读取网页的内容,不通过访问服务器。
求大神解答。
我想请教下,我听说(不确定)比如一些统计淘宝上商品价格的,是可以不用访问服务器,只根据页面内容就可以统计到,是否可行呢? {:10_306:}鼠标右键,网页另存为能达到你想要的的效果,如果你想获取网页链接里面的内容还是要一步步发起请求爬虫获取 本帖最后由 suchocolate 于 2020-9-11 12:11 编辑
浏览器打开的网页已经加载到了浏览器的内存中(当然也有临时文件),其他程序不能直接读浏览器的内存。
你可以把浏览器的网页保存成文件,然后python open读取,之后交给html解析器处理。
不过这样到繁琐,建议还是用requests等去服务器get,然后交给html解析器。
另外,像lxml这样的解析器有读取本地html文件的函数:from lxml import etree
html = etree.parse('text.html', etree.HTMLParser())
result = html.xpath('//*')
suchocolate 发表于 2020-9-11 11:49
浏览器打开的网页已经加载到了浏览器的内存中(当然也有临时文件),其他程序不能直接读浏览器的内存。
你 ...
是的,如果需要另存为文件再读取,就繁琐了。
我想请教下,我听说(不确定)比如一些统计淘宝上商品价格的,是可以不用访问服务器,只根据页面内容就可以统计到,是否可行呢? {:10_256:}{:10_256:} 本帖最后由 suchocolate 于 2020-9-11 18:47 编辑
huashengzi 发表于 2020-9-11 13:44
是的,如果需要另存为文件再读取,就繁琐了。
我想请教下,我听说(不确定)比如一些统计淘宝上商品价 ...
你的意思是不是不加载出网页,直接get到数据?这种可能是ajax。
总之想拿数据,都要访问服务器,不可能凭空获取。
页:
[1]