求助!使用selenium保存页面遇到的问题
各位大佬,我使用html= browser.page_source
将selenium的爬取页面保存为html
但打开保存的html文件后发现,有一部分信息缺失,比如身份证信息
请问这是什么原因呢{:10_262:}
保存的html图片:
实际的页面图片:
又该如何解决{:10_329:} 这狠正常啊,我们使用爬虫就是想要爬取我们需要的一些资源,而不是下载为html,请问,你下载了html有啥用??? page_source只是html,而实际浏览器看到的是经过javascript和css渲染出来的结果,不一样是正常的。
suchocolate 发表于 2021-5-11 20:26
page_source只是html,而实际浏览器看到的是经过javascript和css渲染出来的结果,不一样是正常的。
那请问一下,使用selenium想要获取渲染以后的结果,需要怎么操作呢?{:10_254:} 橘猫橘猫 发表于 2021-5-11 21:51
那请问一下,使用selenium想要获取渲染以后的结果,需要怎么操作呢?
要看你想爬的具体内容 用save_screenshot()保存图片不是挺好的嘛 http://main.net.cn/faq/test-maintain/selenium/save-complete-web-page-incl-css-images-using-python-selenium/
页:
[1]