爬虫 检查网页源代码全是乱码
右键检查源代码全是字母但点击元素检查却是正常显示
是编码问题吗 放网址 wp231957 发表于 2022-1-4 21:18
放网址
是个huang色网站
http://www.2386kk.com/label/home/
我用的 chrome 这网址居然能发出来 本帖最后由 白two 于 2022-1-4 23:40 编辑
这个网页源码本质上就是一段 js 代码,你所看到的哪些元素其实都是通过这段 js 代码即时写上去的,
也就是说这个网页他没有 html 代码,它的 html 代码就是 <script></script> 框起来的一段 js 代码,或者说它的 html 代码是通过js写进去的,
再加上 js 代码并不是依靠缩进来分辨代码块的,而是依靠大括号,
所以它即使写在一行也没关系,也能正常运行。
至于解决办法
你可以找一个工具给他格式化
或者自己写一段代码给他格式化
但也别指望格式化就能看懂,你看他第一个函数就是 decode 解码,而且里面一堆乱码
所以这段代码写进去的东西大概率也是加密了的 这个就是把网站的内容简单的做了一下编码而已,然后发到浏览器上再通过js解码,你从他那段js中可以看出来他是先base64解码,再进行url解码,也就是说他那一段编码是先经过url编码再经过base64编码得来的,你可以把 decodeURIComponent(atob("里面这一长串我就省略了")) 复制到开发者工具的console里执行一下就可以看到结果 白two 发表于 2022-1-4 23:33
这个网页源码本质上就是一段 js 代码,你所看到的哪些元素其实都是通过这段 js 代码即时写上去的,
也就是 ...
谢谢 isdkz 发表于 2022-1-5 08:49
这个就是把网站的内容简单的做了一下编码而已,然后发到浏览器上再通过js解码,你从他那段js中可以看出来他 ...
能看到了
那爬这种有什么办法嘛{:5_91:} 万千只cnm 发表于 2022-1-5 09:20
能看到了
那爬这种有什么办法嘛
自己解析代码,自己解析算法 万千只cnm 发表于 2022-1-5 09:20
能看到了
那爬这种有什么办法嘛
你爬下来的时候用正则表达式取出那段base64编码,然后再用一些函数库把它解码就行了,比如python的base64解码用base64.b64decode,url解码用urllib.parse.unquote
页:
[1]