鱼C论坛

 找回密码
 立即注册
查看: 1120|回复: 5

写爬虫时关于分段传输transfer encodeing:chunked 的问题

[复制链接]
发表于 2018-8-24 18:15:28 | 显示全部楼层 |阅读模式
20鱼币
写爬虫时发现很多网站已经使用分段传输技术(即transfer encodeing:chunked)了(包括鱼C,百度百科也是这样,),比如小甲鱼之前那个从煎蛋网上下载妹子图的爬虫,因为煎蛋网使用分段传输的原因,网页内容返回后再解码,会导致图片网址链接不再以www.xxxxx.com的形式呈现,这样无论是用find还是用正则表达式都无法找到想要的网址内容,想问问有没有什么解决办法
[YHML5JPB2I1EP7MF`P[)M8.png

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2018-8-24 18:21:51 | 显示全部楼层
这是百度百科,蜘蛛本来应该以网址形式出现 蜘蛛.png
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2018-8-24 18:24:31 | 显示全部楼层
好吧,到底是什么原因导致的我也不肯定,这是我的猜测
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2018-8-24 18:46:05 | 显示全部楼层
因为网页动态修改源代码只能使用JS DOM库的InnerHtml,所以可以通过selenium或者js2py来解决
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2018-8-24 19:28:24 From FishC Mobile | 显示全部楼层
selenium +无头浏览器大法好,
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2018-8-25 10:33:09 | 显示全部楼层
这种的话。。。我只会selenium了。。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-4-24 13:18

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表