[已解决]爬虫爬取，摔死了

Qking · 发表于 2018-5-4 17:35:56

您需要登录才可以下载或查看，没有账号？立即注册

x

最近学习了小甲鱼的爬虫教学，但是第一次怕就失败了。。。代码如下：

复制代码

我想爬取这293个页面的数据，并打印出来，结果发现自己和自己想的差太多了，大佬们给点帮助，

最佳答案

ba21

2018-5-4 18:16:48

selenium+phantomjs模拟浏览器绝对可以。
相关资料，百度

gopythoner · 发表于 2018-5-4 18:02:55

第8行改成html = response.read().decode("gb2312")就不会报错了，编码并不是都是UTF-8，你要自己看网页的编码
然后，你还是得不到结果，因为你后续提取信息的方式提取到的是空的，这个就要靠你自己慢慢查看怎么提取到自己要的信息了

chakyam · 发表于 2018-5-4 18:05:33

gopythoner 发表于 2018-5-4 18:02
第8行改成html = response.read().decode("gb2312")就不会报错了，编码并不是都是UTF-8，你要自己看网页的 ...

因为是用js加载出来的

gopythoner · 发表于 2018-5-4 18:06:42

ba21 · 发表于 2018-5-4 18:16:48

selenium+phantomjs模拟浏览器绝对可以。
相关资料，百度

账号		自动登录	找回密码
密码			立即注册