[已解决]网路爬虫不能爬取百度百科

皮皮小发 · 发表于 2017-10-30 22:14:20

您需要登录才可以下载或查看，没有账号？立即注册

x

复制代码

最近学习小甲鱼的python零基础入门，发现网络爬虫有很多问题，首先根据其代码输入，访问不了有道翻译，后来在论坛中得到了答案，其次就是不能获取代理ip，现在也爬不了百度百科，到底是什么问题，难道这种代码输入已经不能用了吗

最佳答案

jerryxjr1220

2017-10-31 06:36:27

你学习的应该是小甲鱼的爬虫编程的思路以及方法，而不是死记硬背代码，因为没有一个代码可以保证能用一辈子的，网站一更新可能代码就不能用了。但是学会方法的话，你就可以举一反三自己重写爬虫了。

chakyam · 发表于 2017-10-30 23:26:38

去掉最后一段的缩进

jerryxjr1220 · 发表于 2017-10-31 06:36:27

你学习的应该是小甲鱼的爬虫编程的思路以及方法，而不是死记硬背代码，因为没有一个代码可以保证能用一辈子的，网站一更新可能代码就不能用了。但是学会方法的话，你就可以举一反三自己重写爬虫了。

gopythoner · 发表于 2017-10-31 10:30:05

不要复制粘贴啊，毕竟网页的结构经常变化

皮皮小发 · 发表于 2017-10-31 14:27:37

jerryxjr1220 发表于 2017-10-31 06:36
你学习的应该是小甲鱼的爬虫编程的思路以及方法，而不是死记硬背代码，因为没有一个代码可以保证能用一辈子 ...

问题是不根据小甲鱼书上那样写代码，自己也不知道怎么写，毕竟是新手，还有书上基本上只有代码和一些思想，都能看懂，现在离自己写代码爬网络还有一段距离，希望大神能够提供一些思想和方法

金城帛域 · 发表于 2017-10-31 16:12:45

错误是由于网站禁止爬虫，可以在请求加上头信息，伪装成浏览器访问
楼主可以试试加上

headers = {'user-agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.79 Safari/537.36'}

复制代码

皮皮小发 · 发表于 2017-10-31 21:21:03

金城帛域发表于 2017-10-31 16:12
错误是由于网站禁止爬虫，可以在请求加上头信息，伪装成浏览器访问
楼主可以试试加上

试过了不行

账号		自动登录	找回密码
密码			立即注册