鱼C论坛

 找回密码
 立即注册
查看: 2255|回复: 6

[已解决]网路爬虫不能爬取百度百科

[复制链接]
发表于 2017-10-30 22:14:20 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
  1. import urllib.request
  2. import re
  3. from bs4 import BeautifulSoup

  4. def main():
  5.     url = 'http://baike.baidu.com/view/284853.htm'
  6.     response = urllib.request.urlopen(url)
  7.     html = response.read()
  8.     soup = BeautifulSoup(html,'html.parser')


  9.     for each in soup.find_all(href=re.compile('view')):
  10.         print(each.text,'->',''.join(['http://baike.baidu.com',\
  11.                                       each['href']]))


  12.     if __name__ == '__main__':
  13.         main()
复制代码

最近学习小甲鱼的python零基础入门,发现网络爬虫有很多问题,首先根据其代码输入,访问不了有道翻译,后来在论坛中得到了答案,其次就是不能获取代理ip,现在也爬不了百度百科,到底是什么问题,难道这种代码输入已经不能用了吗
最佳答案
2017-10-31 06:36:27
你学习的应该是小甲鱼的爬虫编程的思路以及方法,而不是死记硬背代码,因为没有一个代码可以保证能用一辈子的,网站一更新可能代码就不能用了。但是学会方法的话,你就可以举一反三自己重写爬虫了。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2017-10-30 23:26:38 | 显示全部楼层
去掉最后一段的缩进
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-10-31 06:36:27 From FishC Mobile | 显示全部楼层    本楼为最佳答案   
你学习的应该是小甲鱼的爬虫编程的思路以及方法,而不是死记硬背代码,因为没有一个代码可以保证能用一辈子的,网站一更新可能代码就不能用了。但是学会方法的话,你就可以举一反三自己重写爬虫了。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-10-31 10:30:05 | 显示全部楼层
不要复制粘贴啊,毕竟网页的结构经常变化
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2017-10-31 14:27:37 From FishC Mobile | 显示全部楼层
jerryxjr1220 发表于 2017-10-31 06:36
你学习的应该是小甲鱼的爬虫编程的思路以及方法,而不是死记硬背代码,因为没有一个代码可以保证能用一辈子 ...

问题是不根据小甲鱼书上那样写代码,自己也不知道怎么写,毕竟是新手,还有书上基本上只有代码和一些思想,都能看懂,现在离自己写代码爬网络还有一段距离,希望大神能够提供一些思想和方法
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-10-31 16:12:45 | 显示全部楼层
错误是由于网站禁止爬虫,可以在请求加上头信息,伪装成浏览器访问   
楼主可以试试加上
  1. headers = {'user-agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.79 Safari/537.36'}
复制代码
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2017-10-31 21:21:03 | 显示全部楼层
金城帛域 发表于 2017-10-31 16:12
错误是由于网站禁止爬虫,可以在请求加上头信息,伪装成浏览器访问   
楼主可以试试加上

试过了不行
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-5-19 21:50

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表