|
|
马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册
x
- import urllib.request
- import re
- from bs4 import BeautifulSoup
- def main():
- url = 'http://baike.baidu.com/view/284853.htm'
- response = urllib.request.urlopen(url)
- html = response.read()
- soup = BeautifulSoup(html,'html.parser')
- for each in soup.find_all(href=re.compile('view')):
- print(each.text,'->',''.join(['http://baike.baidu.com',\
- each['href']]))
- if __name__ == '__main__':
- main()
复制代码
最近学习小甲鱼的python零基础入门,发现网络爬虫有很多问题,首先根据其代码输入,访问不了有道翻译,后来在论坛中得到了答案,其次就是不能获取代理ip,现在也爬不了百度百科,到底是什么问题,难道这种代码输入已经不能用了吗
你学习的应该是小甲鱼的爬虫编程的思路以及方法,而不是死记硬背代码,因为没有一个代码可以保证能用一辈子的,网站一更新可能代码就不能用了。但是学会方法的话,你就可以举一反三自己重写爬虫了。
|
|