|
|
马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册
x
本帖最后由 ~风介~ 于 2015-7-4 21:21 编辑
想要获取http://data.foundationcenter.org.cn/content_400.html这个网站中,关于透明度、净资产之类的数据,可是自己写了个爬虫之后,获得的数据里面没有内容,才发现这些数据都是用js传过来的,百度上说用spynner可是花了两天还是没解决。。。。
这是我的代码,只能爬取静态的,求教怎么才能获得我想要的数据呢?
比较着急获取这些数据,各位大神求教
- # -*- coding: utf-8 -*-
- import urllib2
- import sys
- from BeautifulSoup import BeautifulSoup
- reload (sys)
- sys.setdefaultencoding('utf-8')
- f = open('howtoTucao.txt','w') #打开文件
- for pagenum in range(33,40): #需要从第33页爬到第4742页
- strpagenum = str(pagenum) #页数的str表示
- f.write( "Getting data for Page " + strpagenum +"\n") #shell里面显示的,表示已爬到多少页
- url = "http://data.foundationcenter.org.cn/content_"+strpagenum+".html"
- page = urllib2.urlopen(url) #打开网页
- soup = BeautifulSoup(page) #用BeautifulSoup解析网页
- ALL = soup.findAll('div', 't_zi t_zi01')
- for each in ALL:
- f.write(each.prettify())
- print each
- f.close()
复制代码
|
|