如何用爬虫获取网站的js数据

逻辑学 · 发表于 2015-7-4 17:38:50

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

本帖最后由～风介～于 2015-7-4 21:21 编辑

想要获取http://data.foundationcenter.org.cn/content_400.html这个网站中，关于透明度、净资产之类的数据，可是自己写了个爬虫之后，获得的数据里面没有内容，才发现这些数据都是用js传过来的，百度上说用spynner可是花了两天还是没解决。。。。
这是我的代码，只能爬取静态的，求教怎么才能获得我想要的数据呢？
比较着急获取这些数据，各位大神求教

# -*- coding: utf-8 -*-
import urllib2
import sys
from BeautifulSoup import BeautifulSoup
reload (sys)
sys.setdefaultencoding('utf-8')
f = open('howtoTucao.txt','w') #打开文件
for pagenum in range(33,40): #需要从第33页爬到第4742页
strpagenum = str(pagenum) #页数的str表示
f.write( "Getting data for Page " + strpagenum +"\n") #shell里面显示的，表示已爬到多少页
url = "http://data.foundationcenter.org.cn/content_"+strpagenum+".html"
page = urllib2.urlopen(url) #打开网页
soup = BeautifulSoup(page) #用BeautifulSoup解析网页
ALL = soup.findAll('div', 't_zi t_zi01')
for each in ALL:
f.write(each.prettify())
print each
f.close()

复制代码

账号		自动登录	找回密码
密码			立即注册