鱼C论坛

 找回密码
 立即注册
查看: 2563|回复: 0

如何用爬虫获取网站的js数据

[复制链接]
发表于 2015-7-4 17:38:50 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
本帖最后由 ~风介~ 于 2015-7-4 21:21 编辑

想要获取http://data.foundationcenter.org.cn/content_400.html这个网站中,关于透明度、净资产之类的数据,可是自己写了个爬虫之后,获得的数据里面没有内容,才发现这些数据都是用js传过来的,百度上说用spynner可是花了两天还是没解决。。。。
这是我的代码,只能爬取静态的,求教怎么才能获得我想要的数据呢?
比较着急获取这些数据,各位大神求教
  1. # -*- coding: utf-8 -*-
  2. import urllib2
  3. import sys
  4. from BeautifulSoup import BeautifulSoup

  5. reload (sys)
  6. sys.setdefaultencoding('utf-8')
  7. f = open('howtoTucao.txt','w')     #打开文件

  8. for pagenum in range(33,40):        #需要从第33页爬到第4742页

  9.     strpagenum = str(pagenum)      #页数的str表示
  10.     f.write( "Getting data for Page " + strpagenum +"\n")  #shell里面显示的,表示已爬到多少页
  11.     url = "http://data.foundationcenter.org.cn/content_"+strpagenum+".html"
  12.     page = urllib2.urlopen(url)     #打开网页
  13.     soup = BeautifulSoup(page)      #用BeautifulSoup解析网页
  14.     ALL = soup.findAll('div', 't_zi t_zi01')
  15.     for each in ALL:
  16.         f.write(each.prettify())
  17.         print each
  18. f.close()
复制代码

小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2026-2-16 17:39

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表