鱼C论坛

 找回密码
 立即注册
查看: 10615|回复: 8

python 爬虫帮忙js文件如何的获取里面的内容

[复制链接]
发表于 2015-3-12 17:50:52 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
本帖最后由 瞬秒爆加速 于 2015-3-12 19:19 编辑

   最近在爬一个漫画网站的图片,但是发现是有获取网址是放在js文件里面,然后用通过js函数反馈网址和图片,现在我找到js的规律了,就是不知道怎么获取找到的js文件里面的内容?
  请鱼神,指导一下~_~.1-这个漫画的地址:
http://comic.sfacg.com/HTML/HXYZ/121/
2-这个我找到的js数据:
http://comic.sfacg.com/Utility/1159/121.js
现在是1-的网址,获取的信息,是js动态生成的,2-网址是储存动态生成的数据。现在是获取js里面的内容。
但是urllib.request.urllib().read().decode('utf-8'),报错。


小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2015-3-12 19:06:57 | 显示全部楼层
至少也得给了栗子嘛。。
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2015-3-12 19:19:50 | 显示全部楼层
wei_Y 发表于 2015-3-12 19:06
至少也得给了栗子嘛。。

我更新了,我给出了栗子了。
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2015-3-12 19:43:59 | 显示全部楼层
新手不懂帮顶
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2015-3-12 21:40:32 | 显示全部楼层
  1. import re
  2. import requests
  3. import urllib.request


  4. html = requests.get('http://comic.sfacg.com/Utility/1159/001.js')
  5. html.encoding = 'utf-8'
  6. find_all = re.findall(r'picAy\[[0-9]*\] = "(.*?\.(?:png|jpg))',html.text)
  7. for i,j in zip(find_all, range(len(find_all))):
  8.     urllib.request.urlretrieve('http://comic.sfacg.com'+i,str(j)+i[-4:])
复制代码


requests需要下载。pip install requests就行啦。
下载那个requests里没找到。。

不用requests也行。

  1. import re
  2. import urllib.request


  3. html = urllib.request.urlopen('http://comic.sfacg.com/Utility/1159/001.js').read().decode('utf-8')
  4. find_all = re.findall(r'picAy\[[0-9]*\] = "(.*?\.(?:png|jpg))',html)
  5. for i,j in zip(find_all, range(len(find_all))):
  6.     urllib.request.urlretrieve('http://comic.sfacg.com'+i,str(j)+i[-4:])
复制代码


效果一样。直接改001-121的js就行啦。目录你在os创建吧。

P.S这漫画好H好恶心。。
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2015-3-14 09:22:41 | 显示全部楼层
wei_Y 发表于 2015-3-12 21:40
requests需要下载。pip install requests就行啦。
下载那个requests里没找到。。

我按你第二种尝试了一下,发现121获取不了,其他的却没问题.

P.S 这漫画是新生代的,恶心是正常的,反映了未来社会的现状。。。的,很有哲学系的。
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2015-3-14 10:10:47 | 显示全部楼层
瞬秒爆加速 发表于 2015-3-14 09:22
我按你第二种尝试了一下,发现121获取不了,其他的却没问题.

P.S 这漫画是新生代的,恶心是正常的,反 ...

pip install requests 老是显示这个 Fatal error in launcher 这个错误,我在网上搜索了结果是
要用 python -m pip install requests
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2015-3-14 10:14:19 | 显示全部楼层
瞬秒爆加速 发表于 2015-3-14 09:22
我按你第二种尝试了一下,发现121获取不了,其他的却没问题.

P.S 这漫画是新生代的,恶心是正常的,反 ...

- -。我就测试了一下第一话。121话没测试。。没在家,你先改改吧。
P.S我看了一话,不适合我- -。。
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2015-3-14 10:26:02 | 显示全部楼层
wei_Y 发表于 2015-3-14 10:14
- -。我就测试了一下第一话。121话没测试。。没在家,你先改改吧。
P.S我看了一话,不适合我- -。。

好的,我在想应该是那个网站不稳定吧。有时候可以有时就不行,不过谢谢。我学到了一些。跟 甲鱼神 视频教的简短多了。
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2026-2-15 04:48

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表