鱼C论坛

 找回密码
 立即注册
查看: 5150|回复: 7

[作品展示] >>>初学爬虫,抓取某音效网站数据, 感谢小甲鱼老师

[复制链接]
发表于 2017-1-7 18:25:09 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
本帖最后由 zua 于 2017-1-8 01:03 编辑

QQ截图20170108010215.jpg

代码很简单。复制运行,还没加代理,主要是学习逻辑。

  1. import urllib.request
  2. import traceback
  3. import sys
  4. import os
  5. import re

  6. def open_url(url):
  7.     req = urllib.request.Request(url)
  8.     req.add_header("User-Agent","Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.79 Safari/537.36 Edge/14.14393")   
  9.     response = urllib.request.urlopen(req)
  10.     html = response.read()
  11.     return html

  12. def get_url(r,html):
  13.     url = re.findall(r,html)
  14.     return url
  15.    
  16. def chdir(folder):
  17.     if not os.path.exists(folder):
  18.         os.mkdir(folder)
  19.     os.chdir(folder)
  20.    
  21. def main():   
  22.     folder = "C:\\Users\Administrator\Desktop\_Download_Sound"
  23.     chdir(folder)                               #创建文件夹

  24.     original_url = "http://sc.chinaz.com/yinxiao"
  25.     r = r'<a target="_blank" href="/(.+?)</a>'  #主菜单链接
  26.     r1 = r'<p class="z"><a target="_blank" href="/(.+ alt.+?)">'
  27.     r2 = r'http.+?\.wav'
  28.     n = 0

  29.     html = open_url(original_url).decode("utf-8")
  30.     list = get_url(r,html)
  31.     for i in list:
  32.         a = i.split('">')[0]
  33.         b = i.split('">')[1]
  34.         if "/" in b:
  35.             b = b[3:-4]

  36.         #创建文件夹
  37.         chdir(b)
  38.         new_url = os.path.join("http://sc.chinaz.com//",a)
  39.         #print(new_url)
  40.         #下载每个链接里面的二级链接
  41.         new_html = open_url(new_url).decode("utf-8")
  42.         list = get_url(r1,new_html)
  43.         for i in list:
  44.             a = i.split('" alt="')[0]
  45.             b = i.split('" alt="')[1]

  46.             #获取wav文件下载网页
  47.             new_url = os.path.join("http://sc.chinaz.com//",a)
  48.             #print(new_url,b)#是下载目录链接了,名字

  49.             #取wav下载链接
  50.             wav_html = open_url(new_url).decode("utf-8")
  51.             list = get_url(r2,wav_html)
  52.             #print(list[0])

  53.             file = b +".wav"
  54.             if not os.path.exists(file):
  55.                 file = b + ".wav"
  56.             else:
  57.                 file = b + "%d"%(n) +".wav"
  58.                 n += 1
  59.             with open(file,"wb") as f:
  60.                 html = open_url(list[0])
  61.                 print("正在下载:%s" % b)
  62.                 f.write(html)

  63.         os.chdir(os.pardir)                     #下载完返回上一次目录


  64. if __name__ == "__main__":
  65.     try:
  66.         main()
  67.     except SystemExit:
  68.         pass
  69.     except:
  70.         traceback.print_exc()
  71.         sys.quit()
  72.         input()
复制代码
QQ截图20170107033530.png
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2017-1-7 18:26:41 | 显示全部楼层
主要是做pygame的时候需要各种背景,所以就直接爬下来了、
学以致用啊
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-1-8 08:15:16 | 显示全部楼层
厉害了,谢谢分享。
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-1-9 21:57:26 | 显示全部楼层
直接复制粘贴就能用,厉害了word哥!!!!!赞一个
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2017-1-9 22:09:37 From FishC Mobile | 显示全部楼层
这个爬一小部分可以,要大量爬得用框架,多线程处理。
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-1-10 11:48:38 | 显示全部楼层
这周的目标就是自己编一个,能爬一小部分的
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-1-18 22:58:22 | 显示全部楼层
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2017-1-26 10:23:04 | 显示全部楼层
楼主辛苦
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-5-17 01:16

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表