鱼C论坛

 找回密码
 立即注册
查看: 1681|回复: 1

[作品展示] python爬取gif动图【内涵福利】水平有限待完善

[复制链接]
发表于 2020-4-16 11:33:24 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
  1. import urllib.request
  2. import re
  3. import os,sys
  4. import random
  5. import time


  6. def url_open(url):
  7.     headers = {
  8.         'Referer': 'http://bbbt.net/',
  9.         'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.162 Safari/537.36'
  10.     }
  11.     req = urllib.request.Request(url, headers=headers)
  12.     response = urllib.request.urlopen(req)
  13.     html = response.read().decode('utf-8')
  14.     return html

  15. def get_pages(each):
  16.     html2 = url_open(each)
  17.     t1 = re.search(r'<title>.{1,30}</title>',html2)
  18.     title = t1.group()[7:-8]

  19.     return title
  20.     #print(title)

  21. urllist = ['http://bbbt.net/tag/gif%E5%87%BA%E5%A4%84','http://bbbt.net/tag/%E7%A6%8F%E5%88%A9%E5%90%A7']
  22. url = random.choice(urllist)
  23. html = url_open(url)
  24. urls = re.findall(r'http://bbbt.net/.{1,8}.html',html)
  25. #print(set(urls))

  26. for each in set(urls):
  27.     title = get_pages(each)
  28.     folder = str(title)

  29.     os.chdir('D:/')
  30.     os.mkdir(folder)
  31.     os.chdir(folder)
  32.     count = 1
  33.     html1 = url_open(each)
  34.     name = re.findall(r'<p>.{3,20}</p>', html1)
  35.     print('相关信息:')
  36.     for i in name:
  37.         print(i[3:-4])
  38.     #print(html1)
  39.     img_addrs = re.findall(r'https://tva1.sinaimg.cn/.{1,7}/.{10,80}.gif',str(html1))
  40.     #print(set(img_addrs))
  41.     for each1 in set(img_addrs):

  42.         headers = {
  43.             'Referer': 'http://bbbt.net/',
  44.             'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.162 Safari/537.36'
  45.         }
  46.         req = urllib.request.Request(each1, headers=headers)
  47.         response = urllib.request.urlopen(req)
  48.         mm_img = response.read()

  49.         filename = str(count) + '.gif'
  50.         print('下载第' + str(count) + '张图片')
  51.         with open(filename, 'wb') as f:
  52.             f.write(mm_img)
  53.             count += 1



复制代码
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2020-4-16 11:59:27 | 显示全部楼层
我要去补补身体了
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-6-16 10:54

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表