鱼C论坛

 找回密码
 立即注册
查看: 1499|回复: 4

关于爬虫获取下载链接信息的问题

[复制链接]
发表于 2018-5-27 12:52:18 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
在练习爬取信息的时候 ,总能遇到很多未知问题,比如这次
问题:在F12抓包上可以获取下载链接(见图1)
        然后自己用python获取字段的时候,却找的是网站,而不是下来链接(见图2)
7TDX9HBY_%C[R({N~_1_4R0.png

{%}Q[LUH]K95IMKZWK{4APG.png

__________(下面是代码)_______________
  1. #获取下载地址
  2. import urllib.request
  3. import re

  4. def open_url(url):
  5.     req=urllib.request.Request(url)
  6.     req.add_header('User-Agent','Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.26 Safari/537.36 Core/1.63.5221.400 QQBrowser/10.0.1125.400')
  7.     response=urllib.request.urlopen(url)
  8.     html=response.read()
  9.     return html
  10. def find_imgs(url):
  11.     url_=[]
  12.     html=open_url(url).decode('utf-8')
  13.     search1='<a mid="604390" id="res_5409594" title="(.*?)" is_source="no" rel="nofollow" href="(.*?)">(.*?)</a>'
  14.     rest1=re.compile(search1,re.DOTALL).findall(html)

  15.     #for each in url_num:
  16.    
  17.         #url_.append('http://www.id97.com/movie/'+each+'.html')
  18.     print(rest1)
  19. def try1(a=1):

  20.     find_imgs(url)
  21. url='http://www.id97.com/movie/604390.html'
  22. try1()
复制代码
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2018-5-27 15:43:37 From FishC Mobile | 显示全部楼层
没人嘛?
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-5-27 21:32:25 From FishC Mobile | 显示全部楼层
XX.mp4好像就是下载地址啊,不过需要复制到下载里,比如迅雷啥的,才能下载
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-5-27 21:33:01 From FishC Mobile | 显示全部楼层
复制到下载器里
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-5-27 21:48:41 | 显示全部楼层
sunlight070 发表于 2018-5-27 21:32
XX.mp4好像就是下载地址啊,不过需要复制到下载里,比如迅雷啥的,才能下载

那是文字来的     下载链接是 字母数字符号组成的
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-7-13 09:08

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表