鱼C论坛

 找回密码
 立即注册
查看: 1345|回复: 4

关于爬虫获取下载链接信息的问题

[复制链接]
发表于 2018-5-27 12:52:18 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
在练习爬取信息的时候 ,总能遇到很多未知问题,比如这次
问题:在F12抓包上可以获取下载链接(见图1)
        然后自己用python获取字段的时候,却找的是网站,而不是下来链接(见图2)
7TDX9HBY_%C[R({N~_1_4R0.png

{%}Q[LUH]K95IMKZWK{4APG.png

__________(下面是代码)_______________
#获取下载地址
import urllib.request
import re

def open_url(url):
    req=urllib.request.Request(url)
    req.add_header('User-Agent','Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.26 Safari/537.36 Core/1.63.5221.400 QQBrowser/10.0.1125.400')
    response=urllib.request.urlopen(url)
    html=response.read()
    return html
def find_imgs(url):
    url_=[]
    html=open_url(url).decode('utf-8')
    search1='<a mid="604390" id="res_5409594" title="(.*?)" is_source="no" rel="nofollow" href="(.*?)">(.*?)</a>'
    rest1=re.compile(search1,re.DOTALL).findall(html)

    #for each in url_num:
    
        #url_.append('http://www.id97.com/movie/'+each+'.html')
    print(rest1)
def try1(a=1):

    find_imgs(url)
url='http://www.id97.com/movie/604390.html'
try1()
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2018-5-27 15:43:37 From FishC Mobile | 显示全部楼层
没人嘛?
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-5-27 21:32:25 From FishC Mobile | 显示全部楼层
XX.mp4好像就是下载地址啊,不过需要复制到下载里,比如迅雷啥的,才能下载
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-5-27 21:33:01 From FishC Mobile | 显示全部楼层
复制到下载器里
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-5-27 21:48:41 | 显示全部楼层
sunlight070 发表于 2018-5-27 21:32
XX.mp4好像就是下载地址啊,不过需要复制到下载里,比如迅雷啥的,才能下载

那是文字来的     下载链接是 字母数字符号组成的
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-12-24 03:08

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表