|
马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册
x
在练习爬取信息的时候 ,总能遇到很多未知问题,比如这次
问题:在F12抓包上可以获取下载链接(见图1)
然后自己用python获取字段的时候,却找的是网站,而不是下来链接(见图2)
__________(下面是代码)_______________
- #获取下载地址
- import urllib.request
- import re
- def open_url(url):
- req=urllib.request.Request(url)
- req.add_header('User-Agent','Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.26 Safari/537.36 Core/1.63.5221.400 QQBrowser/10.0.1125.400')
- response=urllib.request.urlopen(url)
- html=response.read()
- return html
- def find_imgs(url):
- url_=[]
- html=open_url(url).decode('utf-8')
- search1='<a mid="604390" id="res_5409594" title="(.*?)" is_source="no" rel="nofollow" href="(.*?)">(.*?)</a>'
- rest1=re.compile(search1,re.DOTALL).findall(html)
- #for each in url_num:
-
- #url_.append('http://www.id97.com/movie/'+each+'.html')
- print(rest1)
- def try1(a=1):
- find_imgs(url)
- url='http://www.id97.com/movie/604390.html'
- try1()
复制代码 |
|