使用urllib的urlretrieve需要伪装浏览器吗？,Python交流,编程语言专区,鱼C论坛

uranometria 发表于 2020-10-31 17:53:39

使用urllib的urlretrieve需要伪装浏览器吗？

本帖最后由 uranometria 于 2020-11-4 10:03 编辑

如题！！！

用Request时候会报错：
Traceback (most recent call last):
File "C:\Users\Administrator\Desktop\PYTHON\music.py", line 38, in <module>
get_songs_file()
File "C:\Users\Administrator\Desktop\PYTHON\music.py", line 35, in get_songs_file
urllib.request.urlretrieve(url=req, filename=each)
File "C:\Users\Administrator\AppData\Local\Programs\Python\Python38\lib\urllib\request.py", line 245, in urlretrieve
url_type, path = _splittype(url)
File "C:\Users\Administrator\AppData\Local\Programs\Python\Python38\lib\urllib\parse.py", line 988, in _splittype
match = _typeprog.match(url)
TypeError: expected string or bytes-like object

========================================================================

现在报错改为了：
ConnectionResetError: 远程主机强迫关闭了一个现有的连接。

完整代码如下：
import urllib.request
import time
import os
import re

#下载地址：https://freepd.com/music/Silly%20Intro.mp3

path = 'C:\\Users\\Administrator\\Documents\\cache'
os.chdir(path)

url = 'https://freepd.com/upbeat.php'
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:81.0) Gecko/20100101 Firefox/81.0'
}

def get_songs_name():
req = urllib.request.Request(url=url, headers=headers)
result = urllib.request.urlopen(req)
content = result.read().decode('utf-8')
string = re.compile('<B>\w*\s\w*</B>')
all_songs = string.findall(content)
all_songs_name = []
for each in all_songs:
   all_songs_name.append(each + '.mp3')
return all_songs_name

def get_songs_file():
for each in get_songs_name():
   path = each.replace(" ", "%20")
   download_url = "https://freepd.com/music/" + str(path)
   req = urllib.request.Request(url=download_url, headers=headers)
   result = urllib.request.urlopen(req)
   urllib.request.urlretrieve(url=req, filename=each) #直接使用download_url可以正常下载改为req则不行，报错。
   time.sleep(20)

get_songs_file()

永恒的蓝色梦想 发表于 2020-10-31 18:25:37

好像是 get_song_file 中的 url 不对，发个完整代码吧

suchocolate 发表于 2020-10-31 20:04:09

需要改ua，另外完整代码发下。

uranometria 发表于 2020-11-2 09:46:11

本帖最后由 uranometria 于 2020-11-3 22:38 编辑

永恒的蓝色梦想发表于 2020-10-31 18:25
好像是 get_song_file 中的 url 不对，发个完整代码吧

您好~已发~审核好像等了一段时间~希望可以帮忙看看!!

uranometria 发表于 2020-11-2 09:46:53

suchocolate 发表于 2020-10-31 20:04
需要改ua，另外完整代码发下。

您好~已发代码

uranometria 发表于 2020-11-3 22:37:01

DD自己！

uranometria 发表于 2020-11-3 22:38:45

永恒的蓝色梦想发表于 2020-10-31 18:25
好像是 get_song_file 中的 url 不对，发个完整代码吧

您好~已发~审核好像等了一段时间~希望可以帮忙看看!!

uranometria 发表于 2020-11-3 22:39:37

suchocolate 发表于 2020-10-31 20:04
需要改ua，另外完整代码发下。

您好~已发~审核好像等了一段时间~希望可以帮忙看看!!

suchocolate 发表于 2020-11-4 09:29:14

uranometria 发表于 2020-11-3 22:39
您好~已发~审核好像等了一段时间~希望可以帮忙看看!!

import urllib.request
import os
import re

def ck_dir(dir):
if not os.path.exists(dir):
   os.mkdir(dir)
os.chdir(dir)

def main():
ck_dir('pics')
url = 'https://freepd.com/upbeat.php'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:81.0) Gecko/20100101 Firefox/81.0'}
req = urllib.request.Request(url=url, headers=headers)
result = urllib.request.urlopen(req)
content = result.read().decode('utf-8')
songs = re.findall(r'<B>(.*?)</B>', content)
for each in songs:
   file_name = each + '.mp3'
   path = each.replace(" ", "%20") + '.mp3'
   download_url = "https://freepd.com/music/" + path
   print(download_url)
   urllib.request.urlretrieve(url=download_url, filename=file_name)
   print(f'已下载{each}')

if __name__ == '__main__':
main()

uranometria 发表于 2020-11-4 10:01:39

suchocolate 发表于 2020-11-4 09:29

{:10_250:}这我认真看了一下好像没有解决我的问题

suchocolate 发表于 2020-11-4 12:05:08

本帖最后由 suchocolate 于 2020-11-4 12:33 编辑

uranometria 发表于 2020-11-4 10:01
这我认真看了一下好像没有解决我的问题

直接帮你优化了，可以用。
你报错的问题是urlretrieve接收url，不接受req对象。可以shell里help(urllib.request.urlretrieve)查看具体需要的参数。
另外re语法帮你优化了，免去列表截取的麻烦。

uranometria 发表于 2020-11-4 13:39:07

suchocolate 发表于 2020-11-4 12:05
直接帮你优化了，可以用。
你报错的问题是urlretrieve接收url，不接受req对象。可以shell里help(urlli ...

好的~谢谢您~还是想请教一下：urllib.request.urlretrieve使用的URL不需要进行处理，直接下载链接就可以了是吗？不需要伪装为服务器？

suchocolate 发表于 2020-11-4 13:57:28

uranometria 发表于 2020-11-4 13:39
好的~谢谢您~还是想请教一下：urllib.request.urlretrieve使用的URL不需要进行处理，直接下载链接就可以 ...

一般不需要，urlretrieve一般是针对文件get，文件一般不看ua。而如果是get网页或json数据会看ua。

uranometria 发表于 2020-11-4 14:57:47

suchocolate 发表于 2020-11-4 13:57
一般不需要，urlretrieve一般是针对文件get，文件一般不看ua。而如果是get网页或json数据会看ua。

好的~谢谢您~{:10_275:}

页: [1]

鱼C论坛's Archiver

使用urllib的urlretrieve需要伪装浏览器吗？