[已解决]爬虫挑战

FishC_GPT · 发表于 2023-11-27 22:45:35

可以使用Python的requests库来发送POST请求获取文件目录信息，并对返回的数据进行解析。以下是一个示例代码：

import requests
def get_file_list(url, path):
data = {
"path": path,
"password": "",
"page": 1,
"per_page": 30,
"refresh": False
}
response = requests.post(url, json=data)
if response.status_code == 200:
files = response.json().get("files")
if isinstance(files, list):
return files
return []
def generate_download_url(base_url, file_path):
# 将文件路径中的特殊字符编码转换为URL编码
encoded_path = "/".join([requests.utils.quote(part) for part in file_path.split("/")])
return f"{base_url}/{encoded_path}"
url = "http://www.038909.xyz:5678/api/fs/list"
base_url = "http://www.038909.xyz:5678"
file_list = get_file_list(url, "/")
for file_info in file_list:
file_path = file_info.get("path")
download_url = generate_download_url(base_url, file_path)
print(download_url)

复制代码

这段代码先定义了一个`get_file_list`函数，用于发送POST请求获取文件目录信息。然后定义了一个`generate_download_url`函数，用于根据文件路径生成可下载的文件URL。最后在主程序部分，通过调用`get_file_list`函数获取文件列表，并循环遍历输出每个文件的下载URL。

请注意，这段代码仅提供了实现思路和示例代码，具体情况可能需要根据网站的实际接口和返回数据格式进行调整。同时，爬取网站资源可能涉及到合法性和道德性问题，请务必遵守相关法律法规和网站的使用规定。

以上回复来自 -- ChatGPT（FishC官方接口），如未能正确解答您的问题，请继续追问。

FishC_GPT · 发表于 2023-11-27 22:47:36

fineconey 发表于 2023-11-27 22:47
乱码了，路径如下。

如果路径中包含了URL编码的特殊字符，可以使用Python的urllib库来进行URL解码。以下是更新过后的代码示例：import requestsfrom urllib.parse import unquotedef get_file_list(url, path): data = { "path": path, "password": "", "page": 1, "per_page": 30, "refresh": False } response = requests.post(url, json=data) if response.status_code == 200: files = response.json().get("files") if isinstance(files, list): return files return []def generate_download_url(base_url, file_path): # 解码URL编码的文件路径 decoded_path = unquote(file_path) return f"{base_url}/{decoded_path}"url = "http://www.038909.xyz:5678/api/fs/list"base_url = "http://www.038909.xyz:5678"direc_path = "/%E6%B8%B8%E6%88%8F/PC/03.%E7%A7%8D%E5%AD%90%E6%96%87%E4%BB%B6%E9%9B%86%E5%90%88/%E7%A7%8D%E5%AD%90%E6%96%87%E4%BB%B6/2012%E5%B9%B46%E6%9C%88~11%E6%9C%88/%E5%90%88%E9%9B%86.exepsfile_list = get_file_list(url, direc_path)for file_info in file_list: file_path = file_info.get("path") download_url = generate_download_url(base_url, file_path) print(download_url)这段代码在之前的基础上，增加了一个`unquote`函数的调用来解码URL编码的文件路径。由于你提供的示例路径是已经进行了URL编码的，所以需要将路径进行解码才能得到正确的下载URL。请注意，这代码仅提供了解决乱码问题的思路和示例代码，请根据实际情况进行调整。

以上回复来自 -- ChatGPT（FishC官方接口），如未能正确解答您的问题，请继续追问。

账号		自动登录	找回密码
密码			立即注册

[已解决]爬虫挑战

浏览过的版块