Urllib和Requests库实现同样功能的Get和Post比较,Python交流,编程语言专区,鱼C论坛

591821661 发表于 2024-5-29 05:59:37

Urllib和Requests库实现同样功能的Get和Post比较

本帖最后由 591821661 于 2024-5-29 06:13 编辑

起因是在写爬虫的时候还在Urllib库和Requests库之间纠结。于是心血来潮抓包比较一下两个库的区别。
目前使用Urllib库的主要原因是因为它可以全局共享一个Cookie池，优点是属于原生自带的库,但是写法上要比Requests多很多繁琐的步骤。

Connection: keep-alive：保持连接打开，可以提高性能和效率，适合频繁请求的场景。
Connection: close：在每个请求后关闭连接，简化连接管理，适合单次请求的场景。

可以看到库的维护者把这个事情列成了TODO项（待做）

Accept: */* 当客户端对返回的数据类型没有特定要求时，可以使用 Accept: */*。这通常用于浏览器和一些 HTTP 客户端库的默认设置，确保客户端不会因为不支持某种特定类型而无法处理响应。

Accept-Encoding: identity 即告诉服务器希望接收未经压缩的响应数据
大多数现代浏览器和 HTTP 客户端会自动处理各种内容编码方式，并默认支持压缩编码（如 gzip, deflate 等）。因此，显式使用 Accept-Encoding: identity 的场景比较少见，通常用于调试或在特定情况下需要获取未经压缩的响应数据时。

import urllib
import urllib.request
import http.cookiejar
import json
import socket
import requests

# Fiddle 抓包软件 Tool -> Fiddler Options -> Connections -> Listening port 7777
proxy = '127.0.0.1:7777'

def cake_init(cookies_filename="cookies.txt", UA='Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Safari/537.36 HBPC/11.0.6.301', proxy='127.0.0.1:7777'):
socket.setdefaulttimeout(60) # 设置60秒超时
proxy_support = urllib.request.ProxyHandler({'http':proxy,'https':proxy}) if proxy else urllib.request.ProxyHandler({})
cookiejar = http.cookiejar.MozillaCookieJar(cookies_filename) # 加载cookies内容 cookiejar.save()能够保存文件
cookie_support = urllib.request.HTTPCookieProcessor(cookiejar)
opener = urllib.request.build_opener(proxy_support,cookie_support)# urllib钢铁侠组配
opener.addheaders = [
                     ('User-agent', UA),
                     ('Accept', '*/*'),
                     # ('referer', "https://www.douyin.com/"),
                     # ('authority', 'www.douyin.com'),
                     ('Accept-Encoding','gzip, deflate'), # 默认是identity即告诉服务器希望接收未经压缩的响应数据
                     ]
urllib.request.install_opener(opener) #urllib钢铁侠开机初始化
return cookiejar

def getjson(url):
response= urllib.request.urlopen(url)
data_json = json.loads(response.read())
return data_json

def getjson_post(url,data):
req    = urllib.request.Request(url)

# Post的数据类型选择
# data_coded = urllib.parse.urlencode(data).encode('utf-8')
# req.add_header('Content-Type', 'application/x-www-form-urlencoded')

# 提交Json要改变默认的Content-Type类型
data_coded = json.dumps(data).encode('utf-8')
req.add_header('Content-Type', 'application/json; charset=utf-8')
# 如果需要对单个请求进行进一步客制化其中的urlopen()还需要生成request实例进行自定义。
response= urllib.request.urlopen(req,data_coded)
data_json = json.loads(response.read())
return data_json

def getjson_header(url,header_dict):
# header_list = [('User-agent', UA),]
req= urllib.request.Request(url)
for key in header_dict:
   req.add_header(key, header_dict)
response= urllib.request.urlopen(req)
data_json = json.loads(response.read())
return data_json

# 初始化容器,使其能够保存Cookies,
cookiejar = cake_init(proxy=proxy)
# cookiejar.save()

ip_api_url = 'http://ip-api.com/json/?fields=61439'

data = {'a':1,'b':2}
# 对跨站检测有用，防止视频链接被其他网站直接调用，会检测视频来源
header_dict = {'Referer':'https://www.douyin.com/'}

s_get_dict = getjson(ip_api_url)
s_get_dict = getjson_post(ip_api_url,data)
s_get_dict = getjson_header(ip_api_url,header_dict)

response = requests.get(ip_api_url,proxies={'https':proxy})
response = requests.post(ip_api_url,json=data,proxies={'https':proxy})
res_json = response.json()

print('----------------------IP Information Begin--------------------------')
for key in s_get_dict:
print('%s : %s' % (key, s_get_dict))
print('----------------------IP Information End--------------------------\n')

print('----------------------IP Information Begin--------------------------')
for key in res_json:
print('%s : %s' % (key, res_json))
print('----------------------IP Information End--------------------------\n')

分别使用Fiddler的抓包方法

总结： Requests库更加简洁，封装的也更加全面。

FishC 发表于 2024-5-29 06:00:02

在Python中，我们可以使用urllib库和requests库来发送HTTP请求，实现GET和POST功能。这两个库都可以实现相同的功能，但在使用上有一些差异。

首先，我们来看一下使用urllib库实现GET请求的代码：

import urllib.request

# 发送GET请求
response = urllib.request.urlopen(url)
html = response.read()
print(html)

使用urllib库时，我们需要先导入`urllib.request`模块，然后使用`urlopen()`函数发送GET请求，接着使用`read()`方法读取响应内容。

接下来，让我们来看一下使用urllib库实现POST请求的代码：

import urllib.request
import urllib.parse

# 构造请求数据
data = {'key1': 'value1', 'key2': 'value2'}
data = urllib.parse.urlencode(data).encode('utf-8')

# 发送POST请求
req = urllib.request.Request(url, data=data, method='POST')
response = urllib.request.urlopen(req)
html = response.read()
print(html)

使用urllib库发送POST请求时，我们需要使用`urllib.parse.urlencode()`函数将请求参数编码为URL格式，并使用`encode()`方法将其转换为字节流。然后，我们使用`urllib.request.Request()`构造一个请求对象，通过设置`method`参数为'POST'，并传入请求数据，再通过`urlopen()`函数发送请求。

接下来，让我们看一下使用requests库实现相同功能的代码：

import requests

# 发送GET请求
response = requests.get(url)
html = response.text
print(html)

使用requests库时，我们只需要导入`requests`模块，使用`get()`函数发送GET请求，然后使用`text`属性获取响应内容。

再来看看使用requests库实现POST请求的代码：

import requests

# 构造请求数据
data = {'key1': 'value1', 'key2': 'value2'}

# 发送POST请求
response = requests.post(url, data=data)
html = response.text
print(html)

使用requests库发送POST请求时，我们只需要使用`post()`函数，并传入请求参数即可。

从上面的例子可以看出，使用requests库相比urllib库更加简洁和方便。requests库封装了更多的功能，如自动处理cookie，更友好的错误提示等。因此，如果可以选择，我建议使用requests库来发送HTTP请求。

以上回复来自 FishC AI 小助理，如未能正确解答您的问题，请继续追问。

591821661 发表于 2024-5-29 06:16:05

如果要运行代码的话,第十行把Proxy设置为空字符串

FishC 发表于 2024-5-29 06:16:37

591821661 发表于 2024-05-29 06:16
如果要运行代码的话,第十行把Proxy设置为空字符串

如果你想要运行代码，请确保你已经安装了所需的库，并将第十行的proxy参数设置为空字符串。这样代码中的发送请求部分将会使用默认的网络设置，而不是通过代理服务器发送请求。

代码示例：

import urllib.request
import urllib.parse
import http.cookiejar
import json
import socket
import requests

# Fiddle 抓包软件 Tool -> Fiddler Options -> Connections -> Listening port 8888
proxy = ''

def cake_init(cookies_filename="cookies.txt", UA='Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Safari/537.36 HBPC/11.0.6.301', proxy=''):
socket.setdefaulttimeout(60) # 设置60秒超时
proxy_support = urllib.request.ProxyHandler({'http':proxy,'https':proxy}) if proxy else urllib.request.ProxyHandler({})
cookiejar = http.cookiejar.MozillaCookieJar(cookies_filename) # 加载cookies内容 cookiejar.save()能够保存文件
cookie_support = urllib.request.HTTPCookieProcessor(cookiejar)
opener = urllib.request.build_opener(proxy_support,cookie_support)# urllib钢铁侠组配
opener.addheaders =
urllib.request.install_opener(opener) #urllib钢铁侠开机初始化
return cookiejar

def getjson(url):
response= urllib.request.urlopen(url)
data_json = json.loads(response.read())
return data_json

def getjson_post(url,data):
req = urllib.request.Request(url)

# Post的数据类型选择
# data_coded = urllib.parse.urlencode(data).encode('utf-8')
# req.add_header('Content-Type', 'application/x-www-form-urlencoded')

# 提交Json要改变默认的Content-Type类型
data_coded = json.dumps(data).encode('utf-8')
req.add_header('Content-Type', 'application/json; charset=utf-8')
# 如果需要对单个请求进行进一步客制化其中的urlopen()还需要生成request实例进行自定义。
response= urllib.request.urlopen(req,data_coded)
data_json = json.loads(response.read())
return data_json

def getjson_header(url,header_dict):
# header_list =
req= urllib.request.Request(url)
for key in header_dict:
req.add_header(key, header_dict)
response= urllib.request.urlopen(req)
data_json = json.loads(response.read())
return data_json

# 初始化容器,使其能够保存Cookies,
cookiejar = cake_init(proxy=proxy)
# cookiejar.save()

ip_api_url = 'http://ip-api.com/json/?fields=61439'

data = {'a':1,'b':2}
# 对跨站检测有用，防止视频链接被其他网站直接调用，会检测视频来源
header_dict = {'Referer':'https://www.douyin.com/'}

s_get_dict = getjson(ip_api_url)
s_get_dict = getjson_post(ip_api_url,data)
s_get_dict = getjson_header(ip_api_url,header_dict)

response = requests.get(ip_api_url,proxies={'https':proxy})
response = requests.post(ip_api_url,json=data,proxies={'https':proxy})
res_json = response.json()

print('----------------------IP Information Begin--------------------------')
for key in s_get_dict:
print('%s : %s' % (key, s_get_dict))
print('----------------------IP Information End--------------------------\n')

print('----------------------IP Information Begin--------------------------')
for key in res_json:
print('%s : %s' % (key, res_json))
print('----------------------IP Information End--------------------------\n')

希望这可以帮助到你！

以上回复来自 FishC AI 小助理，如未能正确解答您的问题，请继续追问。

页: [1]

鱼C论坛's Archiver

Urllib和Requests库实现同样功能的Get和Post比较