鱼C论坛

 找回密码
 立即注册
查看: 1978|回复: 9

[已解决]urllib 获取html问题

[复制链接]
发表于 2021-10-31 16:25:10 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x

import urllib.request

url = "https://www.baidu.com/s?ie=utf-8&medium=0&rtt=4&bsst=1&rsv_dl=news_t_sk&cl=2&wd=阿里巴巴"

header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) '
                        'Chrome/95.0.4638.54 Safari/537.36'}

request = urllib.request.Request(url, headers=header)

response = urllib.request.urlopen(request)

bs = BeautifulSoup(response, "html.parser")

问题: urllib函数不能识别中文? 只能通过requests模块获取吗,是不是可以在Request那里增加一个参数就可以识别了呢?有点疑惑。

谢谢大佬帮忙解答!
最佳答案
2021-10-31 19:30:08
from urllib.parse import quote
keyword = '壁纸'
url = 'https://www.baidu.com/s?wd=' + quote(keyword)
print(url)
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2021-10-31 16:34:55 | 显示全部楼层
https://blog.csdn.net/mouday/article/details/80278938
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2021-10-31 17:22:09 | 显示全部楼层


from urllib request import quote,unquote 没有这个库啊,在setting添加也没有
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-10-31 17:32:12 From FishC Mobile | 显示全部楼层
from urllib.request import quote,unquote
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2021-10-31 18:47:41 | 显示全部楼层
hrpzcf 发表于 2021-10-31 17:32
from urllib.request import quote,unquote

Cannot find reference 'quote' in 'request.pyi' 一样的 有这个问题
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-10-31 19:30:08 | 显示全部楼层    本楼为最佳答案   
from urllib.parse import quote
keyword = '壁纸'
url = 'https://www.baidu.com/s?wd=' + quote(keyword)
print(url)
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-10-31 19:33:04 | 显示全部楼层
import urllib.request
# from urllib.request import quote
from urllib.parse import quote # 上面一句不行就试试这个,我用两个都正常工作

from bs4 import BeautifulSoup

cn = quote("阿里巴巴")
url = (
    "https://www.baidu.com/s?ie=utf-8&medium=0&rtt=4&bsst=1&rsv_dl=news_t_sk&cl=2&wd=%s"
    % cn
)

header = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) "
    "Chrome/95.0.4638.54 Safari/537.36"
}

request = urllib.request.Request(url, headers=header)

response = urllib.request.urlopen(request)

# bs = BeautifulSoup(response, "html.parser")

print(response.read().decode("utf-8"))
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 1 反对 0

使用道具 举报

发表于 2021-10-31 19:33:41 | 显示全部楼层
from urllib.parse import quote
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-10-31 19:35:22 | 显示全部楼层
import urllib.request
from urllib.parse import quote
from bs4 import BeautifulSoup

wd = quote('阿里巴巴')

url = f"https://www.baidu.com/s?ie=utf-8&medium=0&rtt=4&bsst=1&rsv_dl=news_t_sk&cl=2&wd={wd}"

header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) '
                        'Chrome/95.0.4638.54 Safari/537.36'}

req = urllib.request.Request(url, headers=header)

response = urllib.request.urlopen(req)

bs = BeautifulSoup(response, "html.parser")
print(bs)
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2021-11-1 00:28:12 | 显示全部楼层
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-1-12 20:58

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表