网页标签提取,Python交流,编程语言专区,鱼C论坛

Twilight6 发表于 2020-5-19 13:09:26

xiaosi4081 发表于 2020-5-19 13:04
举个栗子吧

打开浏览器审核元素，里面的 User-Agent 就是浏览器型号，我们发出请求时候都要带上 User-Agent 信息，发送给服务器，服务器接收信息

如果你用python访问而且你还没设置 User-Agent 型号信息，默认就会把python的型号发给服务器，若网站有反爬机制，你请求了，他直接拒绝你的访问了

Twilight6 发表于 2020-5-19 13:12:23

本帖最后由 Twilight6 于 2020-5-19 13:13 编辑

url = 'https://www.baidu.com'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36'
}

request = Request(url,headers=headers)
response = urlopen(request)
html = response.read().decode()

最基本的伪装 ————设置 headers 参数

Twilight6 发表于 2020-5-19 13:20:29

小甲鱼爬虫课程建议看完下~，甲鱼哥说的比我更好理解的~

如果帮助到你了~就给个最佳答案吧~{:10_287:}

页: 1 [2]

鱼C论坛's Archiver