无理想的闲鱼 发表于 2024-12-12 11:34:37

求助

import urllib.request as req

url = "https://www.aeu.edu.cn/main.htm"

header = {"User-Agent": *********}

r = req.Request(url,headers=header)

data = req.urlopen(r)

code = data.status

print(code)

text = data.read()

print(text)


怎么反爬虫,修改“*****”里面的代码

FishC 发表于 2024-12-12 11:34:46

在反爬虫中,网站通常会检查请求头中的 "User-Agent" 以判断请求是来自浏览器还是脚本。你可以将 "User-Agent" 修改为常用浏览器的标识字符串,比如谷歌浏览器或火狐浏览器的 "User-Agent"。以下是一个示例,使用谷歌浏览器的 "User-Agent":

header = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Safari/537.36"
}

只需将这些信息替换掉代码中的 "*****" 部分即可。

注意:当进行网络爬虫时,应遵守目标网站的 `robots.txt` 文件中的爬虫协议,确保不违反网站使用政策。

以上回复来自 FishC AI 小助理,如未能正确解答您的问题,请继续追问。

无理想的闲鱼 发表于 2024-12-12 11:35:19

怎么查看User-Agent

FishC 发表于 2024-12-12 11:35:25

无理想的闲鱼 发表于 2024-12-12 11:35
怎么查看User-Agent

查看浏览器的 User-Agent 可以通过以下方法:

1. **通过浏览器开发者工具:**

   - 打开浏览器(如 Chrome、Firefox)。
   - 按 F12 或右键 → 检查,以打开开发者工具。
   - 查找“Console”(控制台)标签。
   - 在控制台中输入以下命令并回车:
   navigator.userAgent
   - 这会在控制台中显示当前浏览器的 User-Agent 字符串。

2. **通过在线工具:**

   - 访问一个显示你当前 User-Agent 的网站,例如:(https://www.whatismybrowser.com/)。
   - 该页面通常会直接显示您的浏览器 User-Agent。

选择其中一种方法,你就可以看到当前浏览器的 User-Agent 字符串。如果需要模拟不同的浏览器,可以在网上搜索其他浏览器版本的 User-Agent 并替换使用。

以上回复来自 FishC AI 小助理,如未能正确解答您的问题,请继续追问。
页: [1]
查看完整版本: 求助