爬虫卡在了第一步,
import reimport requests as r
from bs4 import BeautifulSoup
import json
from tqdm import tqdm
# 1. 发送请求,获取首页
response = r.get("https://www.yooc.me/group/2694692/exam/191841/detail")
json_str = response.content.decode()
print(json_str)
# 2. 解析数据,提取目标字符串
# 3. 保存数据为json文件
<!DOCTYPE html>
<html lang="en">
<head>
<meta charset="UTF-8">
<meta name="viewport" content="width=device-width, initial-scale=1.0">
<meta http-equiv="X-UA-Compatible" content="ie=edge">
<title>维护ing</title>
<style>
body {
margin: 0;
font-family: "Microsoft YaHei", "STHeiti", Helvetica, Arial, sans-serif;
font-size: 16px;
color: #455a64;
}
a {
color: #07a9ea;
text-decoration: none;
}
strong {
color: #07a9ea;
}
h1 {
font-size: 30px;
}
p {
line-height: 1.5;
}
.container {
width: 720px;
margin: 8em auto;
}
</style>
</head>
<body>
<div class="container">
<h1>
亲爱的易友:
</h1>
<p>
当前用户过多,请刷新一下页面,再试一下,谢谢。
<br><br>
给您带来不便敬请谅解!
</p >
</div>
</body>
</html>
说一下我的思路,通过访问网页,进入练习,然后然后全选第一个选项,提交试卷,查看答案解析,提取解析界面源代码中的题目和答案,判断是否在题目库中,没有则保存为json文件.重复以上步骤,遍历题库.现在卡在了第一步,不管试几次都是这个!!! 本帖最后由 suchocolate 于 2021-5-11 21:07 编辑
url打开就是这个,你是不是拿错url了。 本帖最后由 白本羽 于 2021-5-11 21:20 编辑
suchocolate 发表于 2021-5-11 20:31
url打开就是这个,你是不是拿错url了。
没错啊,我手动刷新网页是可以访问的,但是用python就不行,就一直返回这个。。。,是不是跟网页的加载有关系啊。。。还是cookies登录,我还没学到这,刚看了个小案例,想自己写,上来就懵了 需要登录才能进入考试。你请求时携带登录后的cookie试试。 白本羽 发表于 2021-5-11 21:12
没错啊,我手动刷新网页是可以访问的,但是用python就不行,就一直返回这个。。。,是不是跟网页的加载 ...
我这边访问那个url得到的就是这个,也就是说你的代码没有问题,显示是正常的。
所以要不你把原始网页发出来,看看你是如何获得上面这个url的。 {:5_95:} 是不是因为没有cookie fumun 发表于 2021-5-12 09:58
是不是因为没有cookie
我还没接触cookie,在学习中。。。只是想试下自己能不能写一个爬虫 YunGuo 发表于 2021-5-11 22:24
需要登录才能进入考试。你请求时携带登录后的cookie试试。
还不会。。。在学习中。。。
页:
[1]