白本羽 发表于 2021-5-11 10:57:37

爬虫卡在了第一步,

import re
import requests as r
from bs4 import BeautifulSoup
import json
from tqdm import tqdm

# 1. 发送请求,获取首页
response = r.get("https://www.yooc.me/group/2694692/exam/191841/detail")
json_str = response.content.decode()
print(json_str)
# 2. 解析数据,提取目标字符串
# 3. 保存数据为json文件
<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <meta http-equiv="X-UA-Compatible" content="ie=edge">
    <title>维护ing</title>
    <style>
      body {
            margin: 0;
            font-family: "Microsoft YaHei", "STHeiti", Helvetica, Arial, sans-serif;
            font-size: 16px;
            color: #455a64;
      }
      a {
            color: #07a9ea;
            text-decoration: none;
      }
      strong {
            color: #07a9ea;
      }
      h1 {
            font-size: 30px;
      }
      p {
            line-height: 1.5;
      }
      .container {
            width: 720px;
            margin: 8em auto;
      }   
      </style>
</head>
<body>
      <div class="container">
                <h1>
                  亲爱的易友:

                </h1>
                <p>
                当前用户过多,请刷新一下页面,再试一下,谢谢。
                <br><br>
                给您带来不便敬请谅解!
                </p >
            </div>
   
</body>
</html>



说一下我的思路,通过访问网页,进入练习,然后然后全选第一个选项,提交试卷,查看答案解析,提取解析界面源代码中的题目和答案,判断是否在题目库中,没有则保存为json文件.重复以上步骤,遍历题库.现在卡在了第一步,不管试几次都是这个!!!

suchocolate 发表于 2021-5-11 20:31:37

本帖最后由 suchocolate 于 2021-5-11 21:07 编辑

url打开就是这个,你是不是拿错url了。

白本羽 发表于 2021-5-11 21:12:54

本帖最后由 白本羽 于 2021-5-11 21:20 编辑

suchocolate 发表于 2021-5-11 20:31
url打开就是这个,你是不是拿错url了。

没错啊,我手动刷新网页是可以访问的,但是用python就不行,就一直返回这个。。。,是不是跟网页的加载有关系啊。。。还是cookies登录,我还没学到这,刚看了个小案例,想自己写,上来就懵了

YunGuo 发表于 2021-5-11 22:24:13

需要登录才能进入考试。你请求时携带登录后的cookie试试。

suchocolate 发表于 2021-5-11 22:28:32

白本羽 发表于 2021-5-11 21:12
没错啊,我手动刷新网页是可以访问的,但是用python就不行,就一直返回这个。。。,是不是跟网页的加载 ...


我这边访问那个url得到的就是这个,也就是说你的代码没有问题,显示是正常的。
所以要不你把原始网页发出来,看看你是如何获得上面这个url的。

龙舞九天 发表于 2021-5-12 06:04:26

{:5_95:}

fumun 发表于 2021-5-12 09:58:46

是不是因为没有cookie

白本羽 发表于 2021-5-12 18:11:11

fumun 发表于 2021-5-12 09:58
是不是因为没有cookie

我还没接触cookie,在学习中。。。只是想试下自己能不能写一个爬虫

白本羽 发表于 2021-5-12 18:14:23

YunGuo 发表于 2021-5-11 22:24
需要登录才能进入考试。你请求时携带登录后的cookie试试。

还不会。。。在学习中。。。
页: [1]
查看完整版本: 爬虫卡在了第一步,