鱼C论坛

 找回密码
 立即注册
查看: 2598|回复: 8

爬虫卡在了第一步,

[复制链接]
发表于 2021-5-11 10:57:37 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
 import re
import requests as r
from bs4 import BeautifulSoup
import json
from tqdm import tqdm

# 1. 发送请求,获取首页
response = r.get("https://www.yooc.me/group/2694692/exam/191841/detail")
json_str = response.content.decode()
print(json_str)
# 2. 解析数据,提取目标字符串
# 3. 保存数据为json文件
<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <meta http-equiv="X-UA-Compatible" content="ie=edge">
    <title>维护ing</title>
    <style>
        body {
            margin: 0;
            font-family: "Microsoft YaHei", "STHeiti", Helvetica, Arial, sans-serif;
            font-size: 16px;
            color: #455a64;
        }
        a {
            color: #07a9ea;
            text-decoration: none;
        }
        strong {
            color: #07a9ea;
        }
        h1 {
            font-size: 30px;
        }
        p {
            line-height: 1.5;
        }
        .container {
            width: 720px;
            margin: 8em auto;
        }     
        </style>
</head>
<body>
        <div class="container">
                <h1>
                    亲爱的易友:

                </h1>
                <p>
                当前用户过多,请刷新一下页面,再试一下,谢谢。
                <br><br>
                给您带来不便敬请谅解!
                </p >
            </div>
    
</body>
</html>

说一下我的思路,通过访问网页,进入练习,然后然后全选第一个选项,提交试卷,查看答案解析,提取解析界面源代码中的题目和答案,判断是否在题目库中,没有则保存为json文件.重复以上步骤,遍历题库.现在卡在了第一步,不管试几次都是这个!!!
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2021-5-11 20:31:37 | 显示全部楼层
本帖最后由 suchocolate 于 2021-5-11 21:07 编辑

url打开就是这个,你是不是拿错url了。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2021-5-11 21:12:54 | 显示全部楼层
本帖最后由 白本羽 于 2021-5-11 21:20 编辑
suchocolate 发表于 2021-5-11 20:31
url打开就是这个,你是不是拿错url了。


没错啊,我手动刷新网页是可以访问的,但是用python就不行,就一直返回这个。。。,是不是跟网页的加载有关系啊。。。还是cookies登录,我还没学到这,刚看了个小案例,想自己写,上来就懵了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-5-11 22:24:13 | 显示全部楼层
需要登录才能进入考试。你请求时携带登录后的cookie试试。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-5-11 22:28:32 | 显示全部楼层
白本羽 发表于 2021-5-11 21:12
没错啊,我手动刷新网页是可以访问的,但是用python就不行,就一直返回这个。。。,是不是跟网页的加载 ...

Screenshot 2021-05-11 222710.jpg
我这边访问那个url得到的就是这个,也就是说你的代码没有问题,显示是正常的。
所以要不你把原始网页发出来,看看你是如何获得上面这个url的。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-5-12 06:04:26 | 显示全部楼层
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2021-5-12 09:58:46 | 显示全部楼层
是不是因为没有cookie
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2021-5-12 18:11:11 | 显示全部楼层
fumun 发表于 2021-5-12 09:58
是不是因为没有cookie

我还没接触cookie,在学习中。。。只是想试下自己能不能写一个爬虫
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2021-5-12 18:14:23 | 显示全部楼层
YunGuo 发表于 2021-5-11 22:24
需要登录才能进入考试。你请求时携带登录后的cookie试试。

还不会。。。在学习中。。。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-1-15 21:09

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表