鱼C论坛

 找回密码
 立即注册
查看: 2214|回复: 8

爬虫卡在了第一步,

[复制链接]
发表于 2021-5-11 10:57:37 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
  1. import re
  2. import requests as r
  3. from bs4 import BeautifulSoup
  4. import json
  5. from tqdm import tqdm

  6. # 1. 发送请求,获取首页
  7. response = r.get("https://www.yooc.me/group/2694692/exam/191841/detail")
  8. json_str = response.content.decode()
  9. print(json_str)
  10. # 2. 解析数据,提取目标字符串
  11. # 3. 保存数据为json文件
复制代码
  1. <!DOCTYPE html>
  2. <html lang="en">
  3. <head>
  4.     <meta charset="UTF-8">
  5.     <meta name="viewport" content="width=device-width, initial-scale=1.0">
  6.     <meta http-equiv="X-UA-Compatible" content="ie=edge">
  7.     <title>维护ing</title>
  8.     <style>
  9.         body {
  10.             margin: 0;
  11.             font-family: "Microsoft YaHei", "STHeiti", Helvetica, Arial, sans-serif;
  12.             font-size: 16px;
  13.             color: #455a64;
  14.         }
  15.         a {
  16.             color: #07a9ea;
  17.             text-decoration: none;
  18.         }
  19.         strong {
  20.             color: #07a9ea;
  21.         }
  22.         h1 {
  23.             font-size: 30px;
  24.         }
  25.         p {
  26.             line-height: 1.5;
  27.         }
  28.         .container {
  29.             width: 720px;
  30.             margin: 8em auto;
  31.         }     
  32.         </style>
  33. </head>
  34. <body>
  35.         <div class="container">
  36.                 <h1>
  37.                     亲爱的易友:

  38.                 </h1>
  39.                 <p>
  40.                 当前用户过多,请刷新一下页面,再试一下,谢谢。
  41.                 <br><br>
  42.                 给您带来不便敬请谅解!
  43.                 </p >
  44.             </div>
  45.    
  46. </body>
  47. </html>

复制代码


说一下我的思路,通过访问网页,进入练习,然后然后全选第一个选项,提交试卷,查看答案解析,提取解析界面源代码中的题目和答案,判断是否在题目库中,没有则保存为json文件.重复以上步骤,遍历题库.现在卡在了第一步,不管试几次都是这个!!!
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2021-5-11 20:31:37 | 显示全部楼层
本帖最后由 suchocolate 于 2021-5-11 21:07 编辑

url打开就是这个,你是不是拿错url了。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2021-5-11 21:12:54 | 显示全部楼层
本帖最后由 白本羽 于 2021-5-11 21:20 编辑
suchocolate 发表于 2021-5-11 20:31
url打开就是这个,你是不是拿错url了。


没错啊,我手动刷新网页是可以访问的,但是用python就不行,就一直返回这个。。。,是不是跟网页的加载有关系啊。。。还是cookies登录,我还没学到这,刚看了个小案例,想自己写,上来就懵了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-5-11 22:24:13 | 显示全部楼层
需要登录才能进入考试。你请求时携带登录后的cookie试试。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-5-11 22:28:32 | 显示全部楼层
白本羽 发表于 2021-5-11 21:12
没错啊,我手动刷新网页是可以访问的,但是用python就不行,就一直返回这个。。。,是不是跟网页的加载 ...

Screenshot 2021-05-11 222710.jpg
我这边访问那个url得到的就是这个,也就是说你的代码没有问题,显示是正常的。
所以要不你把原始网页发出来,看看你是如何获得上面这个url的。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-5-12 06:04:26 | 显示全部楼层
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2021-5-12 09:58:46 | 显示全部楼层
是不是因为没有cookie
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2021-5-12 18:11:11 | 显示全部楼层
fumun 发表于 2021-5-12 09:58
是不是因为没有cookie

我还没接触cookie,在学习中。。。只是想试下自己能不能写一个爬虫
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2021-5-12 18:14:23 | 显示全部楼层
YunGuo 发表于 2021-5-11 22:24
需要登录才能进入考试。你请求时携带登录后的cookie试试。

还不会。。。在学习中。。。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-5-13 14:00

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表