鱼C论坛

 找回密码
 立即注册
查看: 1466|回复: 0

[作品展示] 爬虫:2个拿我们老窝开刀的爬虫

[复制链接]
发表于 2022-3-19 23:20:30 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
本帖最后由 夏煜哥 于 2022-3-19 23:24 编辑

        众所周知,鱼C论坛没有user-agent的检测,所以很适合新手开刀......
        注:我没有任何邪恶的想法(比如以前的大规模攻击)
        [1]
from urllib.request import *
import bs4

a = urlopen('https://fishc.com.cn/plugin.php?id=k_misign:sign')

s = bs4.BeautifulSoup(a, 'html.parser')

b = s.find_all('div',class_='y')

print(b[2].text[:-5])

        大家搜一下网址,会发现其实是论坛的签到界面。
        主要功能是爬取“今日签到之星”与 “历史最高人数”(也比较好理解,毕竟是嵌在源代码里的)
        当时没装requests,所以用了urllib.request。
        所以,这样也是行的:
import requests as r
import bs4

a = r.get('https://fishc.com.cn/plugin.php?id=k_misign:sign')


s = bs4.BeautifulSoup(a.text, 'html.parser')

b = s.find_all('div',class_='y')

print(b[2].text[:-5])

[2]
import requests as r
import bs4
import urllib.request as requ

a = r.get('https://ilovefishc.com/books')
a.encoding = 'utf-8'

s = bs4.BeautifulSoup(a.text, 'html.parser')

b = s.find_all(target='_blank')

for i in b:
    print(i.text)

        熟悉鱼C的朋友都知道,这是鱼C工作室原创教材网站。
        爬取书籍与其购买渠道。
        同上,也可改成urlopen()版本。

       

        其实, 第2个爬虫有一个Bug,不知道大家发现没有。在评论区告诉我解决方案吧!

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-1-11 23:53

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表