夏煜哥 发表于 2022-3-19 23:20:30

爬虫:2个拿我们老窝开刀的爬虫

本帖最后由 夏煜哥 于 2022-3-19 23:24 编辑

        众所周知,鱼C论坛没有user-agent的检测,所以很适合新手开刀......{:5_109:}
        注:我没有任何邪恶的想法(比如以前的大规模攻击)
       
        from urllib.request import *
import bs4

a = urlopen('https://fishc.com.cn/plugin.php?id=k_misign:sign')

s = bs4.BeautifulSoup(a, 'html.parser')

b = s.find_all('div',class_='y')

print(b.text[:-5])

        大家搜一下网址,会发现其实是论坛的签到界面。
        主要功能是爬取“今日签到之星”与 “历史最高人数”(也比较好理解,毕竟是嵌在源代码里的)
        当时没装requests,所以用了urllib.request。
        所以,这样也是行的:
import requests as r
import bs4

a = r.get('https://fishc.com.cn/plugin.php?id=k_misign:sign')


s = bs4.BeautifulSoup(a.text, 'html.parser')

b = s.find_all('div',class_='y')

print(b.text[:-5])


import requests as r
import bs4
import urllib.request as requ

a = r.get('https://ilovefishc.com/books')
a.encoding = 'utf-8'

s = bs4.BeautifulSoup(a.text, 'html.parser')

b = s.find_all(target='_blank')

for i in b:
    print(i.text)

        熟悉鱼C的朋友都知道,这是鱼C工作室原创教材网站。
        爬取书籍与其购买渠道。
        同上,也可改成urlopen()版本。

       

        其实, 第2个爬虫有一个Bug,不知道大家发现没有。在评论区告诉我解决方案吧!

在实际运行时,爬虫2会输出以下文本:《零基础入门学习Web开发》(HTML5 & CSS3)
购买链接(限量签名版)
《零基础入门学习Python》(第2版)
+京东
+当当
+天猫
《零基础入门学习C语言》
+京东
+当当
+天猫
+京东
+当当
+天猫
+京东
+当当
+天猫
《零基础入门学习Python》(第1版)
+鱼C工作室官方店

        但点开链接(https://ilovefishc.com/books/)是,会看见是那样的:

        所以,怎么找到消失的书名啊!!!{:5_98:}
       
页: [1]
查看完整版本: 爬虫:2个拿我们老窝开刀的爬虫