爬虫：2个拿我们老窝开刀的爬虫,Python交流,编程语言专区,鱼C论坛

夏煜哥 发表于 2022-3-19 23:20:30

爬虫：2个拿我们老窝开刀的爬虫

本帖最后由夏煜哥于 2022-3-19 23:24 编辑

众所周知，鱼C论坛没有user-agent的检测，所以很适合新手开刀......{:5_109:}
注：我没有任何邪恶的想法（比如以前的大规模攻击）

from urllib.request import *
import bs4

a = urlopen('https://fishc.com.cn/plugin.php?id=k_misign:sign')

s = bs4.BeautifulSoup(a, 'html.parser')

b = s.find_all('div',class_='y')

print(b.text[:-5])

大家搜一下网址，会发现其实是论坛的签到界面。
主要功能是爬取“今日签到之星”与 “历史最高人数”（也比较好理解，毕竟是嵌在源代码里的）
当时没装requests，所以用了urllib.request。
所以，这样也是行的：
import requests as r
import bs4

a = r.get('https://fishc.com.cn/plugin.php?id=k_misign:sign')

s = bs4.BeautifulSoup(a.text, 'html.parser')

b = s.find_all('div',class_='y')

print(b.text[:-5])

import requests as r
import bs4
import urllib.request as requ

a = r.get('https://ilovefishc.com/books')
a.encoding = 'utf-8'

s = bs4.BeautifulSoup(a.text, 'html.parser')

b = s.find_all(target='_blank')

for i in b:
print(i.text)

熟悉鱼C的朋友都知道，这是鱼C工作室原创教材网站。
爬取书籍与其购买渠道。
同上，也可改成urlopen()版本。

其实，第2个爬虫有一个Bug，不知道大家发现没有。在评论区告诉我解决方案吧！

在实际运行时，爬虫2会输出以下文本：《零基础入门学习Web开发》（HTML5 & CSS3）
购买链接（限量签名版）
《零基础入门学习Python》（第2版）
+京东
+当当
+天猫
《零基础入门学习C语言》
+京东
+当当
+天猫
+京东
+当当
+天猫
+京东
+当当
+天猫
《零基础入门学习Python》（第1版）
+鱼C工作室官方店

但点开链接（https://ilovefishc.com/books/）是，会看见是那样的：

所以，怎么找到消失的书名啊！！！{:5_98:}

页: [1]

鱼C论坛's Archiver

爬虫：2个拿我们老窝开刀的爬虫