爬虫:2个拿我们老窝开刀的爬虫
本帖最后由 夏煜哥 于 2022-3-19 23:24 编辑众所周知,鱼C论坛没有user-agent的检测,所以很适合新手开刀......{:5_109:}
注:我没有任何邪恶的想法(比如以前的大规模攻击)
from urllib.request import *
import bs4
a = urlopen('https://fishc.com.cn/plugin.php?id=k_misign:sign')
s = bs4.BeautifulSoup(a, 'html.parser')
b = s.find_all('div',class_='y')
print(b.text[:-5])
大家搜一下网址,会发现其实是论坛的签到界面。
主要功能是爬取“今日签到之星”与 “历史最高人数”(也比较好理解,毕竟是嵌在源代码里的)
当时没装requests,所以用了urllib.request。
所以,这样也是行的:
import requests as r
import bs4
a = r.get('https://fishc.com.cn/plugin.php?id=k_misign:sign')
s = bs4.BeautifulSoup(a.text, 'html.parser')
b = s.find_all('div',class_='y')
print(b.text[:-5])
import requests as r
import bs4
import urllib.request as requ
a = r.get('https://ilovefishc.com/books')
a.encoding = 'utf-8'
s = bs4.BeautifulSoup(a.text, 'html.parser')
b = s.find_all(target='_blank')
for i in b:
print(i.text)
熟悉鱼C的朋友都知道,这是鱼C工作室原创教材网站。
爬取书籍与其购买渠道。
同上,也可改成urlopen()版本。
其实, 第2个爬虫有一个Bug,不知道大家发现没有。在评论区告诉我解决方案吧!
在实际运行时,爬虫2会输出以下文本:《零基础入门学习Web开发》(HTML5 & CSS3)
购买链接(限量签名版)
《零基础入门学习Python》(第2版)
+京东
+当当
+天猫
《零基础入门学习C语言》
+京东
+当当
+天猫
+京东
+当当
+天猫
+京东
+当当
+天猫
《零基础入门学习Python》(第1版)
+鱼C工作室官方店
但点开链接(https://ilovefishc.com/books/)是,会看见是那样的:
所以,怎么找到消失的书名啊!!!{:5_98:}
页:
[1]