马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册
x
本帖最后由 夏煜哥 于 2022-3-19 23:24 编辑
众所周知,鱼C论坛没有user-agent的检测,所以很适合新手开刀......
注:我没有任何邪恶的想法(比如以前的大规模攻击)
[1]
from urllib.request import *
import bs4
a = urlopen('https://fishc.com.cn/plugin.php?id=k_misign:sign')
s = bs4.BeautifulSoup(a, 'html.parser')
b = s.find_all('div',class_='y')
print(b[2].text[:-5])
大家搜一下网址,会发现其实是论坛的签到界面。
主要功能是爬取“今日签到之星”与 “历史最高人数”(也比较好理解,毕竟是嵌在源代码里的)
当时没装requests,所以用了urllib.request。
所以,这样也是行的:import requests as r
import bs4
a = r.get('https://fishc.com.cn/plugin.php?id=k_misign:sign')
s = bs4.BeautifulSoup(a.text, 'html.parser')
b = s.find_all('div',class_='y')
print(b[2].text[:-5])
[2]import requests as r
import bs4
import urllib.request as requ
a = r.get('https://ilovefishc.com/books')
a.encoding = 'utf-8'
s = bs4.BeautifulSoup(a.text, 'html.parser')
b = s.find_all(target='_blank')
for i in b:
print(i.text)
熟悉鱼C的朋友都知道,这是鱼C工作室原创教材网站。
爬取书籍与其购买渠道。
同上,也可改成urlopen()版本。
其实, 第2个爬虫有一个Bug,不知道大家发现没有。在评论区告诉我解决方案吧!
|