【第四版】pyspider框架爬取笔趣阁小说
本帖最后由 admintest166 于 2020-3-15 22:47 编辑最近爬取太多了的妹子图了 有点索然无味了{:10_254:}
但是手又痒 总想要搞事情 先是爬取了fishc下所有python版块的帖子
发现不好玩 最后看见大佬发了一个天气的 https://fishc.com.cn/thread-158556-1-1.html {:10_257:} {:10_257:}
然后用了一下 发现有个小说的关键字 提醒了我 小说网站是我以前入门爬虫一直没有逾越的坎
是以至此 我也不装了 我摊牌了 {:10_279:}
由于明天还要上网课 简单做了一下 原本是想把整个网站爬完去 已结我心里的坎
但是我发现我又不看小说 爬完也没用 占空间代码在下方 回复即可你们想要爬完这个网站 修改一下就行 改下CSS选择器加个方法啥的
最近弄pyspider有点上头了但是呢 在linux下 pyspider的爬取速度 比windows快一丢丢
(我linux上部署pyspider光BUG都解决了半个小时{:10_306:} {:10_306:} )
上图! 索然无味呀{:10_279:}
**** Hidden Message *****
贴代码要用这种格式! 一个账号 发表于 2020-3-15 22:11
{:10_254:}好哒 在linux下 应该是文件类型的原因 导致没有办法将内容写入 有一部分有 有一部分没有 但是在windows下正常
有空再修复一下{:10_266:} linux下的写入问题 已查明
是linux系统的原因 在linux中无论是cat 还是vim/vi 都显示为空 但是下载到windows却是有内容的 所以如果是linux的同学不用慌 下载到windows就行了{:10_256:} 假面的假面 发表于 2020-3-15 22:45
使用3.8的版本。在pip install pyspider之后系统提示安装完毕,但是在开启的时候系统进行了报错提醒,不知 ...
因为async这个关键字
参考https://blog.csdn.net/weixin_41698864/article/details/89444910 {:10_249:} 楼主很骚 瞧瞧 看看 学习观摩 6 感谢分享 {:5_103:} 看看
小说沉迷者的福音啊 谢谢分享~~~ 有反爬啊,你爬长篇小说有木有遇到 wp231957 发表于 2020-5-3 14:51
有反爬啊,你爬长篇小说有木有遇到
没有啊 我连headers都不没加 admintest166 发表于 2020-5-3 18:06
没有啊 我连headers都不没加
我爬了一个2000多章的小说,有时下载七八十章,就挂掉,最好的没过200章,当然了,我不是用python爬的
页:
[1]
2