admintest166 发表于 2020-3-15 21:56:09

【第四版】pyspider框架爬取笔趣阁小说

本帖最后由 admintest166 于 2020-3-15 22:47 编辑

最近爬取太多了的妹子图了 有点索然无味了{:10_254:}

但是手又痒 总想要搞事情 先是爬取了fishc下所有python版块的帖子

发现不好玩 最后看见大佬发了一个天气的 https://fishc.com.cn/thread-158556-1-1.html {:10_257:} {:10_257:}

然后用了一下 发现有个小说的关键字 提醒了我 小说网站是我以前入门爬虫一直没有逾越的坎

是以至此 我也不装了 我摊牌了 {:10_279:}

由于明天还要上网课 简单做了一下 原本是想把整个网站爬完去 已结我心里的坎

但是我发现我又不看小说 爬完也没用 占空间代码在下方 回复即可你们想要爬完这个网站 修改一下就行 改下CSS选择器加个方法啥的

最近弄pyspider有点上头了但是呢 在linux下 pyspider的爬取速度 比windows快一丢丢

(我linux上部署pyspider光BUG都解决了半个小时{:10_306:} {:10_306:} )

上图! 索然无味呀{:10_279:}
**** Hidden Message *****

一个账号 发表于 2020-3-15 22:11:36

贴代码要用这种格式!

admintest166 发表于 2020-3-15 22:15:51

一个账号 发表于 2020-3-15 22:11


{:10_254:}好哒

admintest166 发表于 2020-3-15 22:32:26

在linux下 应该是文件类型的原因 导致没有办法将内容写入 有一部分有 有一部分没有 但是在windows下正常

有空再修复一下{:10_266:}

admintest166 发表于 2020-3-15 22:45:50

linux下的写入问题 已查明

是linux系统的原因 在linux中无论是cat 还是vim/vi 都显示为空 但是下载到windows却是有内容的 所以如果是linux的同学不用慌 下载到windows就行了{:10_256:}

admintest166 发表于 2020-3-15 23:58:22

假面的假面 发表于 2020-3-15 22:45
使用3.8的版本。在pip install pyspider之后系统提示安装完毕,但是在开启的时候系统进行了报错提醒,不知 ...

因为async这个关键字
参考https://blog.csdn.net/weixin_41698864/article/details/89444910

admintest166 发表于 2020-3-18 16:32:48

{:10_249:}

[s]墨竹 发表于 2020-3-18 19:55:10

楼主很骚

海贼王是我的 发表于 2020-3-19 12:16:58

瞧瞧

TomsShelby 发表于 2020-3-19 13:26:35

看看

hanbing9989 发表于 2020-3-21 19:05:01

学习观摩

loveQQW 发表于 2020-3-30 22:46:50

6

18274508008 发表于 2020-4-3 21:55:29

感谢分享

chess12 发表于 2020-4-9 16:37:06

{:5_103:}

雪之下雪乃. 发表于 2020-4-9 16:55:58

看看

huwanjia 发表于 2020-4-9 17:47:38

小说沉迷者的福音啊

turbo_sun 发表于 2020-5-3 14:50:14

谢谢分享~~~

wp231957 发表于 2020-5-3 14:51:46

有反爬啊,你爬长篇小说有木有遇到

admintest166 发表于 2020-5-3 18:06:23

wp231957 发表于 2020-5-3 14:51
有反爬啊,你爬长篇小说有木有遇到

没有啊 我连headers都不没加

wp231957 发表于 2020-5-3 18:29:12

admintest166 发表于 2020-5-3 18:06
没有啊 我连headers都不没加

我爬了一个2000多章的小说,有时下载七八十章,就挂掉,最好的没过200章,当然了,我不是用python爬的
页: [1] 2
查看完整版本: 【第四版】pyspider框架爬取笔趣阁小说