鱼C论坛

 找回密码
 立即注册
查看: 2334|回复: 0

[作品展示] 起点网小说信息爬虫

[复制链接]
发表于 2020-11-25 21:16:09 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
起点网爬虫
使用方法
快速开始

如果你是有经验的人, 那么你只需要看这里就可以了

快速开始
打开终端输入以下命令
git clone https://github.com/notnotype/qidian.git
cd qidian
pip install -r requirements.txt
python main.py spider --chan-id 1 --sub-cata-id 1 
即可运行爬虫, 爬取第一个大类, 第一个小类下所有项目 我们可以使用一下命令来加强我们爬虫的爬取策略
python main.py spider --outfile 1-1.json --timeout 10 --outfile 1-1.json
该命令为爬行设定了时间10s, 设定了数据的输出文件1-1.json 附上所有命令的解释
>python main.py spider --help 
Usage: main.py spider [OPTIONS]

  爬取大类chan_id, 小类sub_cata_id下的所有数据

Options:
  -ci, --chan-id TEXT       大类id
  -sci, --sub-cata-id TEXT  小类id
  -h, --headers FILENAME    携带请求头文件
  -t, --timeout FLOAT       设置请求超时时间
  -o, --outfile TEXT        设置输出文件
  -f, --fromfile TEXT       从文件加载数据继续爬取
  -d, --debug BOOLEAN       启用调试(更加详细)
  --help                    Show this message and exit.

技术分析
起点网使用字体图标反爬
详细参考: https://github.com/notnotype/qidian/blob/main/%E5%85%B3%E4%BA%8EFontIconMappingTable%E7%9A%84%E8%AF%B4%E6%98%8E.md
使用工具:
python3.8
pycharm
使用模块
click~=7.1.2
requests~=2.24.0
lxml~=4.5.2
fonttools~=4.16.1






想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-1-17 07:40

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表