鱼C论坛

 找回密码
 立即注册
查看: 1131|回复: 4

爬小说有一些问题,请大神指教。

[复制链接]
发表于 2018-2-1 21:20:18 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
本帖最后由 不尴尬 于 2018-2-1 21:52 编辑
  1. import requests
  2. import re
  3. import time
  4. import random

  5. headers = {'User-Agent':
  6. 'Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:58.0) Gecko/20100101 Firefox/58.0'}

  7. def get_chapter_data(url):
  8.     res = requests.get(url,headers=headers)
  9.     res.encoding = 'gbk'
  10.     html = res.text
  11.     chapter_data = re.findall(r'<div class="yd_text2">(.*?)</div>',html,re.S)[0]
  12.     chapter_data = chapter_data.strip()
  13.     chapter_data = chapter_data.replace('&nbsp;','')
  14.     chapter_data = chapter_data.replace('<br />','')
  15.     return chapter_data

  16. def get_chapter_infos(novel_url):
  17.     res = requests.get(novel_url,headers=headers)
  18.     res.encoding = 'gbk'
  19.     html = res.text
  20.     chapter_infos = re.findall(r'<li><a href="(.*?)">(.*?)</a></li>',html,re.S)
  21.     return chapter_infos

  22. url ='https://www.88dushu.com/xiaoshuo/71/71618/'
  23. chapter_info = get_chapter_infos(url)
  24. #print(chapter_info)
  25. f = open('C:/Users/Administrator/Desktop/test(py)/废土崛起(1).txt', 'w',encoding='gbk')
  26. for chapter in chapter_info:
  27.     chapter_data = get_chapter_data('https://www.88dushu.com/xiaoshuo/71/71618/%s' %chapter[0])
  28.     f.write(chapter[1])
  29.     f.write('\n')
  30.     f.write(chapter_data)
  31.     print(chapter[1])
  32.     time.sleep(random.randint(1,3))
  33. f.close()
复制代码
NEX@I}7`QJA4P(L0}H0E`OJ.png
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2018-2-1 21:49:29 | 显示全部楼层
图片
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2018-2-1 22:01:55 | 显示全部楼层
你用debug看啊!问题告诉你索引超界了!
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-2-1 23:28:02 | 显示全部楼层
太阳花田 发表于 2018-2-1 22:01
你用debug看啊!问题告诉你索引超界了!

debug不会
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-2-2 09:52:15 | 显示全部楼层

你pycharm右键点击run下面有一个debug啊!
你先在错误行行左边点击左键出现小红点,程序运行到这里就会停止,你看你程序里面各个参数的值
你可以在各种地方设置多个小红点,下面左边像暂停的绿色三角形点一下就会运行一步  到下一个小红点
这是最基本的操作,其他你去网上百度下吧,我这里没法贴图不好说。
另外:debug是基础   你不会怎么学到爬虫的!我真有点佩服你!
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-12-27 16:40

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表