鱼C论坛

 找回密码
 立即注册
查看: 1866|回复: 11

[已解决]爬虫新手 大佬来指点指点_已解决

[复制链接]
发表于 2018-3-10 19:03:45 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
本帖最后由 涛4091 于 2023-2-23 11:30 编辑
  1. '''
  2. 获取豆瓣舌尖三上的评论
  3. Date = 2018/3/10
  4. findall 所有
  5. '''
  6. # 导入模块
  7. import requests
  8. import re  # 导入正则表达式

  9. url = 'https://movie.douban.com/subject/25875034/comments?start=0&limit=20&sort=new_score&status=P&percent_type='
  10. # 先获取里面的的内容 在保存起来
  11. html = requests.get(url)

  12. print (html) # 返回200 成功
  13. #print (html.text) #打印出网页源代码

  14. #然后再筛选数据 :正则表达式 re re.findall 返回列表形式    Beautiful Soup 4

  15. data = re.findall('<p class=""> (.*?)\n        </p>',html.text) #re.findall 返回的是列表保 存成 data
  16. '''
  17. 括号里 点星问 能匹配所有

  18. 这里面有 八个空格 + 一个换行符  后面加 re.s 匹配换行符
  19. '''
  20. #print (data)

  21. #再写入文件
  22.           #with open 写入

  23. with open('C:/Users/Administrator/Desktop/Pachong/shejian.txt','a') as ff:
  24.     for i in range(20):
  25.         ff.write(data[i] + '\n')
  26.      
复制代码


我这里到最后为什么会报错
IndexError: list index out of range
最佳答案
2018-3-10 23:08:23
涛4091 发表于 2018-3-10 23:06
怎么会跳过中间的那个4个评论呢?
有几种可能

评论有 20 个吗?可能是那四个评论没有换行,没有匹配到。
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2018-3-10 19:17:08 | 显示全部楼层
这个data 是没问题的
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-3-10 19:18:45 | 显示全部楼层

回帖奖励 +1 鱼币

应该是 data 列表没有不够20个元素。
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-3-10 19:18:54 | 显示全部楼层

回帖奖励 +1 鱼币

评论有那么多么,你的索引值超了
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-3-10 19:56:42 | 显示全部楼层

回帖奖励 +1 鱼币

  1. print(len(data))
  2. for d in data:
  3.     print(d)
  4.     break
复制代码

像这样检查一下自己的数据。。。
说不定被XX了。。。
提示就是超出索引值。
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-3-10 20:03:10 | 显示全部楼层
没必要那样存啊
  1. datas = re.findall('<p class=""> (.*?)\n        </p>',html.text) #re.findall 返回的是列表保 存成 data
  2. '''
  3. 括号里 点星问 能匹配所有

  4. 这里面有 八个空格 + 一个换行符  后面加 re.s 匹配换行符
  5. '''
  6. #print (data)

  7. #再写入文件
  8.           #with open 写入

  9. with open('F:\shejian.txt','a+') as ff:
  10.     for data in datas:
  11.         ff.write(data + '\n')
复制代码

这样就行
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-3-10 20:04:34 | 显示全部楼层
涛4091 发表于 2018-3-10 19:17
这个data 是没问题的

data 没问题,但是里面的元素只有 16 个,你的for 循环是20次。
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-3-10 23:05:19 | 显示全部楼层
Charles未晞 发表于 2018-3-10 19:56
像这样检查一下自己的数据。。。
说不定被XX了。。。
提示就是超出索引值。

不太懂
只要打印出data的第[0]个就跳出了 还有什么作用
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-3-10 23:06:28 | 显示全部楼层
°蓝鲤歌蓝 发表于 2018-3-10 20:04
data 没问题,但是里面的元素只有 16 个,你的for 循环是20次。

怎么会跳过中间的那个4个评论呢?
有几种可能
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-3-10 23:08:23 | 显示全部楼层    本楼为最佳答案   
涛4091 发表于 2018-3-10 23:06
怎么会跳过中间的那个4个评论呢?
有几种可能

评论有 20 个吗?可能是那四个评论没有换行,没有匹配到。
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-3-11 10:33:33 | 显示全部楼层
°蓝鲤歌蓝 发表于 2018-3-10 23:08
评论有 20 个吗?可能是那四个评论没有换行,没有匹配到。

data 后面不加 \n        加re.s 也可以
re.s 是什么意思
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-3-11 10:36:46 | 显示全部楼层
涛4091 发表于 2018-3-11 10:33
data 后面不加 \n        加re.s 也可以
re.s 是什么意思

匹配包括换行符在内的元素吧
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2026-3-8 10:48

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表