[已解决]爬虫新手大佬来指点指点_已解决

涛4091 · 发表于 2018-3-10 19:03:45

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

本帖最后由涛4091 于 2023-2-23 11:30 编辑

'''
获取豆瓣舌尖三上的评论
Date = 2018/3/10
findall 所有
'''
# 导入模块
import requests
import re # 导入正则表达式
url = 'https://movie.douban.com/subject/25875034/comments?start=0&limit=20&sort=new_score&status=P&percent_type='
# 先获取里面的的内容在保存起来
html = requests.get(url)
print (html) # 返回200 成功
#print (html.text) #打印出网页源代码
#然后再筛选数据：正则表达式 re re.findall 返回列表形式 Beautiful Soup 4
data = re.findall('<p class=""> (.*?)\n </p>',html.text) #re.findall 返回的是列表保存成 data
'''
括号里点星问能匹配所有
这里面有八个空格 + 一个换行符后面加 re.s 匹配换行符
'''
#print (data)
#再写入文件
#with open 写入
with open('C:/Users/Administrator/Desktop/Pachong/shejian.txt','a') as ff:
for i in range(20):
ff.write(data[i] + '\n')

复制代码

我这里到最后为什么会报错
IndexError: list index out of range

最佳答案

月排行榜 / 总排行榜

°蓝鲤歌蓝

2018-3-10 23:08:23

涛4091 发表于 2018-3-10 23:06
怎么会跳过中间的那个4个评论呢？
有几种可能

评论有 20 个吗？可能是那四个评论没有换行，没有匹配到。

跳转到最佳答案楼层

涛4091 · 发表于 2018-3-10 19:17:08

这个data 是没问题的

°蓝鲤歌蓝 · 发表于 2018-3-10 19:18:45

应该是 data 列表没有不够20个元素。

塔利班 · 发表于 2018-3-10 19:18:54

评论有那么多么，你的索引值超了

Charles未晞 · 发表于 2018-3-10 19:56:42

print(len(data))
for d in data:
print(d)
break

复制代码

像这样检查一下自己的数据。。。
说不定被XX了。。。
提示就是超出索引值。

inverseli · 发表于 2018-3-10 20:03:10

没必要那样存啊

datas = re.findall('<p class=""> (.*?)\n </p>',html.text) #re.findall 返回的是列表保存成 data
'''
括号里点星问能匹配所有
这里面有八个空格 + 一个换行符后面加 re.s 匹配换行符
'''
#print (data)
#再写入文件
#with open 写入
with open('F:\shejian.txt','a+') as ff:
for data in datas:
ff.write(data + '\n')

复制代码

这样就行

°蓝鲤歌蓝 · 发表于 2018-3-10 20:04:34

涛4091 发表于 2018-3-10 19:17
这个data 是没问题的

data 没问题，但是里面的元素只有 16 个，你的for 循环是20次。

涛4091 · 发表于 2018-3-10 23:05:19

Charles未晞发表于 2018-3-10 19:56
像这样检查一下自己的数据。。。
说不定被XX了。。。
提示就是超出索引值。

不太懂
只要打印出data的第[0]个就跳出了还有什么作用

涛4091 · 发表于 2018-3-10 23:06:28

°蓝鲤歌蓝发表于 2018-3-10 20:04
data 没问题，但是里面的元素只有 16 个，你的for 循环是20次。

怎么会跳过中间的那个4个评论呢？
有几种可能

°蓝鲤歌蓝 · 发表于 2018-3-10 23:08:23

涛4091 发表于 2018-3-10 23:06
怎么会跳过中间的那个4个评论呢？
有几种可能

评论有 20 个吗？可能是那四个评论没有换行，没有匹配到。

涛4091 · 发表于 2018-3-11 10:33:33

°蓝鲤歌蓝发表于 2018-3-10 23:08
评论有 20 个吗？可能是那四个评论没有换行，没有匹配到。

data 后面不加 \n 加re.s 也可以
re.s 是什么意思

°蓝鲤歌蓝 · 发表于 2018-3-11 10:36:46

涛4091 发表于 2018-3-11 10:33
data 后面不加 \n 加re.s 也可以
re.s 是什么意思

匹配包括换行符在内的元素吧

账号		自动登录	找回密码
密码			立即注册

[已解决]爬虫新手大佬来指点指点_已解决

马上注册，结交更多好友，享用更多功能^_^

回帖奖励 +1 鱼币

回帖奖励 +1 鱼币

回帖奖励 +1 鱼币

浏览过的版块

[已解决]爬虫新手 大佬来指点指点_已解决

马上注册，结交更多好友，享用更多功能^_^

回帖奖励 +1 鱼币

回帖奖励 +1 鱼币

回帖奖励 +1 鱼币

浏览过的版块

[已解决]爬虫新手大佬来指点指点_已解决