鱼C论坛

 找回密码
 立即注册
查看: 1758|回复: 4

python3X 爬虫代码求助,不知道这个错误是什么?

[复制链接]
发表于 2017-2-3 21:00:15 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
新手一枚,正在努力学习中,碰到困难了,求大神求助
拿爬取淘宝评论练练手,可是不怎么会写代码

附上代码
import re
import requests as rq
import pandas as pd
#爬取淘宝评论前9页
list1 = range(1,10)
for i in list1:
    list=[]
    url = 'https://rate.tmall.com/list_detail_rate.htm?itemId=42105400616&spuId=305417465&sellerId=2267266991&order=3&currentPage=(i)'
    myweb = rq.get(url)
    myjson = re.findall(r'"rateList":(.*?),"tags"',myweb.text)[0].rstrip(',"searchinfo":""')
    mytable = pd.read_json(myjson)
    list.append(mytable)
    print(list[0])

附上错误:
Traceback (most recent call last):
  File "C:/Users/11055/PycharmProjects/urll.py", line 11, in <module>
    myjson = re.findall(r'"rateList":(.*?),"tags"',myweb.text)[0].rstrip(',"searchinfo":""')
IndexError: list index out of range

请大神指点指点~
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2017-2-4 00:21:30 From FishC Mobile | 显示全部楼层
url里
url链接字符串里i改为%d
字符串后面加上%i
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2017-2-4 17:33:12 | 显示全部楼层
a347807131 发表于 2017-2-4 00:21
url里
url链接字符串里i改为%d
字符串后面加上%i

不行哎,还是一样
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2017-2-4 17:42:13 | 显示全部楼层
a347807131 发表于 2017-2-4 00:21
url里
url链接字符串里i改为%d
字符串后面加上%i

兄弟,这个应该是怎么写?怎么加%d,%i?
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-2-28 19:02:37 | 显示全部楼层
url = 'https://rate.tmall.com/list_detail_rate.htm?itemId=42105400616&spuId=305417465&sellerId=2267266991&order=3&currentPage=(%d)'%i

只有最后几个字符有修改
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-10-6 12:35

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表