循环翻页后覆盖了第一次循环的数据，怎么接着往下保存,萌新交流区,萌新训练营,鱼C论坛

jnmytwnllwl 发表于 2022-6-2 10:00:26

循环翻页后覆盖了第一次循环的数据，怎么接着往下保存

#地址 #翻页
总共页面=300

for page in range(1,总共页面):

url=f'https://www.amazon.de/s?k=Bathroom+Storage&i=kitchen&rh=p_72%3A419118031%2Cp_n_availability%3A419126031&dc&page={page}&__mk_de_DE=%C3%85M%C3%85%C5%BD%C3%95%C3%91&qid=1653973729&rnid=419124031&ref=sr_pg_2'

#1.发送请求
res = requests.get(url=url,headers=headers)
conter= res.content.decode('utf-8')
select= Selector(text=conter)
divs = select.css('.a-section.a-spacing-base')
wz1="https://www.amazon.de/"

#创建表格
workbook= xlwt.Workbook(encoding='utf-8')
worksheet=workbook.add_sheet('1',cell_overwrite_ok=True)
rowDatas=['1','2','3','4']
for t in range(0,len(rowDatas)):
   worksheet.write(0,t,rowDatas,)
workbook.save("C:\\Users\Administrator\Desktop\2\1.xls")

# 二级页面提取列表
i=0
for div in divs:
   i=i+1
   wz=(div.css('.a-link-normal.s-no-outline::attr(href)').get())
   wz=urljoin(wz1,str(wz))
   resp= requests.get(wz,headers=headers)
   conter= resp.content.decode('utf-8')
   select= Selector(text=conter)

   #二级页面数据提取
   data = select.xpath('.//a[@id="bylineInfo"]/text()').extract_first

   #正则
   data1 = re.compile(r"data='(.+?)'")
   data=str(data)
   data2 = data1.search(data)
   if data2==None:
         data2=('空')
   else:
         data2 = data2.group(1)

#保存数据到表格

   worksheet.write(i,0,data2)

   workbook.save("C:\\Users\Administrator\Desktop\2\1.xls")

现在的情况是爬取主页有24个二级链接
循环第一遍翻页依次把二级页面提取的数据保存到表格至A1-A24
循环第二遍翻页后又把A1-A24的数据给覆盖了
循环第一次翻页i=24 我循环翻页后 i又等于0了又保存数据到A1-A24了把之前的覆盖了怎么把数据接着往下保存

Twilight6 发表于 2022-6-2 19:17:08

可以在循环外设置个列表，每次循环往里加数据，最后一次性写入文件

你每次循环读一次文件，效率比较差，相对前者只是节省了些内存

jnmytwnllwl 发表于 2022-6-3 09:17:00

Twilight6 发表于 2022-6-2 19:17
可以在循环外设置个列表，每次循环往里加数据，最后一次性写入文件

你每次循环读一次文件，效率比较差 ...

谢谢版主，思路一下子清晰了

页: [1]

鱼C论坛's Archiver

循环翻页后覆盖了第一次循环的数据，怎么接着往下保存