鱼C论坛

 找回密码
 立即注册
查看: 1110|回复: 3

[已解决]爬虫代码出错

[复制链接]
发表于 2020-7-10 10:37:06 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
本帖最后由 鸷爱之殇 于 2020-7-10 11:13 编辑

哪个大神能帮忙看一下吗?为什么这段代码一直报错。
这个代码是想利用爬虫获取国家数字植物标本馆中物种的采集地信息。

  1. # -*- coding: UTF-8 -*-
  2. import requests
  3. import json
  4. import pandas as pd
  5. import time

  6. ###筛选植物,从第一个节点得到ID
  7. def getPlantINFO(name="大叶相思"):
  8.     offset = 0
  9.     ALL =pd.DataFrame()
  10.     json_data={}
  11.     while len(json_data)!=3:
  12.         base_url = "http://www.cvh.ac.cn/cvh6/view/controller/search/spms.php?&taxonName="+name+"&offset=" +str(offset)
  13.         headers = {
  14.             "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.61 Safari/537.36" ,
  15.             "Cookie":"_pk_ses.1.2cf1=1; _pk_ses.43.2cf1=1; PHPSESSID=6623lkaj0679eo25lmr0okris7; ASPSESSIONIDCCCBDDQC=LFKBJDADMAHAFGMDBOOINCDA; _pk_id.43.2cf1=ae54e87ea20fbba7.1591011679.2.1591174487.1591173253.; _pk_id.1.2cf1=8fad1f8b96701ecc.1591011679.2.1591174487.1591173253."
  16.         }
  17.         response = requests.get(base_url)
  18.         data = response.text
  19.         json_data = json.loads(data)
  20.         if len(json_data)==3:
  21.             continue;
  22.         data_list = json_data['rows']
  23.         mid=pd.DataFrame.from_dict(data_list)
  24.         if offset ==0:
  25.             ALL = mid
  26.         else:
  27.             ALL = ALL.append(mid)
  28.         offset +=30
  29.     print(ALL)
  30.     return ALL


  31. ###根据ID从第二个节点得到样本INFO
  32. def getSampleINFO(plantInfo):
  33.     ID = plantInfo["collectionID"].tolist()
  34.     output = pd.DataFrame()
  35.     n = 0
  36.     for i in ID:
  37.         base_url = "http://www.cvh.ac.cn/cvh6/view/controller/search/spms_record.php?id=" + i
  38.         headers = {
  39.             "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.61 Safari/537.36" ,
  40.             "Cookie":"_pk_ses.1.2cf1=1; _pk_ses.43.2cf1=1; PHPSESSID=6623lkaj0679eo25lmr0okris7; ASPSESSIONIDCCCBDDQC=LFKBJDADMAHAFGMDBOOINCDA; _pk_id.43.2cf1=ae54e87ea20fbba7.1591011679.2.1591174487.1591173253.; _pk_id.1.2cf1=8fad1f8b96701ecc.1591011679.2.1591174487.1591173253."
  41.         }
  42.         response = requests.get(base_url)
  43.         data = response.text
  44.         json_data = json.loads(data)
  45.         data_list = json_data['rows']
  46.         list = [data_list]
  47.         mid=pd.DataFrame.from_dict(list)
  48.         if n ==0:
  49.             output = mid
  50.         else:
  51.             output =output.append(mid)
  52.         n+=1
  53.         time.sleep(0.5) #######查询一个样本后延迟0.5s
  54.     return output

  55. def main(name=["大叶相思"]):
  56.     outputPath = "E:/test"
  57.     for i in name:
  58.         test = getPlantINFO(name=i)
  59.         output = getSampleINFO(test)
  60.         output.to_csv(outputPath+i+".csv",index=False)
  61.         print(i+"查询结束")
  62.         time.sleep(2)##########查询一个植物后延迟2s


  63. listOfPlants = ["大叶相思","阿拉伯婆婆纳"]               #需要在这里加上你要的植物的list
  64. main(listOfPlants)
复制代码
最佳答案
2020-7-13 15:29:03
鸷爱之殇 发表于 2020-7-13 15:08
哦哦,那我再看看,非常感谢

两个网址path里,都去掉/cvh6/view,另外循环访问间隔时间0.5秒太短,容易获取失败
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-7-13 15:04:54 | 显示全部楼层
报错的原因是你这网址都有问题,现在都已经访问失效了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-7-13 15:08:14 | 显示全部楼层
comeheres 发表于 2020-7-13 15:04
报错的原因是你这网址都有问题,现在都已经访问失效了

哦哦,那我再看看,非常感谢
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-7-13 15:29:03 | 显示全部楼层    本楼为最佳答案   
鸷爱之殇 发表于 2020-7-13 15:08
哦哦,那我再看看,非常感谢

两个网址path里,都去掉/cvh6/view,另外循环访问间隔时间0.5秒太短,容易获取失败
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-4-25 20:20

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表