鱼C论坛

 找回密码
 立即注册
查看: 2530|回复: 9

药监局的数据爬取问题

[复制链接]
发表于 2021-12-10 00:21:57 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
本帖最后由 wzdyjn 于 2021-12-14 21:15 编辑

import requests
#  url 是  http://scxk.nmpa.gov.cn:81/xk/

url='http://scxk.nmpa.gov.cn:81/xk/itownet/portalAction.do?method=getXkzsList'
headers={
    'Cookie':'JSESSIONID=3D601AF0C505380F376862A7E8D301DA; acw_tc=276aede916382887245685343e30e944678bb2fad6d67fafbc15f99b8ef02f; JSESSIONID=7FBB3D50981FE6D05AD83E1049402680',
    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.55 Safari/537.36 Edg/96.0.1054.34'
}

data={
    'on': 'true',
    'page': '2',
    'pageSize': '15',
    'productName':'',
    'conditionType': '1',
    'applyname':'',
    'applysn':''
}

r=requests.post(url,headers,data).json()
print(r)

只能获取第一页的数据,,我想获取后面几页的数据,,改page没有 始终就是第一页的数据,,郁闷中,,,哪位大神帮帮我
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2021-12-10 10:37:21 | 显示全部楼层
浏览器打不开
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-12-10 10:47:47 | 显示全部楼层
用你的代码运行有返回内容,有什么问题吗?
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2021-12-10 15:41:06 | 显示全部楼层
第二页,,第三页就不行了
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-12-10 16:21:55 | 显示全部楼层
wzdyjn 发表于 2021-12-10 15:41
第二页,,第三页就不行了

你获取url的方式发出来
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-12-10 21:31:37 | 显示全部楼层
瑞数解决再说。
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2021-12-13 22:35:39 | 显示全部楼层
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2021-12-13 22:36:18 | 显示全部楼层
本帖最后由 wzdyjn 于 2021-12-14 21:15 编辑

import requests

url='http://scxk.nmpa.gov.cn:81/xk/itownet/portalAction.do?method=getXkzsList'
headers={
    'Cookie':'JSESSIONID=3D601AF0C505380F376862A7E8D301DA; acw_tc=276aede916382887245685343e30e944678bb2fad6d67fafbc15f99b8ef02f; JSESSIONID=7FBB3D50981FE6D05AD83E1049402680',
    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.55 Safari/537.36 Edg/96.0.1054.34'
}

data={
    'on': 'true',
    'page': '2',
    'pageSize': '15',
    'productName':'',
    'conditionType': '1',
    'applyname':'',
    'applysn':''
}

r=requests.post(url,headers,data).json()
print(r)


只能获取第一页的数据,,我想获取后面几页的数据,,改page没有 始终就是第一页的数据,,郁闷中,,,哪位大神帮帮我
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-12-15 22:27:50 | 显示全部楼层
#前段时间刚学的,你试试

import requests as ch
import json
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:94.0) Gecko/20100101 Firefox/94.0Accept: */*'}
url = 'http://scxk.nmpa.gov.cn:81/xk/itownet/portalAction.do?method=getXkzsList'

for num in range(1,3):
    data={
        'on':'true',
        'page':str(num),
        'pageSize':'15',
        'productName':'',
        'conditionType':'1',
        'applyname':'',
        'applysn':''
        }
    a = ch.post(url=url,headers=headers,data=data)
    a = a.json()
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-12-19 00:20:43 | 显示全部楼层
本帖最后由 johnnyb 于 2021-12-19 00:29 编辑
  1. #!/usr/bin/env python
  2. # _*_ coding:utf-8 _*_
  3. # Author : Roman  Data : 2021-12-19 00:20
  4. import requests

  5. def test(page=1):
  6.     cookies = {
  7.         'JSESSIONID': '1E3604C0D0EA1FEE2F9E1BE3D4D37922',
  8.         'acw_tc': '276aedf516398441177493889e52d8385c3e2a0ca6105fdc508fcbd3cc792b',
  9.         '__tins__21053225': '%7B%22sid%22%3A%201639844117108%2C%20%22vd%22%3A%201%2C%20%22expires%22%3A%201639845917108%7D',
  10.         '__51cke__': '',
  11.         '__51laig__': '1',
  12.         'SL_G_WPT_TO': 'zh-CN',
  13.         'SL_GWPT_Show_Hide_tmp': '1',
  14.         'SL_wptGlobTipTmp': '1',
  15.     }

  16.     headers = {
  17.         'Connection': 'keep-alive',
  18.         'Pragma': 'no-cache',
  19.         'Cache-Control': 'no-cache',
  20.         'Accept': '*/*',
  21.         'DNT': '1',
  22.         'X-Requested-With': 'XMLHttpRequest',
  23.         'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36',
  24.         'Content-Type': 'application/x-www-form-urlencoded;utf-8',
  25.         'Origin': 'http://scxk.nmpa.gov.cn:81',
  26.         'Referer': 'http://scxk.nmpa.gov.cn:81/xk/',
  27.         'Accept-Language': 'zh-CN,zh;q=0.9,zh-TW;q=0.8,en;q=0.7',
  28.     }

  29.     params = (
  30.         ('method', 'getXkzsList'),
  31.     )

  32.     data = {
  33.       'on': 'true',
  34.       'page': page,
  35.       'pageSize': '15',
  36.       'productName': '',
  37.       'conditionType': '1',
  38.       'applyname': '',
  39.       'applysn': ''
  40.     }

  41.     response = requests.post('http://scxk.nmpa.gov.cn:81/xk/itownet/portalAction.do', headers=headers, params=params, cookies=cookies, data=data, verify=False)
  42.     data_list = response.json().get('list')
  43.     for i in data_list:
  44.         #  打印公司名字
  45.         print(i.get('EPS_NAME'))


  46. if __name__ == '__main__':
  47.     for i in range(1, 10):
  48.         print(f"第{i}页数据.>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>"
  49.         test(i)
复制代码
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-4-30 21:55

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表