鱼C论坛

 找回密码
 立即注册
查看: 6923|回复: 1

[技术交流] 爬虫遇到“很抱歉,由于您访问的URL有可能对网站造成安全威胁,您的访问被阻断。”

[复制链接]
发表于 2018-12-18 15:14:21 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
打算爬取一个异步网站,网址是http://www.ipe.org.cn/IndustryRecord/Regulatory.aspx。主要是爬取自行监测下面的企业名称。
在爬取的时候打算用post来解决异步的问题(不用selenium是因为数据量太大了),但是在向网址http://www.ipe.org.cn/data_ashx/GetAirData.ashx?xx=getselfrecords发送post请求的时候,总是会出现“405,很抱歉,由于您访问的URL有可能对网站造成安全威胁,您的访问被阻断”。但是同样的header和参数在软件postman上却能够正常的返回值,想问下是哪里出现了问题?

代码如下

import requests
import selenium.webdriver as sw
import time
from requests import Session
def get_cookies():
    browser=sw.Chrome()
    browser.get("http://www.ipe.org.cn/IndustryRecord/Regulatory.aspx")
    time.sleep(1)
    raw_cookies=browser.get_cookies()
    for each in raw_cookies:
        s.cookies.set(each["name"],each["value"])
    browser.quit()

def get_data(data):
    response=s.post("http://www.ipe.org.cn/data_ashx/GetAirData.ashx?xx=getselfrecords",headers=headers,data=data)
    print(type(response.text))
    print(response.text)
   
s=Session()
get_cookies()
headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36","Referer":"http://www.ipe.org.cn/IndustryRecord/Regulatory.aspx","Content-Type":"application/x-www-form-urlencoded","Content-Length":"644"}
for i in range(1,1000):
    data={}
    data={"cmd":"getRecords","pageSize":"15","pageIndex":"1"}
    get_data(data)
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2021-2-1 15:45:15 | 显示全部楼层
哥们,你的这个问题解决了吗,我也遇到了,帮一下忙啦
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-5-13 00:33

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表