fzx960326 发表于 2018-12-18 15:14:21

爬虫遇到“很抱歉,由于您访问的URL有可能对网站造成安全威胁,您的访问被阻断。”

打算爬取一个异步网站,网址是http://www.ipe.org.cn/IndustryRecord/Regulatory.aspx。主要是爬取自行监测下面的企业名称。
在爬取的时候打算用post来解决异步的问题(不用selenium是因为数据量太大了),但是在向网址http://www.ipe.org.cn/data_ashx/GetAirData.ashx?xx=getselfrecords发送post请求的时候,总是会出现“405,很抱歉,由于您访问的URL有可能对网站造成安全威胁,您的访问被阻断”。但是同样的header和参数在软件postman上却能够正常的返回值,想问下是哪里出现了问题?

代码如下

import requests
import selenium.webdriver as sw
import time
from requests import Session
def get_cookies():
    browser=sw.Chrome()
    browser.get("http://www.ipe.org.cn/IndustryRecord/Regulatory.aspx")
    time.sleep(1)
    raw_cookies=browser.get_cookies()
    for each in raw_cookies:
      s.cookies.set(each["name"],each["value"])
    browser.quit()

def get_data(data):
    response=s.post("http://www.ipe.org.cn/data_ashx/GetAirData.ashx?xx=getselfrecords",headers=headers,data=data)
    print(type(response.text))
    print(response.text)
   
s=Session()
get_cookies()
headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36","Referer":"http://www.ipe.org.cn/IndustryRecord/Regulatory.aspx","Content-Type":"application/x-www-form-urlencoded","Content-Length":"644"}
for i in range(1,1000):
    data={}
    data={"cmd":"getRecords","pageSize":"15","pageIndex":"1"}
    get_data(data)

静默丶 发表于 2021-2-1 15:45:15

哥们,你的这个问题解决了吗,我也遇到了,帮一下忙啦
页: [1]
查看完整版本: 爬虫遇到“很抱歉,由于您访问的URL有可能对网站造成安全威胁,您的访问被阻断。”