爬虫遇到“很抱歉,由于您访问的URL有可能对网站造成安全威胁,您的访问被阻断。”
打算爬取一个异步网站,网址是http://www.ipe.org.cn/IndustryRecord/Regulatory.aspx。主要是爬取自行监测下面的企业名称。在爬取的时候打算用post来解决异步的问题(不用selenium是因为数据量太大了),但是在向网址http://www.ipe.org.cn/data_ashx/GetAirData.ashx?xx=getselfrecords发送post请求的时候,总是会出现“405,很抱歉,由于您访问的URL有可能对网站造成安全威胁,您的访问被阻断”。但是同样的header和参数在软件postman上却能够正常的返回值,想问下是哪里出现了问题?
代码如下
import requests
import selenium.webdriver as sw
import time
from requests import Session
def get_cookies():
browser=sw.Chrome()
browser.get("http://www.ipe.org.cn/IndustryRecord/Regulatory.aspx")
time.sleep(1)
raw_cookies=browser.get_cookies()
for each in raw_cookies:
s.cookies.set(each["name"],each["value"])
browser.quit()
def get_data(data):
response=s.post("http://www.ipe.org.cn/data_ashx/GetAirData.ashx?xx=getselfrecords",headers=headers,data=data)
print(type(response.text))
print(response.text)
s=Session()
get_cookies()
headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36","Referer":"http://www.ipe.org.cn/IndustryRecord/Regulatory.aspx","Content-Type":"application/x-www-form-urlencoded","Content-Length":"644"}
for i in range(1,1000):
data={}
data={"cmd":"getRecords","pageSize":"15","pageIndex":"1"}
get_data(data)
哥们,你的这个问题解决了吗,我也遇到了,帮一下忙啦
页:
[1]