如果返回的内容不是JSON格式,而是一段包含HTML标签和JavaScript代码的网页内容,那么就需要使用其他方法来解析和提取数据了。以下是一个示例代码,使用BeautifulSoup库来解析HTML并提取数据:
import requests
from bs4 import BeautifulSoup
url = 'http://example.com/data_api' # 替换为实际的数据接口地址
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
}
result = [] # 存储所有数据
for page in range(1, 31): # 爬取30页数据
params = {
'page': page # 设置翻页参数
}
response = requests.get(url, headers=headers, params=params)
html = response.text
# 使用BeautifulSoup解析HTML
soup = BeautifulSoup(html, 'html.parser')
# 根据具体的网页结构,提取数据
data_divs = soup.find_all('div', class_='data-item')
for div in data_divs:
# 提取数据,根据实际情况进行处理
data = {
'title': div.find('span', class_='title').text,
'content': div.find('span', class_='content').text
}
result.append(data)
print(result)
在上述代码中,我们通过使用BeautifulSoup库,将返回的HTML内容进行解析,并使用相应的方法(如`find()`和`find_all()`)来提取数据。您需要根据实际的网页结构,修改代码中的选择器,并获取所需的数据。最后将提取到的数据存储在`result`列表中。
希望这对您有帮助!如果还有其他问题,请随时提问。
以上回复来自 FishC AI 小助理,如未能正确解答您的问题,请继续追问。 |