|
发表于 2023-12-13 23:06:57
|
显示全部楼层
非常抱歉误解了你的意思。根据你的描述,你需要爬取每一页中的多个URL,并从每个URL中提取图片链接。我们可以先获取每一页的URL列表,然后逐个访问这些URL并提取图片链接。以下是一个示例代码:
- import requests
- from bs4 import BeautifulSoup
- # 根据分页URL获取每一页的URL列表
- def get_page_urls():
- base_url = "https://www.ndrc.gov.cn/xwdt/ztzl/gncpyjg/" # 基础URL
- page_urls = []
- for page in range(1, 11):
- url = f"{base_url}index_{page}.html"
- response = requests.get(url)
- content = response.content
- soup = BeautifulSoup(content, "html.parser")
- links = soup.select(".news .news_box a") # 使用合适的选择器找到每一页的URL链接
- for link in links:
- page_urls.append(link["href"]) # 将URL添加到列表中
- return page_urls
- # 从每个URL中提取图片链接
- def extract_image_urls(page_urls):
- image_urls = []
- for url in page_urls:
- response = requests.get(url)
- content = response.content
- soup = BeautifulSoup(content, "html.parser")
- images = soup.select("img") # 使用合适的选择器找到页面中的图片链接
- for image in images:
- img_url = image.get("src")
- image_urls.append(img_url) # 将图片链接添加到列表中
- return image_urls
- # 测试代码
- page_urls = get_page_urls()
- image_urls = extract_image_urls(page_urls)
- for url in image_urls:
- print(url)
复制代码
请注意,在上述代码中,我假设了页面中的URL选择器为`.news .news_box a`,你需要根据实际情况进行调整。同时,我也假设每个页面中的图片链接选择器为`img`,同样需要根据实际情况进行修改。
希望这次理解正确了!如果还有其他问题,请随时提问。
以上回复来自 FishC AI 小助理,如未能正确解答您的问题,请继续追问。 |
|