鱼C论坛

 找回密码
 立即注册
查看: 59|回复: 3

帮忙做一个爬虫

[复制链接]
发表于 昨天 22:55 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
老师要求我们统计一些药品的数据,三个网站相互比较,能有人爬虫帮忙吗
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 昨天 22:56 | 显示全部楼层
注意:爬虫开发需遵守目标网站robots.txt协议及相关法律法规,请确认合法性后再进行。以下示例仅供学习参考


基础爬虫实现思路:

1. 使用Python的 requests + BeautifulSoup 组合
2. 准备三个目标网站的URL列表
3. 分析目标网站页面结构(需自行审查元素)
4. 数据存储建议用CSV格式

[code=python]
import requests
from bs4 import BeautifulSoup
import pandas as pd

# 基础爬取函数模板
def crawl_website(url):
    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'}
    try:
        response = requests.get(url, headers=headers, timeout=10)
        soup = BeautifulSoup(response.text, 'html.parser')
        
        # 这里需要根据实际网页结构修改选择器
        medicines = []
        for item in soup.select('.medicine-item'):  # 示例选择器
            name = item.select_one('.name').text.strip()
            price = item.select_one('.price').text.strip()
            medicines.append({'名称': name, '价格': price})
            
        return medicines
    except Exception as e:
        print(f'爬取失败:{str(e)}')
        return []

# 示例使用
websites = [
    '[url=https://example-drug-site-1.com',]https://example-drug-site-1.com',[/url]
    '[url=https://example-drug-site-2.com',]https://example-drug-site-2.com',[/url]
    '[url=https://example-drug-site-3.com']https://example-drug-site-3.com'[/url]
]

all_data = []
for url in websites:
    data = crawl_website(url)
    all_data.extend(data)

# 保存为CSV
df = pd.DataFrame(all_data)
df.to_csv('medicine_data.csv', index=False)
[/code]

关键步骤说明:

  • 需要安装依赖库:pip install requests beautifulsoup4 pandas
  • 必须修改 .medicine-item 等选择器匹配目标网站结构
  • 建议添加延时:time.sleep(1) 避免被封禁
  • 动态加载的网站需要改用 Selenium


如果需要具体分析某个网站,可以提供(不包含敏感信息的)页面结构示例,我可以帮忙写对应的解析逻辑。请务必先确认:  
1. 目标网站是否允许爬取  
2. 是否需要登录认证  
3. 数据是否为动态加载

以上回复来自 FishC AI 小助理,如未能正确解答您的问题,请继续追问。
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 昨天 23:09 | 显示全部楼层
FishC 发表于 2025-5-4 22:56
基础爬虫实现思路:

1. 使用Python的 requests + BeautifulSoup 组合

就是想单纯查找英文文献,网站不敏感
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 7 小时前 | 显示全部楼层
有多少艾克以重 发表于 2025-5-4 23:09
就是想单纯查找英文文献,网站不敏感

哪三个网站?
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-5-5 16:43

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表