|
发表于 2024-6-19 15:41:16
|
显示全部楼层
1、什么是ChatGPT?
ChatGPT是由致力于AGI的公司OpenAI研发的一款AI技术驱动的NLP聊天工具,于2022年11月30日发布 ,目前使用的是GPT-4的LLM。
感觉上面的解释很官方。但是拆分来看,我们大都不太明白其中各个名词的含义!
AI:人工智能(Artificial Intelligence)
AGI:通用人工智能 (Artificial General Intelligence)能够像人类一样思考、学习和执行多种任务的人工智能系统
NLP:自然语言处理(Natural Language Processing),就是说人话
LLM:大型语言模型(Large Language Model),数据规模很大,没钱你搞不出来的,大烧钱模型。
2、AIGC是什么?
AIGC:AI generated content,又称为生成式AI,意为人工智能生成内容。例如AI文本续写,文字转图像的AI图、AI主持人等,都属于AIGC的应用。类似的名词缩写还有UGC(普通用户生产),PGC(专业用户生产)等。
能进行AIGC的产品项目也很多,能进行AIGC的媒介也很多包括且不限于
语言文字类:OpenAI的GPT,Google的Bard,百度的文心一言,还有一种国内大佬下场要做的的LLM都是语言类的。
语音声音类:Google的WaveNet,微软的Deep Nerual Network,百度的DeepSpeech等,还有合成AI孙燕姿大火的开源模型Sovits。
图片美术类:早期有GEN等图片识别/生成技术,去年大热的扩散模型又带火了我们比较熟悉的、生成质量无敌的Midjourney,先驱者谷歌的Disco Diffusion,一直在排队测试的OpenAI的Dalle·2,以及stability ai和runaway共同推出的Stable Diffusion...
3、Stable Diffusion 简称SD ,目前在设计领域玩的非常火热,经常有各种比赛
Stable Diffusion 3 是一个先进的文本到图像模型,在多主体提示、图像质量和拼写能力方面有显著改进。该模型旨在为个人、开发者和企业提供灵活的解决方案,释放他们的创造力。
- **安全措施**: Stability AI 强调安全和负责任的AI实践,实施了防止恶意使用的安全措施。他们与研究人员、专家和社区合作,确保模型开发和部署的完整性。
- **模型变体**: Stable Diffusion 3 套件包括从800M到8B参数的模型,满足不同需求和硬件能力。
- **架构**: Stable Diffusion 3 使用多模态扩散变压器(MMDiT)架构,提高了文本理解和拼写能力。模型结合了图像和语言表示的独立权重集。
- **性能**: Stable Diffusion 3 在视觉美学、提示跟随和排版方面优于现有的文本到图像生成系统。该模型设计灵活,关注各种主题和质量,同时保持图像风格。
- **推理时间**: 在早期测试中,最大的8B参数SD3模型在消费级硬件上使用50个采样步骤生成1024x1024分辨率的图像需要34秒。
- **修正流**: Stable Diffusion 3 在训练中采用修正流公式,导致更直的推理路径和在采样机制中的改进性能。
- **扩展研究**: 模型进行扩展研究,训练不同参数的模型,以观察验证损失、图像对齐度量和人类偏好得分的改进。
- **灵活的文本编码器**: 通过在推理中移除内存密集的T5文本编码器,SD3的内存需求可以减少,性能损失最小。然而,包含T5可以增强模型生成书面文本的能力。
...... |
|