云大语言模型提供商
LLM 提供商简要列表
使用大型语言模型(LLMs)的成本并不高,可能不需要购买新的高性能GPU。
以下是一些云上的LLM提供商及其托管的LLM列表。
LLM提供商 - 原始
Anthropic LLM模型
Anthropic开发了一套先进的大型语言模型(LLMs),品牌名为“Claude”。这些模型适用于各种应用场景,强调安全性、可靠性和可解释性。
Claude模型的主要变体
模型 | 优势 | 应用场景 |
---|---|---|
Haiku | 速度、效率 | 实时、轻量级任务 |
Sonnet | 平衡的能力与性能 | 通用应用 |
Opus | 高级推理、多模态 | 复杂、高风险任务 |
Claude 3系列的所有模型都可以处理文本和图像,其中Opus在多模态任务中表现尤为出色。
技术基础
- 架构: Claude模型是生成式预训练变压器(GPTs),训练用于预测大量文本中的下一个单词,然后针对特定行为进行微调。
- 训练方法: Anthropic使用一种独特的名为Constitutional AI的方法,通过让模型根据一套原则(“宪法”)进行自我批评和修改响应,从而引导模型变得有帮助且无害。这一过程进一步通过人工智能反馈的强化学习(RLAIF)进行优化,其中使用AI生成的反馈来使模型的输出与宪法保持一致。
可解释性和安全性
Anthropic在可解释性研究上投入大量资源,以了解其模型如何表示概念并做出决策。诸如“字典学习”等技术有助于将内部神经元激活映射到人类可解释的特征,使研究人员能够追踪模型如何处理信息并做出决策。这种透明度旨在确保模型按预期行为,并识别潜在的风险或偏见。
企业与实际应用
Claude模型部署在各种企业场景中,包括:
- 客户服务自动化
- 运营(信息提取、摘要)
- 法律文件分析
- 保险理赔处理
- 编程辅助(生成、调试、代码解释)
这些模型通过如Amazon Bedrock等平台提供,使其能够集成到业务流程中。
研究与开发
Anthropic继续推进人工智能对齐、安全性和透明性的科学,旨在构建不仅强大而且值得信赖并符合人类价值观的模型。
总而言之,Anthropic的Claude模型代表了LLM开发的领先方法,将最先进的能力与对安全性、可解释性和实际企业使用的强烈关注相结合。
OpenAI LLM模型(2025)
OpenAI提供了一套全面的大型语言模型(LLMs),最新一代强调多模态、扩展上下文和针对编程和企业任务的专用能力。截至2025年5月,主要模型如下所示。
关键OpenAI LLMs
模型 | 发布日期 | 多模态 | 上下文窗口 | 专长 | API/ChatGPT可用性 | 微调 | 著名基准/功能 |
---|---|---|---|---|---|---|---|
GPT-3 | 2020年6月 | 否 | 2K tokens | 文本生成 | 仅API | 是 | MMLU ~43% |
GPT-3.5 | 2022年11月 | 否 | 4K–16K tokens | 聊天、文本任务 | ChatGPT免费/API | 是 | MMLU 70%,HumanEval ~48% |
GPT-4 | 2023年3月 | 文本+图像 | 8K–32K tokens | 高级推理 | ChatGPT Plus/API | 是 | MMLU 86.4%,HumanEval ~87% |
GPT-4o (“Omni”) | 2024年5月 | 文本+图像+音频 | 128K tokens | 多模态、快速、可扩展 | ChatGPT Plus/API | 是 | MMLU 88.7%,HumanEval ~87.8% |
GPT-4o Mini | 2024年7月 | 文本+图像+音频 | 128K tokens | 成本效益高、快速 | API | 是 | MMLU 82%,HumanEval 75.6% |
GPT-4.5 | 2025年2月* | 文本+图像 | 128K tokens | 中间阶段、改进精度 | API(预览,已弃用) | 否 | MMLU ~90.8% |
GPT-4.1 | 2025年4月 | 文本+图像 | 1M tokens | 编程、长上下文 | 仅API | 计划中 | MMLU 90.2%,SWE-Bench 54.6% |
GPT-4.1 Mini | 2025年4月 | 文本+图像 | 1M tokens | 性能与成本平衡 | 仅API | 计划中 | MMLU 87.5% |
GPT-4.1 Nano | 2025年4月 | 文本+图像 | 1M tokens | 经济、超快 | 仅API | 计划中 | MMLU 80.1% |
*GPT-4.5是一个短暂的预览版本,现已弃用,取而代之的是GPT-4.1。
模型亮点
- GPT-4o(“Omni”): 集成文本、视觉和音频输入/输出,提供接近实时的响应和128K token上下文窗口。它是ChatGPT Plus和API的当前默认模型,在多语言和多模态任务中表现出色。
- GPT-4.1: 专注于编程、指令遵循和极长上下文(高达100万token)。截至2025年5月,仅通过API提供,微调计划中但尚未可用。
- Mini和Nano变体: 为实时或大规模应用提供成本效益高、延迟优化的选项,以牺牲部分准确性换取速度和价格。
- 微调: 除最新模型(如截至2025年5月的GPT-4.1)外,大多数模型均可微调,允许企业根据特定领域或任务定制模型。
- 基准测试: 新模型在标准测试(MMLU、HumanEval、SWE-Bench)上持续优于旧模型,GPT-4.1在编程和长上下文理解方面创下新纪录。
应用场景范围
- 文本生成与聊天: GPT-3.5、GPT-4、GPT-4o
- 多模态任务: GPT-4V、GPT-4o、GPT-4.1
- 编程与开发工具: GPT-4.1、GPT-4.1 Mini
- 企业自动化: 所有模型,支持微调
- 实时、成本效益高的应用: Mini/Nano变体
2025年,OpenAI的LLM生态系统高度多样化,模型适用于从简单聊天到高级多模态推理和大规模企业部署的各种需求。最新模型(GPT-4o、GPT-4.1)在上下文长度、速度和多模态集成方面不断突破,而Mini和Nano变体则针对生产使用中的成本和延迟问题。
MistralAI LLM模型(2025)
MistralAI迅速扩展了其大型语言模型(LLMs)的组合,提供开源和商业解决方案,强调多语言、多模态和代码中心能力。以下是其主要模型及其特点的概述。
模型名称 | 类型 | 参数 | 专长 | 发布日期 |
---|---|---|---|---|
Mistral Large 2 | LLM | 123B | 多语言、推理 | 2024年7月 |
Mistral Medium 3 | LLM | 前沿级 | 编程、STEM | 2025年5月 |
Pixtral Large | 多模态LLM | 124B | 文本 + 视觉 | 2024年11月 |
Codestral | 代码LLM | 专有 | 代码生成 | 2025年1月 |
Mistral Saba | LLM | 专有 | 中东、南亚语言。 | 2025年2月 |
Ministral 3B/8B | 边缘LLM | 3B/8B | 边缘/手机 | 2024年10月 |
Mistral Small 3.1 | 小型LLM | 专有 | 多模态、高效 | 2025年3月 |
Devstral Small | 代码LLM | 专有 | 代码工具使用、多文件 | 2025年5月 |
Mistral 7B | 开源 | 7B | 通用用途 | 2023–2024 |
Codestral Mamba | 开源 | 专有 | 代码、mamba 2架构。 | 2024年7月 |
Mathstral 7B | 开源 | 7B | 数学 | 2024年7月 |
旗舰与商业模型
- Mistral Large 2: 2025年的旗舰模型,拥有1230亿参数和128K token上下文窗口。它支持数十种语言和超过80种编程语言,在高级推理和多语言任务中表现出色。
- Mistral Medium 3: 2025年5月发布,该模型在效率和性能之间取得平衡,尤其在编程和STEM相关任务中表现突出。
- Pixtral Large: 2024年11月发布的1240亿参数多模态模型(文本和视觉),专为需要语言和图像理解的任务设计。
- Codestral: 专为代码生成和软件工程设计,最新版本于2025年1月发布。Codestral优化了低延迟、高频代码任务。
- Mistral Saba: 专注于中东和南亚语言,2025年2月发布。
- Mistral OCR: 2025年3月推出的光学字符识别服务,使从PDF中提取文本和图像成为可能,以便进行下游AI处理。
边缘和小型模型
- Les Ministraux(Ministral 3B、8B): 一组优化用于边缘设备的模型,平衡性能和效率,适合在手机和资源受限的硬件上部署。
- Mistral Small: 一款领先的多模态小型模型,v3.1于2025年3月发布,专为效率和边缘用例设计。
- Devstral Small: 一款最先进的代码模型,专注于工具使用、代码库探索和多文件编辑,2025年5月发布。
开源和专用模型
- Mistral 7B: 最受欢迎的开源模型之一,被社区广泛采用和微调。
- Codestral Mamba: 第一个开源“mamba 2”模型,2024年7月发布。
- Mistral NeMo: 一个强大的开源模型,2024年7月发布。
- Mathstral 7B: 一个专为数学设计的开源模型,2024年7月发布。
- Pixtral(12B): 一个用于文本和图像理解的较小多模态模型,2024年9月发布。
支持服务
- Mistral Embed: 提供最先进的语义文本表示,用于下游任务。
- Mistral Moderation: 检测文本中的有害内容,支持安全部署。
MistralAI的模型可通过API和开源发布访问,重点关注多语言、多模态和代码中心应用。其开源方法和合作伙伴关系促进了AI生态系统中的快速创新和广泛采用。
Meta LLM模型(2025)
Meta的大型语言模型(LLM)家族,称为Llama(Large Language Model Meta AI),是目前最突出的开源和研究驱动的AI生态系统之一。最新一代Llama 4标志着在能力、规模和模态方面的重大飞跃。
模型 | 参数 | 模态 | 架构 | 上下文窗口 | 状态 |
---|---|---|---|---|---|
Llama 4 Scout | 17B (16专家) | 多模态 | MoE | 未指定 | 已发布 |
Llama 4 Maverick | 17B (128专家) | 多模态 | MoE | 未指定 | 已发布 |
Llama 4 Behemoth | 未发布 | 多模态 | MoE | 未指定 | 正在训练中 |
Llama 3.1 | 405B | 文本 | 密集 | 128,000 | 已发布 |
Llama 2 | 7B, 13B, 70B | 文本 | 密集 | 较短 | 已发布 |
最新的Llama 4模型
-
Llama 4 Scout:
- 170亿个活跃参数,16个专家,混合专家(MoE)架构
- 本机多模态(文本和视觉),开放权重
- 可以在单个H100 GPU(使用Int4量化)上运行
- 专为效率和广泛可访问性设计
-
Llama 4 Maverick:
- 170亿个活跃参数,128个专家,MoE架构
- 本机多模态,开放权重
- 可以在单个H100主机上运行
- 更多专家多样性以增强推理能力
-
Llama 4 Behemoth(预览):
- 尚未发布,作为Llama 4系列的“教师”模型
- 在STEM基准测试(如MATH-500、GPQA Diamond)上优于GPT-4.5、Claude Sonnet 3.7和Gemini 2.0 Pro
- 代表Meta迄今为止最强大的LLM
Llama 4的关键功能:
- 第一个本机多模态模型(文本和图像),开放权重
- 无与伦比的上下文长度支持(细节未指定,但设计用于长篇任务)
- 使用先进的混合专家架构构建,以提高效率和可扩展性
Llama 3系列
-
Llama 3.1:
- 4050亿参数
- 128,000 token上下文窗口
- 在超过15万亿token上训练
- 支持多种语言(最新版本增加了八种语言)
- 目前发布的最大开源模型
-
Llama 3.2和3.3:
- 依次改进和部署,包括专用用例(例如,Llama 3.2部署在国际空间站)
-
Llama 2:
- 早期一代,有7B、13B和70B参数版本
- 仍广泛用于研究和生产
开源和生态系统
- Meta对开源AI有坚定的承诺,为开发者和研究人员提供模型和库。
- Llama模型驱动了Meta平台上的许多AI功能,并在更广泛的AI社区中被广泛采用。
总结:
Meta的Llama模型已发展成为世界上一些最先进的、开放的和多模态的LLM,其中Llama 4 Scout和Maverick在效率和能力方面领先,而Llama 3.1在开源规模和上下文长度方面创下新纪录。生态系统设计用于广泛的可访问性、研究和跨各种使用案例的集成。
Qwen LLM模型(2025)
Qwen是阿里巴巴的大型语言模型(LLMs)家族,以其开源可用性、强大的多语言和编程能力以及快速迭代而著称。Qwen系列现在包括几个主要的世代,每个世代都有独特的优势和创新。
世代 | 模型类型 | 参数 | 关键功能 | 开源 |
---|---|---|---|---|
Qwen3 | 密集、MoE | 0.6B–235B | 混合推理、多语言、代理 | 是 |
Qwen2.5 | 密集、MoE、VL | 0.5B–72B | 编程、数学、128K上下文、VL | 是 |
QwQ-32B | 密集 | 32B | 数学/编程重点,32K上下文 | 是 |
Qwen-VL | 视觉-语言 | 2B–72B | 文本 + 图像输入 | 是 |
Qwen-Max | MoE | 专有 | 复杂、多步骤推理 | 否 |
最新世代和旗舰模型
-
Qwen3(2025年4月)
- 代表阿里巴巴迄今为止最先进的LLMs,推理、指令遵循、工具使用和多语言性能有重大改进。
- 有密集和混合专家(MoE)架构,参数大小从0.6B到235B。
- 引入“混合推理模型”,可以在“思考模式”(用于复杂推理、数学和代码)和“非思考模式”(用于快速、通用聊天)之间切换。
- 在创意写作、多轮对话和基于代理的任务中表现出色,支持超过100种语言和方言。
- 许多变体的开放权重可用,使Qwen3对开发者和研究人员高度可访问。
-
Qwen2.5(2025年1月)
- 以广泛范围的大小(0.5B到72B参数)发布,适用于移动和企业应用。
- 在18万亿token数据集上训练,上下文窗口高达128,000 token。
- 在编程、数学推理、多语言流利度和效率方面有重大升级。
- 专门模型如Qwen2.5-Math针对高级数学任务。
- Qwen2.5-Max是一个大规模的MoE模型,预训练在超过20万亿token上,并通过SFT和RLHF进行微调,擅长复杂、多步骤任务。
-
QwQ-32B(2025年3月)
- 专注于数学推理和编程,在性能上与更大模型竞争,同时计算效率高。
- 32B参数大小,32K token上下文窗口,根据Apache 2.0开源。
多模态和专用模型
-
Qwen-VL系列
- 集成视觉转换器与LLM的视觉-语言模型(VL),支持文本和图像输入。
- Qwen2-VL和Qwen2.5-VL提供从2B到72B的参数大小,大多数变体开源。
-
Qwen-Max
- 为复杂和多步骤推理提供顶级推理性能,可通过API和在线平台使用。
模型可用性和生态系统
- Qwen模型根据Apache 2.0许可证(除一些最大变体)开源,并可通过阿里云、Hugging Face、GitHub和ModelScope访问。
- Qwen系列在多个行业被广泛采用,包括消费电子、游戏和企业AI,拥有超过90,000个企业用户。
Qwen系列的关键功能
- 多语言精通: 支持100多种语言,在翻译和跨语言任务中表现出色。
- 编程和数学: 在代码生成、调试和数学推理方面表现领先,有专门针对这些领域的模型。
- 扩展上下文: 上下文窗口高达128,000 token,适用于详细、长篇任务。
- 混合推理: 能够在复杂和通用任务中切换模式,以实现最佳性能。
- 开源领导: 许多模型完全开源,促进社区的快速采用和研究。
总结:
Qwen模型在开源LLM开发方面处于领先地位,Qwen3和Qwen2.5提供最先进的推理、多语言和编程能力,覆盖广泛的模型大小,并在行业中被广泛采用。它们的混合推理、大上下文窗口和开源可用性使它们成为研究和企业应用的首选。
LLM提供商 - 转售商
Amazon AWS Bedrock LLM模型(2025)
Amazon Bedrock是一个完全托管的、无服务器平台,提供访问来自Amazon和顶级AI公司的广泛选择的领先大型语言模型(LLMs)和基础模型(FMs)。它旨在简化生成式AI在企业应用中的集成、定制和部署。
支持的模型提供商和家族
Amazon Bedrock提供目前最广泛的LLMs选择,包括来自以下公司的模型:
- Amazon(Nova系列)
- Anthropic(Claude)
- AI21 Labs(Jurassic)
- Cohere
- Meta(Llama)
- Mistral AI
- DeepSeek(DeepSeek-R1)
- Stability AI
- Writer
- Luma
- Poolside(即将推出)
- TwelveLabs(即将推出)
这种多样性使组织能够根据其特定需求混合和匹配模型,并且可以灵活地升级或切换模型,只需进行少量代码更改。
Amazon自己的模型:Nova
- Amazon Nova是Amazon最新一代的基础模型,专为高性能、效率和企业集成而设计。
- Nova模型支持文本、图像和视频输入,并在通过专有公司数据进行检索增强生成(RAG)时表现出色。
- 它们针对代理应用进行了优化,能够执行与组织API和系统交互的复杂、多步骤任务。
- Nova支持自定义微调和蒸馏,使客户能够基于自己的标记数据集创建私有、定制的模型。
第三方和专用模型
- DeepSeek-R1: 一个高性能、完全托管的LLM,用于高级推理、编程和多语言任务,现已在Bedrock上提供。
- Meta Llama、Anthropic Claude、AI21 Jurassic、Mistral、Cohere等: 每个模型在语言、编程、推理或多模态方面都有独特的优势,覆盖广泛的企业和研究用例。
- 市场: Bedrock市场提供超过100个受欢迎、新兴和专用的FMs,可通过托管端点访问。
定制和适应
- 微调: Bedrock允许使用自己的数据对模型进行私有微调,创建一个安全、定制的副本供您的组织使用。您的数据不会用于重新训练基础模型。
- 检索增强生成(RAG): Bedrock的知识库允许您通过上下文、最新的公司数据丰富模型响应,自动化RAG工作流程,适用于结构化和非结构化数据。
- 蒸馏: 将大型教师模型的知识转移到较小、高效的student模型中,以实现成本效益高的部署。
模型评估
- LLM作为评委: Bedrock提供一个模型评估工具,您可以使用LLMs作为评估者来基准测试和比较模型(包括Bedrock之外的模型)。这有助于选择最适合特定质量和负责任AI标准的模型。
部署和安全
- 无服务器和可扩展: Bedrock处理基础设施、扩展和安全,使组织能够专注于应用程序逻辑。
- 安全和合规: 数据在传输和静止时都加密,并符合ISO、SOC、HIPAA、CSA和GDPR标准。
总结:
Amazon Bedrock提供一个统一、安全的平台,用于访问、定制和部署一系列领先的LLMs,包括Amazon自己的Nova模型和顶级第三方FMs,支持微调、RAG和高级评估工具,用于企业级生成式AI应用。
Groq LLM模型(2025)
Groq本身并不是LLM的开发者,而是一家专注于使用其专有的语言处理单元(LPU)技术,以超快、低延迟部署领先大型语言模型(LLMs)的硬件和云推理提供商。GroqCloud™使开发人员能够以前所未有的速度和效率运行各种前沿、公开可用的LLMs。
GroqCloud上的支持LLMs
截至2025年,GroqCloud为一系列顶级LLMs提供高性能推理,包括:
- Meta Llama 3(8B,70B)
- Mistral Mixtral 8x7B SMoE
- Google Gemma 7B
- DeepSeek
- Qwen
- Whisper(语音转文本)
- Codestral、Mamba、NeMo等
GroqCloud定期更新以支持新的和流行的开源和研究模型,使其成为开发人员和企业的多功能平台。
关键功能和优势
- 超低延迟: Groq基于LPU的推理引擎实时提供响应,基准测试显示其速度优势显著优于传统的GPU推理。
- OpenAI API兼容性: 开发人员可以通过更改几行代码,从OpenAI或其他提供商切换到Groq,得益于API兼容性。
- 可扩展性: Groq的基础设施针对小型和大型部署进行了优化,支持从单个开发人员到企业级应用的一切。
- 成本效益: Groq为LLM推理提供具有竞争力、透明的定价,有免费、按需付费和企业级选项。
- 区域可用性: GroqCloud在全球运营,包括沙特阿拉伯达曼的主要数据中心,以满足全球需求。
示例模型和定价(截至2025年)
模型 | 上下文窗口 | 定价(每百万token) | 用例 |
---|---|---|---|
Llama 3 70B | 8K | $0.59(输入) / $0.79(输出) | 通用LLM |
Llama 3 8B | 8K | $0.05(输入) / $0.10(输出) | 轻量级任务 |
Mixtral 8x7B SMoE | 32K | $0.27(输入/输出) | 多语言、编程 |
Gemma 7B Instruct | — | $0.10(输入/输出) | 指令遵循 |
生态系统和集成
- Groq为Orq.ai等平台提供动力, 使团队能够以实时性能和可靠性构建、部署和扩展基于LLM的应用程序。
- 由于API兼容性和广泛的模型支持, 从其他提供商迁移变得容易。
总结:
Groq本身不创建LLMs,但通过GroqCloud为一系列顶级开源和研究LLMs(如Llama、Mixtral、Gemma、DeepSeek、Qwen)提供行业领先的、超快推理。其LPU硬件和云平台因其速度、可扩展性、成本效益和开发者友好集成而受到重视。
有用的链接
- 测试:Ollama如何使用Intel CPU性能和高效核心
- Ollama如何处理并行请求
- LLMs比较:Mistral Small、Gemma 2、Qwen 2.5、Mistral Nemo、LLama3和Phi
- Ollama速查表
- 在Ollama上测试Deepseek-r1
- 安装和配置Ollama
- 比较LLMs的摘要能力
- 比较不同LLMs的速度
- 使用Ollama自托管Perplexica
- [澳大利亚Nvidia RTX 5080和RTX 5090价格 - 2025年6月](https://www.glukhov.org/zh-cn/post/2025/06/nvidia-rtx-5080-rtx-5090-prices-australia/ “澳大利亚Nvidia RTX 5080和RTX 5090价格 - 2025年6月”