自托管 Cognee:LLM 性能测试
使用本地LLM测试Cognee - 实际效果
Cognee 是一个 Python 框架,用于使用 LLM 从文档中构建知识图谱。 但它能与自托管模型一起使用吗?
使用本地LLM测试Cognee - 实际效果
Cognee 是一个 Python 框架,用于使用 LLM 从文档中构建知识图谱。 但它能与自托管模型一起使用吗?
使用 BAML 和 Instructor 实现类型安全的 LLM 输出
在生产环境中使用大型语言模型时,获取结构化、类型安全的输出至关重要。
两个流行的框架——BAML 和 Instructor——采用不同的方法来解决这个问题。
关于自托管Cognee中使用LLM的思考
选择 最适合 Cognee 的 LLM 需要平衡图构建质量、幻觉率和硬件限制。
Cognee 在使用较大且低幻觉模型(32B+)时表现优异,例如通过 Ollama,但中等规模的模型也适用于较轻量的设置。
使用 Python 和 Ollama 构建 AI 搜索代理
Ollama 的 Python 库现在包含原生的 OLlama 网络搜索 功能。只需几行代码,你就可以使用网络上的实时信息增强本地 LLM,从而减少幻觉并提高准确性。
使用 Go 和 Ollama 构建 AI 搜索代理
Ollama 的 Web 搜索 API 可以让您将本地 LLM 与实时网络信息相结合。本指南将向您展示如何在 Go 中实现 网络搜索功能,从简单的 API 调用到功能齐全的搜索代理。
掌握本地LLM部署,对比12+工具
本地部署大型语言模型 随着开发人员和组织寻求增强的隐私性、减少延迟和对AI基础设施的更大控制权,变得越来越流行。
在预算硬件上部署企业级AI,使用开放模型
人工智能的民主化已经到来。
借助像 Llama 3、Mixtral 和 Qwen 这样的开源大语言模型(LLM),团队现在可以使用消费级硬件构建强大的 AI 基础设施 - 在降低成本的同时,仍能完全控制数据隐私和部署。
GPT-OSS 120b 在三个 AI 平台上的基准测试
我找到了一些关于GPT-OSS 120b在三个不同平台上运行的性能测试结果:NVIDIA DGX Spark、Mac Studio和RTX 4080。Ollama库中的GPT-OSS 120b模型大小为65GB,这意味着它无法装入RTX 4080(或更新的RTX 5080的16GB显存中。
对比 Docker Model Runner 和 Ollama 本地大语言模型
在本地运行大型语言模型 (LLMs) 已成为隐私保护、成本控制和离线功能的重要趋势。 2025 年 4 月,Docker 推出了 Docker Model Runner (DMR),这是其用于 AI 模型部署的官方解决方案,标志着该领域的重大转变。
将 Ollama 与 Go 集成:SDK 指南、示例及生产最佳实践。
本指南全面概述了可用于 Ollama 的 Go SDK,并比较了它们的功能集。
比较这两个模型的速度、参数和性能
以下是 Qwen3:30b 和 GPT-OSS:20b 的比较,重点聚焦于指令遵循和性能参数、规格和速度:
使用思考型大语言模型的具体示例
在本文中,我们将探讨两种连接您的 Python 应用程序到 Ollama 的方法:1. 通过 HTTP REST API;2. 通过 官方 Ollama Python 库。
不太好看。
Ollama的GPT-OSS模型在处理结构化输出时经常出现问题,尤其是在与LangChain、OpenAI SDK、vllm等框架一起使用时。
从Ollama获取结构化输出的几种方法
大型语言模型(LLMs) 功能强大,但在生产环境中,我们很少希望得到自由形式的段落。 相反,我们希望获得可预测的数据:属性、事实或可以输入到应用程序中的结构化对象。 这就是LLM结构化输出。
我对ollama模型调度的测试 ```
在这里,我比较了新版本 Ollama 为模型分配的 VRAM 量与旧版本 Ollama 的情况。新版本表现更差。
我对Ollama当前开发状态的看法
Ollama 已经迅速成为在本地运行大型语言模型(LLMs)最受欢迎的工具之一。
其简单的命令行界面(CLI)和流畅的模型管理功能,使其成为希望在云之外使用 AI 模型的开发人员的首选。
但与许多有前景的平台一样,已经出现了 Enshittification 的迹象: