自托管 Cognee:LLM 性能测试
使用本地LLM测试Cognee - 实际效果
Cognee 是一个 Python 框架,用于使用 LLM 从文档中构建知识图谱。 但它能与自托管模型一起使用吗?
使用本地LLM测试Cognee - 实际效果
Cognee 是一个 Python 框架,用于使用 LLM 从文档中构建知识图谱。 但它能与自托管模型一起使用吗?
关于自托管Cognee中使用LLM的思考
选择 最适合 Cognee 的 LLM 需要平衡图构建质量、幻觉率和硬件限制。
Cognee 在使用较大且低幻觉模型(32B+)时表现优异,例如通过 Ollama,但中等规模的模型也适用于较轻量的设置。
使用 Python 和 Ollama 构建 AI 搜索代理
Ollama 的 Python 库现在包含原生的 OLlama 网络搜索 功能。只需几行代码,你就可以使用网络上的实时信息增强本地 LLM,从而减少幻觉并提高准确性。
为你的RAG堆栈选择合适的向量数据库
选择合适的向量数据库可以决定你的RAG应用的性能、成本和可扩展性。这篇全面的比较涵盖了2024-2025年最受欢迎的选项。
使用 Go 和 Ollama 构建 AI 搜索代理
Ollama 的 Web 搜索 API 可以让您将本地 LLM 与实时网络信息相结合。本指南将向您展示如何在 Go 中实现 网络搜索功能,从简单的 API 调用到功能齐全的搜索代理。
“由于人工智能需求导致供应紧张,RAM价格暴涨163%至619%”
2025年下半段,内存市场正经历前所未有的价格波动,所有细分市场中RAM价格均出现大幅上涨。
掌握本地LLM部署,对比12+工具
本地部署大型语言模型 随着开发人员和组织寻求增强的隐私性、减少延迟和对AI基础设施的更大控制权,变得越来越流行。
适合人工智能的消费级显卡价格 - RTX 5080 和 RTX 5090
让我们比较顶级消费级GPU的价格,这些GPU特别适合LLMs,也适用于AI整体。 具体来说,我正在查看 RTX-5080和RTX-5090价格。
在预算硬件上部署企业级AI,使用开放模型
人工智能的民主化已经到来。
借助像 Llama 3、Mixtral 和 Qwen 这样的开源大语言模型(LLM),团队现在可以使用消费级硬件构建强大的 AI 基础设施 - 在降低成本的同时,仍能完全控制数据隐私和部署。
使用Prometheus建立强大的基础设施监控系统
Prometheus 已成为监控云原生应用程序和基础设施的实际标准,提供指标收集、查询和与可视化工具的集成。
掌握 Grafana 的设置,用于监控与可视化
Grafana 是领先的开源监控和可观测性平台,通过令人惊叹的可视化将指标、日志和跟踪转化为可操作的见解。
使用有序扩展和持久数据部署有状态应用
Kubernetes StatefulSets 是管理需要稳定身份、持久存储和有序部署模式的有状态应用程序的最佳解决方案,对于数据库、分布式系统和缓存层至关重要。
使用GGUF量化加速FLUX.1-dev
FLUX.1-dev 是一款功能强大的文本到图像模型,能够生成令人惊叹的结果,但其24GB以上的内存需求使得在许多系统上运行变得具有挑战性。 FLUX.1-dev的GGUF量化版本 提供了一种解决方案,将内存使用量减少约50%,同时保持出色的图像质量。
在 Docker Model Runner 中配置上下文大小的变通方法
在 Docker Model Runner 中配置上下文大小 比它应该的要复杂得多。
用于根据文本指令增强图像的AI模型
Black Forest Labs 已发布 FLUX.1-Kontext-dev,这是一款先进的图像到图像 AI 模型,它可以通过文本指令增强现有图像。
启用 NVIDIA CUDA 支持的 Docker 模型运行器的 GPU 加速功能
Docker Model Runner 是 Docker 官方用于本地运行 AI 模型的工具,但
在 Docker Model Runner 中启用 NVidia GPU 加速
需要特定的配置。