Ollama

Cognee adalah kerangka kerja Python untuk membangun grafik pengetahuan dari dokumen menggunakan LLM. Tapi apakah itu bekerja dengan model yang dihosting sendiri?

BAML vs Instruktur: Output LLM yang Terstruktur

Ketika bekerja dengan Large Language Models dalam produksi, mendapatkan output yang terstruktur dan aman jenisnya sangat penting. Dua kerangka kerja populer - BAML dan Instructor - mengambil pendekatan yang berbeda untuk menyelesaikan masalah ini.

Memilih LLM yang Tepat untuk Cognee: Pengaturan Ollama Lokal

Memilih LLM Terbaik untuk Cognee memerlukan keseimbangan antara kualitas pembuatan graf, tingkat halusinasi, dan pembatasan perangkat keras. Cognee unggul dengan model besar berhalusinasi rendah (32B+) melalui Ollama tetapi pilihan ukuran sedang juga cocok untuk konfigurasi yang lebih ringan.

Menggunakan Ollama Web Search API dalam Python

Perpustakaan Python Ollama sekarang mencakup kemampuan pencarian web OLlama web search. Dengan hanya beberapa baris kode, Anda dapat memperkuat LLM lokal Anda dengan informasi real-time dari web, mengurangi halusinasi dan meningkatkan akurasi.

Menggunakan Ollama Web Search API dalam Go

API Pencarian Web Ollama memungkinkan Anda memperluas LLM lokal dengan informasi web secara real-time. Panduan ini menunjukkan cara mengimplementasikan kemampuan pencarian web dalam Go, dari panggilan API sederhana hingga agen pencarian berfitur lengkap.

Hosting LLM Lokal: Panduan Lengkap 2025 - Ollama, vLLM, LocalAI, Jan, LM Studio & Lebih Banyak Lagi

Penyimpanan lokal LLM telah semakin populer seiring dengan kebutuhan pengembang dan organisasi akan privasi yang lebih baik, latensi yang lebih rendah, dan kontrol yang lebih besar terhadap infrastruktur AI mereka.

Infrastruktur AI pada Perangkat Konsumen

Demokratisasi AI sudah tiba. Dengan LLM open-source seperti Llama 3, Mixtral, dan Qwen kini bersaing dengan model proprietary, tim dapat membangun infrastruktur AI yang kuat menggunakan perangkat keras konsumen - mengurangi biaya sambil mempertahankan kontrol penuh atas privasi data dan penggunaan.

NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Perbandingan Kinerja Ollama

Saya menemukan beberapa uji kinerja menarik dari GPT-OSS 120b yang berjalan di Ollama di tiga platform berbeda: NVIDIA DGX Spark, Mac Studio, dan RTX 4080. Model GPT-OSS 120b dari perpustakaan Ollama memiliki ukuran 65GB, yang berarti tidak masuk ke dalam 16GB VRAM dari RTX 4080 (atau yang lebih baru RTX 5080).

Docker Model Runner vs Ollama: Mana yang Harus Dipilih?

Menjalankan model bahasa besar (LLMs) secara lokal telah semakin populer untuk privasi, kontrol biaya, dan kemampuan offline. Lanskap berubah secara signifikan pada April 2025 ketika Docker memperkenalkan Docker Model Runner (DMR), solusi resmi mereka untuk pengujian model AI.

Klien Go untuk Ollama: Perbandingan SDK dan contoh Qwen3/GPT-OSS

Panduan ini memberikan gambaran menyeluruh tentang SDK Go untuk Ollama yang tersedia dan membandingkan set fitur mereka.

Berikut adalah perbandingan antara Qwen3:30b dan GPT-OSS:20b dengan fokus pada pemenuhan instruksi dan parameter kinerja, spesifikasi, serta kecepatan:

Mengintegrasikan Ollama dengan Python: Contoh REST API dan Klien Python

Dalam posting ini, kita akan menjelajahi dua cara untuk menghubungkan aplikasi Python Anda ke Ollama: 1. Melalui HTTP REST API; 2. Melalui perpustakaan Ollama Python resmi.

Masalah Output Terstruktur Ollama GPT-OSS

Model GPT-OSS Ollama memiliki masalah berulang dalam menangani output terstruktur, terutama ketika digunakan dengan kerangka kerja seperti LangChain, OpenAI SDK, vllm, dan lainnya.

Membatasi LLM dengan Output Terstruktur: Ollama, Qwen3 & Python atau Go

Model Bahasa Besar (LLMs) sangat kuat, tetapi dalam produksi kita jarang ingin paragraf bebas. Sebaliknya, kita ingin data yang dapat diprediksi: atribut, fakta, atau objek terstruktur yang dapat Anda masukkan ke dalam aplikasi. Itu adalah Keluaran Terstruktur LLM.

Penjadwalan model alokasi memori dalam versi baru Ollama - v0.12.1

Di sini saya membandingkan berapa banyak VRAM versi baru Ollama yang dialokasikan untuk model dengan versi sebelumnya Ollama. Versi baru justru lebih buruk.

Enshittification Ollama - Tanda-Tanda Awal

Ollama dengan cepat menjadi salah satu alat paling populer untuk menjalankan LLM secara lokal. CLI yang sederhana dan manajemen model yang terintegrasi telah membuatnya menjadi pilihan utama bagi pengembang yang ingin bekerja dengan model AI di luar awan. Namun, seperti halnya dengan banyak platform yang menjanjikan, sudah ada tanda-tanda Enshittification:

Ollama

Self-Hosting Cognee: Uji Kinerja LLM

BAML vs Instruktur: Output LLM yang Terstruktur

Memilih LLM yang Tepat untuk Cognee: Pengaturan Ollama Lokal

Menggunakan Ollama Web Search API dalam Python

Menggunakan Ollama Web Search API dalam Go

Hosting LLM Lokal: Panduan Lengkap 2025 - Ollama, vLLM, LocalAI, Jan, LM Studio & Lebih Banyak Lagi

Infrastruktur AI pada Perangkat Konsumen

NVIDIA DGX Spark vs Mac Studio vs RTX-4080: Perbandingan Kinerja Ollama

Docker Model Runner vs Ollama: Mana yang Harus Dipilih?

Klien Go untuk Ollama: Perbandingan SDK dan contoh Qwen3/GPT-OSS

Perbandingan: Qwen3:30b vs GPT-OSS:20b

Mengintegrasikan Ollama dengan Python: Contoh REST API dan Klien Python

Masalah Output Terstruktur Ollama GPT-OSS

Membatasi LLM dengan Output Terstruktur: Ollama, Qwen3 & Python atau Go

Penjadwalan model alokasi memori dalam versi baru Ollama - v0.12.1

Enshittification Ollama - Tanda-Tanda Awal