GoにおけるCQRSの実装:スケーラブルなアーキテクチャへの実践的ガイド
不要な形式主義を排して、GoでCQRSを構築する
CQRS(コマンドとクエリの責務分離)は、過大宣伝され、複雑化され、単なるCRUD(Create, Read, Update, Delete)の退屈さを解消するための万能薬と誤解されがちないくつかのパターンの一つです。
不要な形式主義を排して、GoでCQRSを構築する
CQRS(コマンドとクエリの責務分離)は、過大宣伝され、複雑化され、単なるCRUD(Create, Read, Update, Delete)の退屈さを解消するための万能薬と誤解されがちないくつかのパターンの一つです。
コードによる図解、トラブルなし。
Mermaidは、キャンバス上でボックスをドラッグするよりも、図をテキストとして記述することを好む人々のためのテキストベースの図作成ツールです。Markdownのような構文を使用して、フローチャート、シーケンス図、クラス図、状態機械図、タイムライン、ガントチャート、エンティティ関係図などを記述します。
単なる投稿ではなく、成長する知識を公開せよ。
オンラインで知識を公開する主流のモデルは、2000年代初頭からほとんど変化していません。何かを書き、磨き上げ、公開し、次に進む。
トピックではなく、アクションでノートを整理する。
トピック別にノート整理するのは理にかなっているように思えます。しかし、PostgreSQLに関するノートが5つの異なるフォルダに散らばり、今日の課題に必要な特定のノートが見つからない状況に陥ると、その方法は通用しなくなります。
衰えずに向上するノート。
工学に関するメモのほとんどは、一度書かれると忘れ去られます。デバッグセッションで得た知見を記録し、どこかに貼り付け、2年後に見つけたときには、なぜそれが重要だったのかという文脈が一切ありません。
適切なタスクに最適なモデル。
700億パラメータのモデルを使って200語のメールを要約するのは無駄です。30億パラメータのモデルで本番環境のコードレビューを行うのは無謀です。多くのシステムはその中間に位置しており、そこがモデルルーティングの登場シーンです。
「機能する最もシンプルなパターンを選びましょう。」
シングルモデルのシステムはシンプルです。マルチモデルのシステムは強力です。課題はモデルを選ぶことではなく、それらを調整するアーキテクチャを設計することにあります。
モデルだけでなく、リスクを管理せよ。
LLM(大規模言語モデル)は予測不可能な性質を持っています。ハルシネーション(幻覚)を起こしたり、データを漏洩させたり、有害なコンテンツを生成したり、正当なリクエストを拒否したりすることがあります。ガードレール(安全策)は、モデルの機能を損なうことなく、その振る舞いを制限します。
本当に重要な場所でトークンを活用しましょう。
LLMのコストは利用量に対して線形に比例して増加します。1日10,000リクエスト、1リクエストあたり0.01ドルで処理するシステムの場合、日額コストは100ドル、年間では365ドルになります。エンタープライズ規模では、それが1万ドルを超えます。
アシスタントのためのワーキングメモリ、構造化メモリ、および検索メモリ
メモリはアシスタントを反応型から永続型へと変えますが、同時に多くのシステムが静かに劣化してしまう箇所でもあります。調査では、短期的メモリと長期的メモリの二分法是では現代のエージェントメモリには不十分であると指摘されています。OpenAIやLangGraphのSDKは、よりシンプルな構成、つまりワーキングメモリ、永続的な状態、および検索による取得(リトリーブ)へと焦点を移しています。
実際に本格的なアシスタントはどのように構築されているか
本番環境向けのAIアシスタントは「プロンプト付きのLLM」ではありません。インテント(意図)を受け付け、状態を保持し、いつ検索を実行すべきか、いつ行動すべきかを決定し、障害のデバッグに必要なランタイムの詳細を公開するシステムなのです。
AIは知識管理の目的を変えず、手法を変革する。
AIは知識管理を置き換えるものではありません。むしろ、個人およびチームにとって知識管理の形そのものを変革しています。
開発者ナレッジグラフを構築する
開発者は通常、情報の不足に悩まされるわけではありません。むしろ、情報が過多であることに苦しんでいます。
スター、トークン、ダウンロード—who actually wins?
オープンソースのAIエージェントフレームワークは、GitHub上でその人気を急速に高めています。セルフホスト型AIシステムのエコシステムの中核をなす2つのプロジェクト、OpenClawとHermes Agentは、他を大きく引き離し、残りのライバルたちは遠い3位の座を争う状況になっています。
RTX 4080におけるMTPと標準デコーディングの比較 — 実ベンチマーク
RTX 4080(16 GB VRAM)環境で、Qwen 3.6 27Bおよび35Bにおける推論デコーディング(マルチトークン予測、MTP)のパフォーマンスをテストしました。
llama-serverを停止せずにVRAMを解放する方法
llama.cpp ラーターモード は、llama-server における数年間で最も有用な変更の一つです。これにより、ローカルLLM運用者は、Ollamaで期待されるようなモデル管理体験に近いものをようやく手に入れることができました。同時に、llama-server を使い続ける価値がある生のパフォーマンスと低レベルの制御も維持されています。
システム、インフラ、AIエンジニアリングの新記事をお届けします。