AI Coding

70B 모델은 한 번의 순전파(forward pass)에서 하나의 토큰을 생성하며, 각 패스마다 VRAM에서 가중치를 다시 로드하고 컨텍스트 전반에 걸쳐 어텐션을 계산하며 메모리를 동기화합니다. 토큰 사이에는 GPU가 순차적 의존성이 해결될 때까지 대기하며 유휴 상태에 머무릅니다.

2025년, 단일 에이전트 AI 시스템의 전성기는 지나갔습니다. 그때는 하나의 LLM에 프롬프트, 도구, 그리고 목표를 부여하면 제한된 작업에서 합리적인 성과를 낼 수 있었습니다.

스펙 기반 개발(Spec-Driven Development)이란 무엇인가? 스펙을 진리의 원천(Source of Truth)으로

명세 기반 개발(Spec-Driven Development, 이하 SDD)은 소프트웨어 엔지니어들이 한때 시도했다가 노력이 보상으로 돌아오지 않자 접했던 아이디어 중 하나입니다.

스펙 주도 개발(Spec-Driven Development)은 2026년, 뱅 코딩(vibe coding)의 방향성 이탈에 대한 진지한 개발자들의 해답으로 등장했습니다.

결정 기록은 AI 보조 소프트웨어 개발에서 누락된 기억 계층입니다. 단순히 무엇을 구축했는지뿐만 아니라 왜 구축했는지를 포착하며, AI 도구가 코드를 작성할 때 이러한 구분이 결정적인 중요성을 갖습니다.

구글의 에이전트 간 상호 작용 프로토콜인 A2A(Agent2Agent)는 첫 해를 다소 혼란스럽게 보냈습니다.

폴링 에이전트(Polling Agent)는 AI 어시스턴트 아키텍처에서 가장 화려하지는 않은 부분 중 하나이지만, 동시에 가장 유용한 부분 중 하나이기도 합니다.

A2A 프로토콜(에이전트 투 에이전트 프로토콜의 약자)은 독립된 AI 에이전트 시스템 간 통신을 위한 개방형 표준입니다.

A2A와 MCP: AI 에이전트가 정말 두 가지 프로토콜을 모두 필요로 하는가?

AI 에이전트 아키텍처가 두 개의 레이어로 분화되기 시작하고 있습니다.

AI 어시스턴트 아키텍처: LLM, 메모리, 도구, 라우팅, 관찰 가능성

생산 환경용 AI 어시스턴트는 단순히 “프롬프트가 붙은 LLM"이 아닙니다. 사용자 의도를 수용하고, 상태를 유지하며, 언제 검색하거나 행동할지 결정하며, 실패를 디버깅할 수 있는 충분한 런타임 세부 정보를 노출하는 시스템입니다.

대부분의 대규모 언어 모델(LLM) ‘구조화된 출력(structured output)’ 튜토리얼은 진지하지 않습니다. 이들은 사용자에게 정중하게 JSON을 요청한 후 모델이 잘 작동하기를 바라고 만듭니다. 그것은 검증(validation)이 아닙니다. 그것은 중괄호를 사용한 낙관주의에 불과합니다.

이 페이지는 에이전트형 LLM 추론 튜닝에 대한 실용적인 참고 자료입니다(temperature, top_p, top_k, penalties 및 다단계 및 도구 중심 워크플로우에서의 상호 작용 방식).

개발자를 위한 Claude Skills 및 SKILL.md: VS Code, JetBrains, Cursor

대부분의 팀은 Claude Skills 를 두 가지 방식 중 하나로 오용합니다. SKILL.md 를 쓰레기통으로 변하게 하거나, 거대한 복사 - 붙여넣기 프롬프트에서 벗어나지 못합니다.

Claude Code의 Ollama 및 llama.cpp 설치 및 설정, 가격 정책

Claude Code는 마케팅만 뛰어난 자동 완성 도구가 아닙니다. 이것은 에이전트 기반 코딩 도구입니다. 코드베이스를 읽고, 파일을 편집하며, 명령을 실행하고, 개발 도구와 통합됩니다.

SGLang 빠른 시작: OpenAI API 를 통해 LLM 설치, 구성 및 제공

SGLang 은 단일 GPU 에서 분산 클러스터에 이르기까지 저지연 및 고휘도 추론을 제공하도록 설계된 대규모 언어 모델 및 멀티모달 모델용 고성능 서비스 프레임워크입니다.

OpenAI 호환 로컬 LLM을 위한 llama.swap 모델 스위처 빠른 시작 가이드

곧 vLLM, llama.cpp 등 여러 스택을 각각 다른 포트에서 관리하게 될 것입니다. 모든 다운스트림 시스템은 여전히 하나의 /v1 기본 URL 을 요구하며, 그렇지 않으면 포트, 프로필, 일회성 스크립트를 계속 조정해야 합니다. llama-swap은 이러한 스택들 앞에 위치한 /v1 프록시입니다.

AI Coding

추론 가속화: 20~50% 더 빠른 LLM 추론

멀티 에이전트 오케스트레이션 패턴: 실용 가이드

스펙 기반 개발(Spec-Driven Development)이란 무엇인가? 스펙을 진리의 원천(Source of Truth)으로

사양 기반 개발 vs 바이브 코딩: 워터폴 방식인가요?

AI 기반 소프트웨어 개발을 위한 의사결정 기록

2026년 구글 A2A 프로토콜: 채택 현황, 과열, 그리고 현실

AI 어시스턴트의 폴링 에이전트: 11가지 구현 패턴

A2A 프로토콜이란 무엇인가? 에이전트 카드와 작업 설명

A2A와 MCP: AI 에이전트가 정말 두 가지 프로토콜을 모두 필요로 하는가?

AI 어시스턴트 아키텍처: LLM, 메모리, 도구, 라우팅, 관찰 가능성

견고한 Python 기반 LLM 구조화 출력 검증

Qwen 및 Gemma를 위한 에이전틱 LLM 추론 파라미터 참조

개발자를 위한 Claude Skills 및 SKILL.md: VS Code, JetBrains, Cursor

Claude Code의 Ollama 및 llama.cpp 설치 및 설정, 가격 정책

SGLang 빠른 시작: OpenAI API 를 통해 LLM 설치, 구성 및 제공

OpenAI 호환 로컬 LLM을 위한 llama.swap 모델 스위처 빠른 시작 가이드