Hugo 페이지 번역 품질 비교 - Ollama 상의 LLMs

qwen3 8b, 14b 및 30b, devstral 24b, mistral small 24b

Page content

이 테스트에서는 Ollama에 호스팅된 다양한 LLM이 Hugo 페이지를 영어에서 독일어로 번역하는 방법을 비교하고 있습니다. https://www.glukhov.org/ko/post/2025/06/translation-quality-comparison-llms-on-ollama/ "comparison how different LLMs hosted on Ollama translate Hugo page from English to German".

테스트한 세 페이지는 서로 다른 주제를 다루고 있으며, 마크다운 형식으로 구성되어 있습니다. 헤더, 목록, 표, 링크 등이 포함되어 있습니다.

모든 모델은 16GB VRAM을 갖춘 NVidia GPU에서 실행되었으며, 일부 모델은 VRAM에 완전히 적합했고, 다른 모델(24b 및 30b)은 CPU로 이전되었습니다. 그러나 이들 역시 테스트했습니다.

두 페이지 - 번역 진행 중

테스트한 Ollama 모델은 다음과 같습니다:

  • qwen3:8b
  • qwen3:14b
  • qwen3:30b-a3b
  • devstral:24b
  • mistral-small3.1:24b

모든 모델에 번역 프롬프트를 실행한 후, 스마트한 Anthropic 모델을 통해 번역 품질을 분석하고, 각 모델에 대한 지표를 제공하도록 요청했습니다.

magistral:24b도 테스트했지만, 너무 오랜 시간을 생각하는 것으로 인해 느리고, 맥락을 모두 소모하는 문제가 있었기 때문에, 제 GPU에서는 적합하지 않았습니다.

간단한 결론: TL;DR

가장 좋은 것은 Mistral Small 3.1 24b입니다. 16GB VRAM에 맞지 않아, 제 하드웨어에서 약간 느렸습니다.

다음 두 번째로 좋은 것은 Qwen 3 14b와 Qwen 3 30b입니다. 14b는 잘 맞고, 30b는 MoE 모델이기 때문에 매우 빠릅니다. 제 하드웨어에서 속도는 비슷했습니다.

테스트 1: 철학적 주제

Hugo 기반 웹사이트 페이지의 마크다운은 어떤 훌륭한 철학적 주제에 관한 것이며, Ad Baculum 논리적 오류에 대한 설명과 예시가 포함되어 있습니다.

index.de.devstral-24b.md - 평가: 7/10 강점:

  • 기술 용어 번역이 잘 되어 있음 (“argumentum ad baculum Fehlschluss”)
  • 적절한 링크 형식과 구조 유지
  • 복잡한 철학적 개념의 정확한 번역
  • 적절한 독일어 문법과 구조

약점:

  • “verunstaltet"를 “tainted"로 사용하는 것이 약간 부자연스러움; “getrübt"가 더 자연스러움
  • 일부 문장이 약간 딱딱하거나 너무 직역적으로 느껴짐
  • 일부 문장에서 흐름 문제가 있음

index.de.mistral-small3.1-24b.md - 평가: 8.5/10 강점:

  • 매우 자연스러운 독일어 흐름
  • 기술 용어의 우수한 번역
  • 원본의 의미와 톤의 잘 보존
  • 적절한 문법과 문장 구조
  • “getrübt"를 “tainted"로 사용하여 더 자연스러움

약점:

  • 용어 일관성에 있어 매우 작은 차이점
  • 일부 문장에서 원본 구조와 약간의 차이가 있음

index.de.qwen3-8b.md - 평가: 6.5/10 강점:

  • 주요 개념의 정확한 번역
  • 기술 용어의 적절한 처리
  • 기사 구조 유지

약점:

  • 일부 표현이 약간 부자연스러움 (“kann sich auch in alltäglichen Interaktionen breiten”)
  • 여러 문장에서 독일어 흐름이 덜 자연스러움
  • 일부 문법 구조가 강제적으로 느껴짐
  • “ein Werkzeug zur Unterdrückung von Widerstand und zur Gestaltung von Ergebnissen in Gunst der Machtbesitzer darstellt"에서 단어 누락 (문법 오류)

index.de.qwen3-14b.md - 평가: 8/10 강점:

  • 자연스러운 독일어 흐름
  • 기술 용어의 우수한 처리
  • 원본 의미의 잘 보존
  • 적절한 문법과 문장 구조
  • 전반적으로 일관된 스타일

약점:

  • 용어 일관성에 있어 약간의 차이점
  • 일부 문장이 더 간결할 수 있음

index.de.qwen3-30b-a3b.md - 평가: 7.5/10 강점:

  • 전체적으로 우수한 번역 품질
  • 자연스러운 독일어 표현
  • 기술 용어의 잘 번역
  • 가독성과 흐름 유지
  • 의미의 잘 보존

약점:

  • 일부 단어 선택에 있어 약간의 불일치
  • 일부 문장에서 약간 부자연스러운 표현
  • 마지막 단락에서 “über das [Terrain der] Argumentation"에서 어절 누락

평가 순위

파일 번역 품질 점수
index.de.mistral-small3.1-24b.md 8.5/10
index.de.qwen3-14b.md 8.0/10
index.de.qwen3-30b-a3b.md 7.5/10
index.de.devstral-24b.md 7.0/10
index.de.qwen3-8b.md 6.5/10

가장 우수한 번역: index.de.mistral-small3.1-24b.md - 가장 자연스러운 독일어 흐름과 우수한 기술 정확도

개선이 필요한 부분: Qwen3-8b 버전은 문법 수정과 더 자연스러운 표현이 필요하며, 다른 모델들은 단어 선택과 일관성에 있어 작은 개선이 필요합니다.

테스트 2: Ollama에 있는 Qwen3 Embedding & Reranker 모델에 대한 페이지 번역

원문 영어 텍스트와 비교한 독일어 번역 분석을 바탕으로, 품질 평가 점수는 1~10점 척도로 다음과 같습니다:

파일 LLM 모델 번역 품질 점수 주석
index.de.devstral-24b.md Devstral 24B 8.5/10 전체적으로 우수한 번역, 자연스러운 독일어 흐름, 적절한 기술 용어, Hugo shortcodes의 완전한 보존. 약간의 부자연스러운 표현으로 인한 감점.
index.de.mistral-small3.1-24b.md Mistral Small 3.1 24B 8.7/10 매우 우수한 번역, 일관된 용어, 자연스러운 독일어, 완벽한 포맷 보존. Devstral보다 약간 더 자연스러운 흐름.
index.de.qwen3-8b.md Qwen3 8B 6.5/10 혼합된 품질 - 개요 문단에서 영어-독일어 혼합 (“The [Qwen3 Embedding and Reranker models]” 대신 전체 독일어 사용). 나머지 부분은 잘 번역되었지만 일관성이 부족함.
index.de.qwen3-14b.md Qwen3 14B 8.2/10 우수한 독일어 번역, 적절한 기술 용어, 자연스러운 흐름. 잘 구성되고 일관됨.
index.de.qwen3-30b-a3b.md Qwen3 30B 9.0/10 우수한 번역 품질, 매우 자연스러운 독일어, 기술 용어 일관성, 뛰어난 가독성. 가장 우수한 번역.

주요 평가 기준:

번역에서 관찰된 강점:

  • Hugo shortcodes 보존 ({ {< ref >}} 구문)
  • 기술 용어 정확성
  • 마크다운 형식 유지
  • 표 구조 보존
  • 이미지 참조 일관성

품질 차이점:

  1. 언어 일관성 - Qwen3 8B는 영어-독일어 혼합 문제가 있음
  2. 자연스러운 독일어 흐름 - Qwen3 30B는 가장 자연스러운 독일어 표현을 달성함
  3. 기술 정확성 - 모든 모델이 기술 용어를 잘 처리함
  4. 포맷 보존 - 모든 모델이 Hugo 구조를 완벽히 유지함

품질 순위:

  1. Qwen3 30B (9.0/10) - 가장 우수
  2. Mistral Small 3.1 24B (8.7/10) - 매우 우수
  3. Devstral 24B (8.5/10) - 우수
  4. Qwen3 14B (8.2/10) - 좋음
  5. Qwen3 8B (6.5/10) - 문제점이 있음

더 큰 모델(Qwen3 30B 및 Mistral Small 3.1 24B)은 가장 높은 품질의 번역을 생성했으며, 작은 Qwen3 8B 모델은 일관성 측면에서 명확한 한계를 보였습니다.

테스트 3: Ollama와 Qwen3 Embedding 모델을 사용한 재정렬 - Go 언어로

기본적으로 이는 이 웹사이트의 이전 게시물입니다: Reranking text documents with Ollama and Qwen3 Embedding model - in Go.

제가 자세히 분석한 독일어 번역에 기반하여, 비교 평가는 다음과 같습니다:

번역 품질 분석 (1~10점 척도)

파일 모델 점수 주요 평가
index.de.devstral-24b.md DeVistral 24B 9/10 우수 - 가장 일관되고 전문적인 번역
index.de.mistral-small3.1-24b.md Mistral Small 3.1 24B 8.5/10 매우 좋음 - 자연스럽지만 약간의 불일치
index.de.qwen3-14b.md Qwen3 14B 7/10 좋음 - 일반적으로 잘 보존된 의미
index.de.qwen3-30b-a3b.md Qwen3 30B 6.5/10 보통 - 일부 영어가 번역되지 않음
index.de.qwen3-8b.md Qwen3 8B 5.5/10 부족 - 여러 번역 실패

상세 비교 분석:

🥇 DeVistral 24B (9/10) - 우승 강점:

  • 기술 정확성: “ollama API-Fehler” (소문자, 더 자연스러움)
  • 일관된 번역: “handelt mit parallelen Anfragen” (정교한 표현)
  • 전문적인 품질: 전반적으로 완전한 독일어 번역
  • 포맷: 마크다운 구조의 완전한 보존

작은 문제: 매우 적은 수, 주로 스타일 선호에 따른 것

🥈 Mistral Small 3.1 24B (8.5/10) 강점:

  • 자연스러운 독일어 흐름
  • 우수한 기술 용어: “Ollama-API-Fehler” (연결자, 공식 스타일)
  • 일관된 “verarbeitet parallele Anfragen”

문제:

  • 일부 기술 맥락에서 약간 덜 정교한 표현
  • 약간의 포맷 차이

🥉 Qwen3 14B (7/10) 강점:

  • 일반적으로 의미 보존이 잘됨
  • 적절한 독일어 문법 구조

문제:

  • 일부 표현이 약간 부자연스러움
  • 기술 용어에서 혼합된 품질
  • “```” 시작 및 포맷 문제 포함

Qwen3 30B (6.5/10) 중요한 결함:

  • 번역되지 않은 영어: “This little"가 독일어 텍스트에 그대로 포함됨
  • 더 큰 모델 크기에도 불구하고 번역 불일치가 있음
  • 기술 정확성은 있지만 전달이 결함 있음

Qwen3 8B (5.5/10) 주요 문제:

  • 번역되지 않은 섹션: “This little"가 영어로 남음
  • 용어 불일치: “RANGORDNUNG” 대신 표준 “RANGIERUNG” 사용
  • 부자연스러운 흐름: 덜 자연스러운 독일어 구조
  • 작은 모델 크기의 명확한 한계 보임

발견된 주요 차이점:

  1. API 오류 번역:

    • DeVistral: ollama API-Fehler (자연스럽고 소문자)
    • 나머지: Ollama-API-Fehler (공식적이고 연결자 사용)
  2. 병렬 요청:

    • DeVistral: “handelt mit parallelen Anfragen” (정교한 표현)
    • Mistral/Qwen3-14B/30B: “verarbeitet parallele Anfragen” (표준)
    • Qwen3-8B: “behandelt parallele Anfragen” (덜 정확)
  3. 섹션 헤더:

    • 대부분: “RANGIERUNG NACH ÄHNLICHKEIT” (표준)
    • Qwen3-8B: “RANGORDNUNG DURCH ÄHNLICHKEIT” (부자연스러움)
  4. 영어 오염:

    • Qwen3-30B & Qwen3-8B: “This little"를 번역하지 않음
    • 나머지: “Dieses kleine"로 올바르게 번역

우승: DeVistral 24B - 가장 일관된 전문적인 독일어 번역을 보여주며, 정교한 기술 용어와 완전한 언어 전환을 보여줍니다.


하하 DeVistral :). 하지만 이건 또 다른 LLM의 오류입니다.

유용한 링크