Сравнение качества перевода страниц Hugo с использованием языковых моделей на Ollama
qwen3 8b, 14b и 30b, devstral 24b, mistral small 24b
В этом тесте я сравниваю, как разные ЛЛМ, размещенные на Ollama, переводят страницы Hugo на английском языке на немецкий.
Чтобы узнать, как Ollama сравнивается с другими локальными и облачными инфраструктурами ЛЛМ — vLLM, Docker Model Runner, LocalAI и облачными провайдерами — ознакомьтесь с LLM Hosting: Local, Self-Hosted & Cloud Infrastructure Compared.
Три страницы, которые я тестировал, были на разных темах, содержали некоторые элементы разметки с определенной структурой: заголовки, списки, таблицы, ссылки и т.д.
Все эти модели работали на графическом процессоре NVidia с 16 ГБ видеопамяти, некоторые из них полностью помещались в видеопамять, а некоторые (24b и 30b) не помещались и использовали процессор.
Тем не менее, я протестировал и их.

Модели Ollama, которые я тестировал:
- qwen3:8b
- qwen3:14b
- qwen3:30b-a3b
- devstral:24b
- mistral-small3.1:24b
После выполнения переводов на всех этих моделях я попросил умную модель Anthropic проанализировать качество переводов, сравнить и предоставить метрики для каждой модели.
Я также пробовал magistral:24b, но она слишком много “думала”, поэтому была медленной и потребляла весь контекст. Так что - не для моего GPU.
Простой вывод: TL;DR
Лучшая модель — Mistral Small 3.1 24b. Она не помещается в 16 ГБ видеопамяти, поэтому работала немного медленно на моем оборудовании.
Следующие две лучшие: Qwen 3 14b и Qwen 3 30b. 14b помещается в видеопамять, но 30b — это модель MoE, поэтому тоже достаточно быстрая. На моем оборудовании их скорость была схожей.
Тест 1: Философская тема
Разметка страницы сайта на основе Hugo на некоторую потрясающую философскую тему — описание и примеры логической ошибки Ad Baculum.
index.de.devstral-24b.md - Оценка: 7/10 Достоинства:
- Хороший перевод технических терминов (“argumentum ad baculum Fehlschluss”)
- Сохранение правильного форматирования и структуры ссылок
- Точный перевод сложных философских концепций
- Правильная немецкая грамматика и синтаксис
Недостатки:
- “verunstaltet” для “tainted” несколько неудобно; “getrübt” было бы более естественно
- Некоторые фразы кажутся слегка жесткими или слишком буквальными
- Небольшие проблемы с потоком в некоторых предложениях
index.de.mistral-small3.1-24b.md - Оценка: 8.5/10 Достоинства:
- Очень естественный поток немецкого языка
- Отличный перевод технических терминов
- Хорошее сохранение оригинального смысла и тона
- Правильная грамматика и структура предложений
- Использование “getrübt” для “tainted”, что более естественно
Недостатки:
- Очень незначительные несоответствия в терминологии
- Иногда небольшие отклонения от исходной структуры
index.de.qwen3-8b.md - Оценка: 6.5/10 Достоинства:
- Точный перевод основных концепций
- Технические термины обработаны правильно
- Сохранение структуры статьи
Недостатки:
- Некоторые неудобные формулировки (“kann sich auch in alltäglichen Interaktionen breiten”)
- Менее естественный поток немецкого языка в нескольких абзацах
- Некоторые грамматические конструкции кажутся навязанными
- Отсутствует слово в “ein Werkzeug zur Unterdrückung von Widerstand und zur Gestaltung von Ergebnissen in Gunst der Machtbesitzer darstellt” (грамматическая ошибка)
index.de.qwen3-14b.md - Оценка: 8/10 Достоинства:
- Естественный поток немецкого языка
- Отличная обработка технической терминологии
- Хорошее сохранение оригинального смысла
- Правильная грамматика и синтаксис
- Последовательный стиль на протяжении всего текста
Недостатки:
- Небольшие вариации в последовательности терминологии
- Некоторые предложения могли бы быть более краткими
index.de.qwen3-30b-a3b.md - Оценка: 7.5/10 Достоинства:
- Хорошее общее качество перевода
- Естественное немецкое выражение
- Технические термины хорошо переведены
- Сохранение читаемости и потока
- Хорошее сохранение смысла
Недостатки:
- Некоторые незначительные несоответствия в выборе слов
- Иногда несколько неудобные формулировки
- Отсутствует артикль в последнем абзаце “über das [Terrain der] Argumentation”
Итоговые рейтинги
| Файл | Оценка качества перевода |
|---|---|
| index.de.mistral-small3.1-24b.md | 8.5/10 |
| index.de.qwen3-14b.md | 8.0/10 |
| index.de.qwen3-30b-a3b.md | 7.5/10 |
| index.de.devstral-24b.md | 7.0/10 |
| index.de.qwen3-8b.md | 6.5/10 |
Лучший перевод: index.de.mistral-small3.1-24b.md - Самый естественный поток немецкого языка с отличной технической точностью
Области для улучшения: Версия Qwen3-8b требует грамматических исправлений и более естественных формулировок, в то время как другие в основном нуждаются в небольших уточнениях в выборе слов и последовательности.
Тест 2: Перевод страницы о моделях Qwen3 Embedding & Reranker на Ollama.
На основе моего анализа немецких переводов по сравнению с оригинальным английским текстом, вот оценки качества по шкале от 1 до 10:
| Файл | Модель ЛЛМ | Оценка качества перевода | Комментарии |
|---|---|---|---|
index.de.devstral-24b.md |
Devstral 24B | 8.5/10 | Отличный общий перевод с естественным потоком немецкого языка, правильной технической терминологией и полным сохранением коротких кодов Hugo. Небольшие вычеты за некоторые слегка неудобные формулировки. |
index.de.mistral-small3.1-24b.md |
Mistral Small 3.1 24B | 8.7/10 | Очень высокое качество перевода с последовательной терминологией, естественным немецким языком и идеальным сохранением форматирования. Немного лучше потока, чем у Devstral. |
index.de.qwen3-8b.md |
Qwen3 8B | 6.5/10 | Смешанное качество - содержит смешивание английского и немецкого языков в первом абзаце (“The [Qwen3 Embedding and Reranker models]” вместо полного немецкого). Остальное хорошо переведено, но не последовательно. |
index.de.qwen3-14b.md |
Qwen3 14B | 8.2/10 | Хороший немецкий перевод с правильной технической терминологией и естественным потоком. Хорошо структурирован и последователен на протяжении всего текста. |
index.de.qwen3-30b-a3b.md |
Qwen3 30B | 9.0/10 | Отличное качество перевода с очень естественным немецким языком, идеальной последовательностью технической терминологии и отличной читаемостью. Лучший общий перевод. |
Ключевые критерии оценки:
Наблюдаемые достоинства перевода:
- Сохранение коротких кодов Hugo (
{ {< ref >}}синтаксис) - Точность технической терминологии
- Сохранение разметки Markdown
- Сохранение структуры таблиц
- Последовательность ссылок на изображения
Различия в качестве:
- Последовательность языка - Qwen3 8B имел проблемы со смешиванием английского и немецкого языков
- Естественный поток немецкого языка - Qwen3 30B достиг самого естественного немецкого выражения
- Техническая точность - Все модели хорошо обработали технические термины
- Сохранение форматирования - Все сохранили структуру Hugo идеально
Рейтинг по качеству:
- Qwen3 30B (9.0/10) - Лучший общий результат
- Mistral Small 3.1 24B (8.7/10) - Очень сильный
- Devstral 24B (8.5/10) - Отличный
- Qwen3 14B (8.2/10) - Хороший
- Qwen3 8B (6.5/10) - Достаточный с проблемами
Более крупные модели (Qwen3 30B и Mistral Small 3.1 24B) произвели переводы наивысшего качества, в то время как меньшая модель Qwen3 8B продемонстрировала явные ограничения в последовательности.
Тест 3: Переранжирование с использованием Ollama и модели Qwen3 Embedding - на Go
В сущности, это предыдущая запись на этом сайте: Переранжирование текстовых документов с использованием Ollama и модели Qwen3 Embedding - на Go.
На основе моего детального анализа немецких переводов вот сравнительная оценка:
Анализ качества перевода (шкала 1-10)
| Файл | Модель | Оценка | Ключевая оценка |
|---|---|---|---|
| index.de.devstral-24b.md | DeVistral 24B | 9/10 | Отлично - Наиболее последовательный и профессиональный |
| index.de.mistral-small3.1-24b.md | Mistral Small 3.1 24B | 8.5/10 | Очень хорошо - Естественный, но с незначительными несоответствиями |
| index.de.qwen3-14b.md | Qwen3 14B | 7/10 | Хорошо - Твердый с некоторыми смешанными элементами |
| index.de.qwen3-30b-a3b.md | Qwen3 30B | 6.5/10 | Удовлетворительно - Содержит непереведенный английский |
| index.de.qwen3-8b.md | Qwen3 8B | 5.5/10 | Плохо - Множественные ошибки перевода |
Детальный сравнительный анализ:
🥇 DeVistral 24B (9/10) - Победитель Преимущества:
- Техническая точность: Использует “ollama API-Fehler” (строчные, более естественные)
- Последовательный перевод: “handelt mit parallelen Anfragen” (сложное выражение)
- Профессиональное качество: Полный перевод на немецкий язык
- Форматирование: Идеальное сохранение структуры разметки
Небольшие проблемы: Очень мало, в основном стилистические предпочтения
🥈 Mistral Small 3.1 24B (8.5/10) Преимущества:
- Естественный поток немецкого языка
- Хорошая техническая терминология: “Ollama-API-Fehler” (с дефисом, формальный стиль)
- Последовательное “verarbeitet parallele Anfragen”
Проблемы:
- Немного менее сложные выражения в некоторых технических контекстах
- Небольшие вариации форматирования
🥉 Qwen3 14B (7/10) Преимущества:
- В целом точное сохранение смысла
- Правильная структура немецкой грамматики
Проблемы:
- Некоторые неловкие конструкции
- Смешанное качество технической терминологии
- Содержит “```” в начале и проблемы с форматированием
Qwen3 30B (6.5/10) Критическая ошибка:
- Содержит непереведенный английский: “This little” появляется непосредственно в немецком тексте
- Несмотря на больший размер модели, показывает несоответствия в переводе
- Техническая точность присутствует, но подача ошибочна
Qwen3 8B (5.5/10) Основные проблемы:
- Непереведенные разделы: “This little” осталось на английском
- Непоследовательная терминология: Использует “RANGORDNUNG” вместо стандартного “RANGIERUNG”
- Плохой поток: Менее естественные немецкие конструкции
- Показывает явные ограничения меньшего размера модели
Ключевые различия, обнаруженные:
-
Перевод ошибки API:
- DeVistral:
ollama API-Fehler(естественный, строчные) - Другие:
Ollama-API-Fehler(формальный, с дефисом)
- DeVistral:
-
Параллельные запросы:
- DeVistral: “handelt mit parallelen Anfragen” (сложное)
- Mistral/Qwen3-14B/30B: “verarbeitet parallele Anfragen” (стандартное)
- Qwen3-8B: “behandelt parallele Anfragen” (менее точное)
-
Заголовки разделов:
- Большинство: “RANGIERUNG NACH ÄHNLICHKEIT” (стандартное)
- Qwen3-8B: “RANGORDNUNG DURCH ÄHNLICHKEIT” (неловкое)
-
Загрязнение английским:
- Qwen3-30B & Qwen3-8B: Оставляют “This little” непереведенным
- Другие: Правильно переводят как “Dieses kleine”
Победитель: DeVistral 24B - Показывает наиболее последовательный профессиональный уровень немецкого перевода с сложной технической терминологией и полным языковым преобразованием.
Хехе DeVistral :). Но это ошибка другой ЛЛМ.
Для более широкого сравнения Ollama с vLLM, LocalAI, Docker Model Runner и облачными опциями — включая когда выбирать каждую для перевода или других задач — см. наше Хостинг ЛЛМ: Локальный, Самостоятельный и Облачная Инфраструктура Сравнены.