Сравнение качества перевода страниц Hugo с использованием языковых моделей на Ollama

qwen3 8b, 14b и 30b, devstral 24b, mistral small 24b

Содержимое страницы

В этом тесте я сравниваю, как разные ЛЛМ, размещенные на Ollama, переводят страницы Hugo на английском языке на немецкий.

Чтобы узнать, как Ollama сравнивается с другими локальными и облачными инфраструктурами ЛЛМ — vLLM, Docker Model Runner, LocalAI и облачными провайдерами — ознакомьтесь с LLM Hosting: Local, Self-Hosted & Cloud Infrastructure Compared.

Три страницы, которые я тестировал, были на разных темах, содержали некоторые элементы разметки с определенной структурой: заголовки, списки, таблицы, ссылки и т.д.

Все эти модели работали на графическом процессоре NVidia с 16 ГБ видеопамяти, некоторые из них полностью помещались в видеопамять, а некоторые (24b и 30b) не помещались и использовали процессор.

Тем не менее, я протестировал и их.

две страницы - перевод в процессе

Модели Ollama, которые я тестировал:

  • qwen3:8b
  • qwen3:14b
  • qwen3:30b-a3b
  • devstral:24b
  • mistral-small3.1:24b

После выполнения переводов на всех этих моделях я попросил умную модель Anthropic проанализировать качество переводов, сравнить и предоставить метрики для каждой модели.

Я также пробовал magistral:24b, но она слишком много “думала”, поэтому была медленной и потребляла весь контекст. Так что - не для моего GPU.

Простой вывод: TL;DR

Лучшая модель — Mistral Small 3.1 24b. Она не помещается в 16 ГБ видеопамяти, поэтому работала немного медленно на моем оборудовании.

Следующие две лучшие: Qwen 3 14b и Qwen 3 30b. 14b помещается в видеопамять, но 30b — это модель MoE, поэтому тоже достаточно быстрая. На моем оборудовании их скорость была схожей.

Тест 1: Философская тема

Разметка страницы сайта на основе Hugo на некоторую потрясающую философскую тему — описание и примеры логической ошибки Ad Baculum.

index.de.devstral-24b.md - Оценка: 7/10 Достоинства:

  • Хороший перевод технических терминов (“argumentum ad baculum Fehlschluss”)
  • Сохранение правильного форматирования и структуры ссылок
  • Точный перевод сложных философских концепций
  • Правильная немецкая грамматика и синтаксис

Недостатки:

  • “verunstaltet” для “tainted” несколько неудобно; “getrübt” было бы более естественно
  • Некоторые фразы кажутся слегка жесткими или слишком буквальными
  • Небольшие проблемы с потоком в некоторых предложениях

index.de.mistral-small3.1-24b.md - Оценка: 8.5/10 Достоинства:

  • Очень естественный поток немецкого языка
  • Отличный перевод технических терминов
  • Хорошее сохранение оригинального смысла и тона
  • Правильная грамматика и структура предложений
  • Использование “getrübt” для “tainted”, что более естественно

Недостатки:

  • Очень незначительные несоответствия в терминологии
  • Иногда небольшие отклонения от исходной структуры

index.de.qwen3-8b.md - Оценка: 6.5/10 Достоинства:

  • Точный перевод основных концепций
  • Технические термины обработаны правильно
  • Сохранение структуры статьи

Недостатки:

  • Некоторые неудобные формулировки (“kann sich auch in alltäglichen Interaktionen breiten”)
  • Менее естественный поток немецкого языка в нескольких абзацах
  • Некоторые грамматические конструкции кажутся навязанными
  • Отсутствует слово в “ein Werkzeug zur Unterdrückung von Widerstand und zur Gestaltung von Ergebnissen in Gunst der Machtbesitzer darstellt” (грамматическая ошибка)

index.de.qwen3-14b.md - Оценка: 8/10 Достоинства:

  • Естественный поток немецкого языка
  • Отличная обработка технической терминологии
  • Хорошее сохранение оригинального смысла
  • Правильная грамматика и синтаксис
  • Последовательный стиль на протяжении всего текста

Недостатки:

  • Небольшие вариации в последовательности терминологии
  • Некоторые предложения могли бы быть более краткими

index.de.qwen3-30b-a3b.md - Оценка: 7.5/10 Достоинства:

  • Хорошее общее качество перевода
  • Естественное немецкое выражение
  • Технические термины хорошо переведены
  • Сохранение читаемости и потока
  • Хорошее сохранение смысла

Недостатки:

  • Некоторые незначительные несоответствия в выборе слов
  • Иногда несколько неудобные формулировки
  • Отсутствует артикль в последнем абзаце “über das [Terrain der] Argumentation”

Итоговые рейтинги

Файл Оценка качества перевода
index.de.mistral-small3.1-24b.md 8.5/10
index.de.qwen3-14b.md 8.0/10
index.de.qwen3-30b-a3b.md 7.5/10
index.de.devstral-24b.md 7.0/10
index.de.qwen3-8b.md 6.5/10

Лучший перевод: index.de.mistral-small3.1-24b.md - Самый естественный поток немецкого языка с отличной технической точностью

Области для улучшения: Версия Qwen3-8b требует грамматических исправлений и более естественных формулировок, в то время как другие в основном нуждаются в небольших уточнениях в выборе слов и последовательности.

Тест 2: Перевод страницы о моделях Qwen3 Embedding & Reranker на Ollama.

На основе моего анализа немецких переводов по сравнению с оригинальным английским текстом, вот оценки качества по шкале от 1 до 10:

Файл Модель ЛЛМ Оценка качества перевода Комментарии
index.de.devstral-24b.md Devstral 24B 8.5/10 Отличный общий перевод с естественным потоком немецкого языка, правильной технической терминологией и полным сохранением коротких кодов Hugo. Небольшие вычеты за некоторые слегка неудобные формулировки.
index.de.mistral-small3.1-24b.md Mistral Small 3.1 24B 8.7/10 Очень высокое качество перевода с последовательной терминологией, естественным немецким языком и идеальным сохранением форматирования. Немного лучше потока, чем у Devstral.
index.de.qwen3-8b.md Qwen3 8B 6.5/10 Смешанное качество - содержит смешивание английского и немецкого языков в первом абзаце (“The [Qwen3 Embedding and Reranker models]” вместо полного немецкого). Остальное хорошо переведено, но не последовательно.
index.de.qwen3-14b.md Qwen3 14B 8.2/10 Хороший немецкий перевод с правильной технической терминологией и естественным потоком. Хорошо структурирован и последователен на протяжении всего текста.
index.de.qwen3-30b-a3b.md Qwen3 30B 9.0/10 Отличное качество перевода с очень естественным немецким языком, идеальной последовательностью технической терминологии и отличной читаемостью. Лучший общий перевод.

Ключевые критерии оценки:

Наблюдаемые достоинства перевода:

  • Сохранение коротких кодов Hugo ({ {< ref >}} синтаксис)
  • Точность технической терминологии
  • Сохранение разметки Markdown
  • Сохранение структуры таблиц
  • Последовательность ссылок на изображения

Различия в качестве:

  1. Последовательность языка - Qwen3 8B имел проблемы со смешиванием английского и немецкого языков
  2. Естественный поток немецкого языка - Qwen3 30B достиг самого естественного немецкого выражения
  3. Техническая точность - Все модели хорошо обработали технические термины
  4. Сохранение форматирования - Все сохранили структуру Hugo идеально

Рейтинг по качеству:

  1. Qwen3 30B (9.0/10) - Лучший общий результат
  2. Mistral Small 3.1 24B (8.7/10) - Очень сильный
  3. Devstral 24B (8.5/10) - Отличный
  4. Qwen3 14B (8.2/10) - Хороший
  5. Qwen3 8B (6.5/10) - Достаточный с проблемами

Более крупные модели (Qwen3 30B и Mistral Small 3.1 24B) произвели переводы наивысшего качества, в то время как меньшая модель Qwen3 8B продемонстрировала явные ограничения в последовательности.

Тест 3: Переранжирование с использованием Ollama и модели Qwen3 Embedding - на Go

В сущности, это предыдущая запись на этом сайте: Переранжирование текстовых документов с использованием Ollama и модели Qwen3 Embedding - на Go.

На основе моего детального анализа немецких переводов вот сравнительная оценка:

Анализ качества перевода (шкала 1-10)

Файл Модель Оценка Ключевая оценка
index.de.devstral-24b.md DeVistral 24B 9/10 Отлично - Наиболее последовательный и профессиональный
index.de.mistral-small3.1-24b.md Mistral Small 3.1 24B 8.5/10 Очень хорошо - Естественный, но с незначительными несоответствиями
index.de.qwen3-14b.md Qwen3 14B 7/10 Хорошо - Твердый с некоторыми смешанными элементами
index.de.qwen3-30b-a3b.md Qwen3 30B 6.5/10 Удовлетворительно - Содержит непереведенный английский
index.de.qwen3-8b.md Qwen3 8B 5.5/10 Плохо - Множественные ошибки перевода

Детальный сравнительный анализ:

🥇 DeVistral 24B (9/10) - Победитель Преимущества:

  • Техническая точность: Использует “ollama API-Fehler” (строчные, более естественные)
  • Последовательный перевод: “handelt mit parallelen Anfragen” (сложное выражение)
  • Профессиональное качество: Полный перевод на немецкий язык
  • Форматирование: Идеальное сохранение структуры разметки

Небольшие проблемы: Очень мало, в основном стилистические предпочтения

🥈 Mistral Small 3.1 24B (8.5/10) Преимущества:

  • Естественный поток немецкого языка
  • Хорошая техническая терминология: “Ollama-API-Fehler” (с дефисом, формальный стиль)
  • Последовательное “verarbeitet parallele Anfragen”

Проблемы:

  • Немного менее сложные выражения в некоторых технических контекстах
  • Небольшие вариации форматирования

🥉 Qwen3 14B (7/10) Преимущества:

  • В целом точное сохранение смысла
  • Правильная структура немецкой грамматики

Проблемы:

  • Некоторые неловкие конструкции
  • Смешанное качество технической терминологии
  • Содержит “```” в начале и проблемы с форматированием

Qwen3 30B (6.5/10) Критическая ошибка:

  • Содержит непереведенный английский: “This little” появляется непосредственно в немецком тексте
  • Несмотря на больший размер модели, показывает несоответствия в переводе
  • Техническая точность присутствует, но подача ошибочна

Qwen3 8B (5.5/10) Основные проблемы:

  • Непереведенные разделы: “This little” осталось на английском
  • Непоследовательная терминология: Использует “RANGORDNUNG” вместо стандартного “RANGIERUNG”
  • Плохой поток: Менее естественные немецкие конструкции
  • Показывает явные ограничения меньшего размера модели

Ключевые различия, обнаруженные:

  1. Перевод ошибки API:

    • DeVistral: ollama API-Fehler (естественный, строчные)
    • Другие: Ollama-API-Fehler (формальный, с дефисом)
  2. Параллельные запросы:

    • DeVistral: “handelt mit parallelen Anfragen” (сложное)
    • Mistral/Qwen3-14B/30B: “verarbeitet parallele Anfragen” (стандартное)
    • Qwen3-8B: “behandelt parallele Anfragen” (менее точное)
  3. Заголовки разделов:

    • Большинство: “RANGIERUNG NACH ÄHNLICHKEIT” (стандартное)
    • Qwen3-8B: “RANGORDNUNG DURCH ÄHNLICHKEIT” (неловкое)
  4. Загрязнение английским:

    • Qwen3-30B & Qwen3-8B: Оставляют “This little” непереведенным
    • Другие: Правильно переводят как “Dieses kleine”

Победитель: DeVistral 24B - Показывает наиболее последовательный профессиональный уровень немецкого перевода с сложной технической терминологией и полным языковым преобразованием.


Хехе DeVistral :). Но это ошибка другой ЛЛМ.

Для более широкого сравнения Ollama с vLLM, LocalAI, Docker Model Runner и облачными опциями — включая когда выбирать каждую для перевода или других задач — см. наше Хостинг ЛЛМ: Локальный, Самостоятельный и Облачная Инфраструктура Сравнены.

Полезные ссылки