Сравнение качества перевода страниц Hugo - модели больших языков на Ollama

qwen3 8b, 14b и 30b, devstral 24b, mistral small 24b

Содержимое страницы

В этом тесте я сравниваю, как разные LLM, размещённые на Ollama, переводят Hugo-страницу с английского на немецкий.
Три страницы, которые я протестировал, были на разных темах, имели хорошее markdown-форматирование с определённой структурой: заголовки, списки, таблицы, ссылки и т.д.

Все эти модели работали на GPU NVIDIA с 16 ГБ VRAM, некоторые из них полностью помещались в VRAM, а другие (24b и 30b) не помещались и переключались на CPU.
Все равно протестировал их.

две страницы - перевод в процессе

Модели Ollama, которые я протестировал:

  • qwen3:8b
  • qwen3:14b
  • qwen3:30b-a3b
  • devstral:24b
  • mistral-small3.1:24b

После выполнения промптов перевода на всех этих моделях я попросил умную модель Anthropic проанализировать качество перевода, сравнить и предоставить метрики для каждой модели.

Я также попробовал magistral:24b, но он слишком много думал, поэтому был медленным и использовал весь контекст.
Итак - не подходит для моего GPU.

Простой вывод: TL;DR

Лучшая модель - Mistral Small 3.1 24b. Она не помещается в 16 ГБ VRAM, поэтому была немного медленной на моём оборудовании.

Следующие две лучшие: Qwen 3 14b и Qwen 3 30b. 14b помещается хорошо, но 30b - это модель MoE, поэтому довольно быстрая. На моём оборудовании их скорость была похожей.

Тест 1: Философская тема

Markdown-страница сайта на основе Hugo на какую-то потрясающую философскую тему - описание и примеры логического заблуждения Ad Baculum.

index.de.devstral-24b.md - Оценка: 7/10 Сильные стороны:

  • Хорошее переведение технических терминов (“argumentum ad baculum Fehlschluss”)
  • Сохранение правильного форматирования ссылок и структуры
  • Точное переведение сложных философских понятий
  • Правильная немецкая грамматика и синтаксис

Слабые стороны:

  • “verunstaltet” для “tainted” немного неестественно; “getrübt” было бы более естественно
  • Некоторые фразы кажутся немного сухими или слишком буквальными
  • Маленькие проблемы с потоком в определённых предложениях

index.de.mistral-small3.1-24b.md - Оценка: 8.5/10 Сильные стороны:

  • Очень естественный поток немецкого языка
  • Отличное переведение технических терминов
  • Хорошее сохранение исходного значения и тона
  • Правильная грамматика и структура предложений
  • Использование “getrübt” для “tainted”, что более естественно

Слабые стороны:

  • Очень небольшие несоответствия в терминологии
  • Редкие небольшие отклонения от структуры источника

index.de.qwen3-8b.md - Оценка: 6.5/10 Сильные стороны:

  • Точное переведение основных понятий
  • Правильное обработка технических терминов
  • Сохранение структуры статьи

Слабые стороны:

  • Некоторые неуклюжие формулировки (“kann sich auch in alltäglichen Interaktionen breiten”)
  • Меньше естественного потока немецкого языка в нескольких местах
  • Некоторые грамматические конструкции кажутся вынужденными
  • Пропущенное слово в “ein Werkzeug zur Unterdrückung von Widerstand und zur Gestaltung von Ergebnissen in Gunst der Machtbesitzer darstellt” (ошибка грамматики)

index.de.qwen3-14b.md - Оценка: 8/10 Сильные стороны:

  • Естественный поток немецкого языка
  • Отличное обработка технических терминов
  • Хорошее сохранение исходного значения
  • Правильная грамматика и синтаксис
  • Согласованный стиль на протяжении всего текста

Слабые стороны:

  • Небольшие вариации в согласованности терминов
  • Некоторые предложения могли бы быть более краткими

index.de.qwen3-30b-a3b.md - Оценка: 7.5/10 Сильные стороны:

  • Хорошее общее качество перевода
  • Естественное немецкое выражение
  • Хорошее переведение технических терминов
  • Сохранение читаемости и потока
  • Хорошее сохранение значения

Слабые стороны:

  • Некоторые небольшие несоответствия в выборе слов
  • Редкие немного неуклюжие формулировки
  • Пропущенное слово в последнем абзаце “über das [Terrain der] Argumentation”

Общие рейтинги

Файл Оценка качества перевода
index.de.mistral-small3.1-24b.md 8.5/10
index.de.qwen3-14b.md 8.0/10
index.de.qwen3-30b-a3b.md 7.5/10
index.de.devstral-24b.md 7.0/10
index.de.qwen3-8b.md 6.5/10

Лучший перевод: index.de.mistral-small3.1-24b.md - Наиболее естественный поток немецкого языка с отличной технической точностью

Области для улучшения: Версия Qwen3-8b нуждается в грамматических исправлениях и более естественных формулировках, а остальные в основном нуждаются в небольших улучшениях в выборе слов и согласованности.

Тест 2: Перевод страницы о Qwen3 Embedding & Reranker моделях на Ollama.

На основе моего анализа немецких переводов по сравнению с оригинальным английским текстом, вот оценки качества на шкале от 1 до 10:

Файл Модель LLM Оценка качества перевода Комментарии
index.de.devstral-24b.md Devstral 24B 8.5/10 Отличный общий перевод с естественным потоком немецкого языка, правильной технической терминологией и полным сохранением Hugo-шорткодов. Небольшие вычеты за некоторые немного неуклюжие формулировки.
index.de.mistral-small3.1-24b.md Mistral Small 3.1 24B 8.7/10 Очень высокое качество перевода с согласованной терминологией, естественным немецким языком и идеальным сохранением форматирования. Слегка лучше, чем у Devstral.
index.de.qwen3-8b.md Qwen3 8B 6.5/10 Смешанное качество - содержит смешение английского и немецкого языка в первом абзаце (“The [Qwen3 Embedding and Reranker models]” вместо полного немецкого). Остальная часть хорошо переведена, но несогласованна.
index.de.qwen3-14b.md Qwen3 14B 8.2/10 Хороший немецкий перевод с правильной технической терминологией и естественным потоком. Хорошо структурирован и согласован на протяжении всего текста.
index.de.qwen3-30b-a3b.md Qwen3 30B 9.0/10 Отличное качество перевода с очень естественным немецким языком, идеальной согласованностью технических терминов и выдающейся читаемостью. Лучший общий перевод.

Основные критерии оценки:

Наблюдаемые сильные стороны:

  • Сохранение Hugo-шорткодов ({ {< ref >}} синтаксис)
  • Точность технической терминологии
  • Сохранение форматирования markdown
  • Сохранение структуры таблиц
  • Согласованность ссылок на изображения

Критерии качества:

  1. Согласованность языка - Qwen3 8B имел проблемы со смешением английского и немецкого
  2. Естественный поток немецкого языка - Qwen3 30B достиг наиболее естественного немецкого выражения
  3. Техническая точность - Все модели хорошо обрабатывали технические термины
  4. Сохранение форматирования - Все сохранили структуру Hugo идеально

Рейтинг по качеству:

  1. Qwen3 30B (9.0/10) - Лучший общий результат
  2. Mistral Small 3.1 24B (8.7/10) - Очень сильный
  3. Devstral 24B (8.5/10) - Отличный
  4. Qwen3 14B (8.2/10) - Хороший
  5. Qwen3 8B (6.5/10) - Достаточный с проблемами

Большие модели (Qwen3 30B и Mistral Small 3.1 24B) создали самые высококачественные переводы, в то время как меньшая модель Qwen3 8B показала явные ограничения в согласованности.

Тест 3: Ререйтинг с Ollama и Qwen3 Embedding моделью - на Go

По сути, это предыдущий пост на этом сайте: Ререйтинг текстовых документов с Ollama и Qwen3 Embedding моделью - на Go.

На основе моего подробного анализа немецких переводов, вот сравнительная оценка:

Анализ качества перевода (шкала 1-10)

Файл Модель Оценка Основная оценка
index.de.devstral-24b.md DeVistral 24B 9/10 Отлично - Наиболее согласованный и профессиональный
index.de.mistral-small3.1-24b.md Mistral Small 3.1 24B 8.5/10 Очень хорошо - Естественный, но небольшие несоответствия
index.de.qwen3-14b.md Qwen3 14B 7/10 Хорошо - Твердый с некоторыми смешанными элементами
index.de.qwen3-30b-a3b.md Qwen3 30B 6.5/10 Средне - Содержит непереведённый английский
index.de.qwen3-8b.md Qwen3 8B 5.5/10 Плохо - Множество сбоев в переводе

Детальный сравнительный анализ:

🥇 DeVistral 24B (9/10) - Победитель Сильные стороны:

  • Техническая точность: Использует “ollama API-Fehler” (нижний регистр, более естественно)
  • Согласованность перевода: “handelt mit parallelen Anfragen” (изысканная формулировка)
  • Профессиональное качество: Полный немецкий перевод на протяжении всего текста
  • Форматирование: Идеальное сохранение структуры markdown

Минорные проблемы: Очень мало, в основном стилистические предпочтения

🥈 Mistral Small 3.1 24B (8.5/10) Сильные стороны:

  • Естественный поток немецкого языка
  • Хорошая техническая терминология: “Ollama-API-Fehler” (с дефисом, формальный стиль)
  • Согласованность “verarbeitet parallele Anfragen”

Проблемы:

  • Слегка менее изысканная формулировка в некоторых технических контекстах
  • Небольшие вариации в форматировании

🥉 Qwen3 14B (7/10) Сильные стороны:

  • Общая точность сохранения значения
  • Правильная немецкая грамматическая структура

Проблемы:

  • Некоторые неуклюжие конструкции
  • Смешанное качество в технической терминологии
  • Содержит “```” в начале и проблемы с форматированием

Qwen3 30B (6.5/10) Критическая ошибка:

  • Содержит непереведённый английский: “This little” появляется напрямую в немецком тексте
  • Несмотря на больший размер модели, показывает несогласованности в переводе
  • Техническая точность присутствует, но доставка неудачна

Qwen3 8B (5.5/10) Основные проблемы:

  • Непереведённые разделы: “This little” оставлен в английском
  • Несогласованная терминология: Использует “RANGORDNUNG” вместо стандартного “RANGIERUNG”
  • Плохой поток: Менее естественные немецкие конструкции
  • Показывает явные ограничения меньшего размера модели

Найденные ключевые различия:

  1. Перевод ошибки API:

    • DeVistral: ollama API-Fehler (естественный, нижний регистр)
    • Другие: Ollama-API-Fehler (формальный, с дефисом)
  2. Параллельные запросы:

    • DeVistral: “handelt mit parallelen Anfragen” (изысканно)
    • Mistral/Qwen3-14B/30B: “verarbeitet parallele Anfragen” (стандартно)
    • Qwen3-8B: “behandelt parallele Anfragen” (менее точное)
  3. Заголовки разделов:

    • Большинство: “RANGIERUNG NACH ÄHNLICHKEIT” (стандартно)
    • Qwen3-8B: “RANGORDNUNG DURCH ÄHNLICHKEIT” (неестественно)
  4. Загрязнение английским языком:

    • Qwen3-30B & Qwen3-8B: Оставляют “This little” непереведённым
    • Другие: Правильно переводят в “Dieses kleine”

Победитель: DeVistral 24B - Показывает наиболее согласованное профессиональное качество немецкого перевода с изысканной технической терминологией и полным переводом языка.


Хехе DeVistral :). Но это ошибка другого LLM.

Полезные ссылки