Сравнение качества перевода страниц Hugo - модели больших языков на Ollama
qwen3 8b, 14b и 30b, devstral 24b, mistral small 24b
В этом тесте я сравниваю, как разные LLM, размещённые на Ollama, переводят Hugo-страницу с английского на немецкий.
Три страницы, которые я протестировал, были на разных темах, имели хорошее markdown-форматирование с определённой структурой: заголовки, списки, таблицы, ссылки и т.д.
Все эти модели работали на GPU NVIDIA с 16 ГБ VRAM, некоторые из них полностью помещались в VRAM, а другие (24b и 30b) не помещались и переключались на CPU.
Все равно протестировал их.
Модели Ollama, которые я протестировал:
- qwen3:8b
- qwen3:14b
- qwen3:30b-a3b
- devstral:24b
- mistral-small3.1:24b
После выполнения промптов перевода на всех этих моделях я попросил умную модель Anthropic проанализировать качество перевода, сравнить и предоставить метрики для каждой модели.
Я также попробовал magistral:24b, но он слишком много думал, поэтому был медленным и использовал весь контекст.
Итак - не подходит для моего GPU.
Простой вывод: TL;DR
Лучшая модель - Mistral Small 3.1 24b. Она не помещается в 16 ГБ VRAM, поэтому была немного медленной на моём оборудовании.
Следующие две лучшие: Qwen 3 14b и Qwen 3 30b. 14b помещается хорошо, но 30b - это модель MoE, поэтому довольно быстрая. На моём оборудовании их скорость была похожей.
Тест 1: Философская тема
Markdown-страница сайта на основе Hugo на какую-то потрясающую философскую тему - описание и примеры логического заблуждения Ad Baculum.
index.de.devstral-24b.md - Оценка: 7/10 Сильные стороны:
- Хорошее переведение технических терминов (“argumentum ad baculum Fehlschluss”)
- Сохранение правильного форматирования ссылок и структуры
- Точное переведение сложных философских понятий
- Правильная немецкая грамматика и синтаксис
Слабые стороны:
- “verunstaltet” для “tainted” немного неестественно; “getrübt” было бы более естественно
- Некоторые фразы кажутся немного сухими или слишком буквальными
- Маленькие проблемы с потоком в определённых предложениях
index.de.mistral-small3.1-24b.md - Оценка: 8.5/10 Сильные стороны:
- Очень естественный поток немецкого языка
- Отличное переведение технических терминов
- Хорошее сохранение исходного значения и тона
- Правильная грамматика и структура предложений
- Использование “getrübt” для “tainted”, что более естественно
Слабые стороны:
- Очень небольшие несоответствия в терминологии
- Редкие небольшие отклонения от структуры источника
index.de.qwen3-8b.md - Оценка: 6.5/10 Сильные стороны:
- Точное переведение основных понятий
- Правильное обработка технических терминов
- Сохранение структуры статьи
Слабые стороны:
- Некоторые неуклюжие формулировки (“kann sich auch in alltäglichen Interaktionen breiten”)
- Меньше естественного потока немецкого языка в нескольких местах
- Некоторые грамматические конструкции кажутся вынужденными
- Пропущенное слово в “ein Werkzeug zur Unterdrückung von Widerstand und zur Gestaltung von Ergebnissen in Gunst der Machtbesitzer darstellt” (ошибка грамматики)
index.de.qwen3-14b.md - Оценка: 8/10 Сильные стороны:
- Естественный поток немецкого языка
- Отличное обработка технических терминов
- Хорошее сохранение исходного значения
- Правильная грамматика и синтаксис
- Согласованный стиль на протяжении всего текста
Слабые стороны:
- Небольшие вариации в согласованности терминов
- Некоторые предложения могли бы быть более краткими
index.de.qwen3-30b-a3b.md - Оценка: 7.5/10 Сильные стороны:
- Хорошее общее качество перевода
- Естественное немецкое выражение
- Хорошее переведение технических терминов
- Сохранение читаемости и потока
- Хорошее сохранение значения
Слабые стороны:
- Некоторые небольшие несоответствия в выборе слов
- Редкие немного неуклюжие формулировки
- Пропущенное слово в последнем абзаце “über das [Terrain der] Argumentation”
Общие рейтинги
Файл | Оценка качества перевода |
---|---|
index.de.mistral-small3.1-24b.md | 8.5/10 |
index.de.qwen3-14b.md | 8.0/10 |
index.de.qwen3-30b-a3b.md | 7.5/10 |
index.de.devstral-24b.md | 7.0/10 |
index.de.qwen3-8b.md | 6.5/10 |
Лучший перевод: index.de.mistral-small3.1-24b.md
- Наиболее естественный поток немецкого языка с отличной технической точностью
Области для улучшения: Версия Qwen3-8b нуждается в грамматических исправлениях и более естественных формулировках, а остальные в основном нуждаются в небольших улучшениях в выборе слов и согласованности.
Тест 2: Перевод страницы о Qwen3 Embedding & Reranker моделях на Ollama.
На основе моего анализа немецких переводов по сравнению с оригинальным английским текстом, вот оценки качества на шкале от 1 до 10:
Файл | Модель LLM | Оценка качества перевода | Комментарии |
---|---|---|---|
index.de.devstral-24b.md |
Devstral 24B | 8.5/10 | Отличный общий перевод с естественным потоком немецкого языка, правильной технической терминологией и полным сохранением Hugo-шорткодов. Небольшие вычеты за некоторые немного неуклюжие формулировки. |
index.de.mistral-small3.1-24b.md |
Mistral Small 3.1 24B | 8.7/10 | Очень высокое качество перевода с согласованной терминологией, естественным немецким языком и идеальным сохранением форматирования. Слегка лучше, чем у Devstral. |
index.de.qwen3-8b.md |
Qwen3 8B | 6.5/10 | Смешанное качество - содержит смешение английского и немецкого языка в первом абзаце (“The [Qwen3 Embedding and Reranker models]” вместо полного немецкого). Остальная часть хорошо переведена, но несогласованна. |
index.de.qwen3-14b.md |
Qwen3 14B | 8.2/10 | Хороший немецкий перевод с правильной технической терминологией и естественным потоком. Хорошо структурирован и согласован на протяжении всего текста. |
index.de.qwen3-30b-a3b.md |
Qwen3 30B | 9.0/10 | Отличное качество перевода с очень естественным немецким языком, идеальной согласованностью технических терминов и выдающейся читаемостью. Лучший общий перевод. |
Основные критерии оценки:
Наблюдаемые сильные стороны:
- Сохранение Hugo-шорткодов (
{ {< ref >}}
синтаксис) - Точность технической терминологии
- Сохранение форматирования markdown
- Сохранение структуры таблиц
- Согласованность ссылок на изображения
Критерии качества:
- Согласованность языка - Qwen3 8B имел проблемы со смешением английского и немецкого
- Естественный поток немецкого языка - Qwen3 30B достиг наиболее естественного немецкого выражения
- Техническая точность - Все модели хорошо обрабатывали технические термины
- Сохранение форматирования - Все сохранили структуру Hugo идеально
Рейтинг по качеству:
- Qwen3 30B (9.0/10) - Лучший общий результат
- Mistral Small 3.1 24B (8.7/10) - Очень сильный
- Devstral 24B (8.5/10) - Отличный
- Qwen3 14B (8.2/10) - Хороший
- Qwen3 8B (6.5/10) - Достаточный с проблемами
Большие модели (Qwen3 30B и Mistral Small 3.1 24B) создали самые высококачественные переводы, в то время как меньшая модель Qwen3 8B показала явные ограничения в согласованности.
Тест 3: Ререйтинг с Ollama и Qwen3 Embedding моделью - на Go
По сути, это предыдущий пост на этом сайте: Ререйтинг текстовых документов с Ollama и Qwen3 Embedding моделью - на Go.
На основе моего подробного анализа немецких переводов, вот сравнительная оценка:
Анализ качества перевода (шкала 1-10)
Файл | Модель | Оценка | Основная оценка |
---|---|---|---|
index.de.devstral-24b.md | DeVistral 24B | 9/10 | Отлично - Наиболее согласованный и профессиональный |
index.de.mistral-small3.1-24b.md | Mistral Small 3.1 24B | 8.5/10 | Очень хорошо - Естественный, но небольшие несоответствия |
index.de.qwen3-14b.md | Qwen3 14B | 7/10 | Хорошо - Твердый с некоторыми смешанными элементами |
index.de.qwen3-30b-a3b.md | Qwen3 30B | 6.5/10 | Средне - Содержит непереведённый английский |
index.de.qwen3-8b.md | Qwen3 8B | 5.5/10 | Плохо - Множество сбоев в переводе |
Детальный сравнительный анализ:
🥇 DeVistral 24B (9/10) - Победитель Сильные стороны:
- Техническая точность: Использует “ollama API-Fehler” (нижний регистр, более естественно)
- Согласованность перевода: “handelt mit parallelen Anfragen” (изысканная формулировка)
- Профессиональное качество: Полный немецкий перевод на протяжении всего текста
- Форматирование: Идеальное сохранение структуры markdown
Минорные проблемы: Очень мало, в основном стилистические предпочтения
🥈 Mistral Small 3.1 24B (8.5/10) Сильные стороны:
- Естественный поток немецкого языка
- Хорошая техническая терминология: “Ollama-API-Fehler” (с дефисом, формальный стиль)
- Согласованность “verarbeitet parallele Anfragen”
Проблемы:
- Слегка менее изысканная формулировка в некоторых технических контекстах
- Небольшие вариации в форматировании
🥉 Qwen3 14B (7/10) Сильные стороны:
- Общая точность сохранения значения
- Правильная немецкая грамматическая структура
Проблемы:
- Некоторые неуклюжие конструкции
- Смешанное качество в технической терминологии
- Содержит “```” в начале и проблемы с форматированием
Qwen3 30B (6.5/10) Критическая ошибка:
- Содержит непереведённый английский: “This little” появляется напрямую в немецком тексте
- Несмотря на больший размер модели, показывает несогласованности в переводе
- Техническая точность присутствует, но доставка неудачна
Qwen3 8B (5.5/10) Основные проблемы:
- Непереведённые разделы: “This little” оставлен в английском
- Несогласованная терминология: Использует “RANGORDNUNG” вместо стандартного “RANGIERUNG”
- Плохой поток: Менее естественные немецкие конструкции
- Показывает явные ограничения меньшего размера модели
Найденные ключевые различия:
-
Перевод ошибки API:
- DeVistral:
ollama API-Fehler
(естественный, нижний регистр) - Другие:
Ollama-API-Fehler
(формальный, с дефисом)
- DeVistral:
-
Параллельные запросы:
- DeVistral: “handelt mit parallelen Anfragen” (изысканно)
- Mistral/Qwen3-14B/30B: “verarbeitet parallele Anfragen” (стандартно)
- Qwen3-8B: “behandelt parallele Anfragen” (менее точное)
-
Заголовки разделов:
- Большинство: “RANGIERUNG NACH ÄHNLICHKEIT” (стандартно)
- Qwen3-8B: “RANGORDNUNG DURCH ÄHNLICHKEIT” (неестественно)
-
Загрязнение английским языком:
- Qwen3-30B & Qwen3-8B: Оставляют “This little” непереведённым
- Другие: Правильно переводят в “Dieses kleine”
Победитель: DeVistral 24B - Показывает наиболее согласованное профессиональное качество немецкого перевода с изысканной технической терминологией и полным переводом языка.
Хехе DeVistral :). Но это ошибка другого LLM.
Полезные ссылки
- Ререйтинг текстовых документов с Ollama и Qwen3 Embedding моделью - на Go
- Справочник Ollama
- Qwen3 Embedding & Reranker модели на Ollama: передовые достижения
- Установка и настройка расположения моделей Ollama
- Как Ollama обрабатывает параллельные запросы
- Сравнение LLM: Mistral Small, Gemma 2, Qwen 2.5, Mistral Nemo, LLama3 и Phi - на Ollama
- Тест: Как Ollama использует производительность Intel CPU и эффективные ядра
- Сравнение способностей LLM к резюмированию