Jonmey
Advanced Member | Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору Jestri писал Цитата: С каждой новой версией действительно ли улучшается качество перевода или же только циферки меняются в названии ? | В общем-то, для автоматизированных переводчиков этот вопрос решаем, в смысле нахождения ответа. Например, взять английский язык, как наиболее востребованный. Английский - это прежде всего язык действия, в отличие от "описательного" русского. Поэтому на корректность перевода сильнейшее влияние будет оказывать точность перевода глаголов (и, соответственно, глагольных форм), которые нужно переложить на "описательный" русский (в этом глубочайшее заблуждение тех, кто ратует за буквальный перевод - word by word - который по определению будет корявым, как его не совершенствуй, поскольку абсолютно точных аналогий в паре русский-английский не так уж много, прежде всего в части фразоообразующих слов (то есть, не общепринятых терминов с узким значением). В части многословных конструкций - таких аналогий (дословно, а не только смыслово) еще меньше. Отсюда и возникают сложности корректного и точного машинного перевода. Основываясь на этом, можно предложить систему тестирования машинных переводчиков. Например, берем глагол get, который удобен тем, что имеет овердохрена значений и является овердохрена популярным, настолько, что существует даже типа афоризм - "не знаешь какой глагол употребить - вставляй get". Составляем/находим - фразы с глаголом get, каждая из которых использует его в одном из многочисленных значений (согласно словарям). Получаем сотню или более фраз/предложений, которые исчерпывают все значения этого глагола. Скармливаем машинному переводчику и считаем число фраз в которых этот глагол переведен правильно, то есть именно в том значении, в котором он использован. Это явно проиллюстрирует возможности конкретного машинного переводчика. Таким образом можно использовать не одно слово, а целый набор слов (прежде всего распространенных) и тестировать переводчики. Как результат, полагаю, что с течением времени большинство из этих переводчиков покажут результаты не сильно улучшающиеся во времени (за исключением, некоторых онлайн переводчиков). Просто потому, что любой язык - это не строгий алгоритм, а потому впихнуть его в конкретный, относительно небольшой по размеру компьютерный алгоритм - более чем затруднительно. Еще на заре автоматических переводчиков было сформулировано правило, согласно которому, рост качества перевода и размера базы, которой пользуется машинный переводчик, находятся в геометрической прогрессии. То есть, условно говоря чтобы повысить качество перевода в 2 раза размер лингвистической базы (речь не о количестве словарей, поскольку словари сами по себе влияют только на фактическое наличие перевода слова, но мало влияют на точность выбора правильного его значения) должен вырасти в 4 раза, чтобы повысить качество перевода еще в 2 раза, размер базы должен вырасти уже в 8 раз и так далее. То есть возникает проблема не создания/написания программы-переводчика, а создания лингвистической базы соответствующего уровня, которая требует роста квалификации специалистов-лингвистов в той же самой геометрической прогрессии синфазно росту размеров этой базы. И тут возникает проблема - а кто все эти труды фактически армии суперспециалистов лингвистов оплачивать будет? И это не единственная проблема. Только СССР мог позволить себе задействовать сотню академиков, несколько тысяч профессоров и без счета кандидатов наук (то есть, PhD, по западному) и создать что-то типа БСЭ. Больше такого никто не может себе позволить. Потому подобный путь неосуществим в рамках отдельного машинного переводчика. Например, переводчик Google, судя по всему, пошел другим путем - используя частотные и обычные фразеологические базы, которые составляются в том числе и автоматизированно с участием пользователей переводчика. Это заметно повысило качество перевода за последние лет 15. Однако ни о каком качественном литературном переводе речи и быть не может. Лучше всего переводчик, по прежнему справляется с переводами фраз которые составлены с учетом того языка на который нужно переводить, то есть, по сути коряво. Например, если переводить на английский текст из русских фраз, которые составлены с учетом особенностей английской речи, то переводчик переведет весьма неплохо (по крайней мере, по оценке носителей английского языка), но оригинальный русский текст при этом должен выглядеть словно его создал не человек, а тот же самый машинный переводчик. Отсюда несложно догадаться, что локальные машинные переводчики, типа ПРОМТ, еще более стеснены в возможностях качественного перевода. Тупой, сухой, протокольный текст (благодаря указанию тематики) еще как-то осилят, но не более того - в остальном это будет явно топорная работа. Фактически, полагаю, все новые версии таких переводчиков связаны с мелкими улучшениями и исправлением явных ляпов, ну и добавлением бантиков ,которые на перевод вообще не влияют. То есть, при малых изменениях в размерах дистрибутивов ждать качественного улучшения перевода от них не стоит. Если дистрибутивы, увеличатся в размерах во много раз, тогда уже стоит смотреть за счет чего именно произошел рост и в некоторых случаях, уже можно рассчитывать заметный рост качества перевода. Из сказанного следует, что появление новых игроков (исключая онлайн сервисы) маловероятно, поскольку маловероятно появление некоего нового алгоритма перевода с качественно лучшими показателями существующих. Что и наблюдается на практике. Точнее, имеет место обратная тенденции – сокращения существующих систем машинного перевода за счет оффлайн переводчиков, которым по понятным причинам все труднее конкурировать с онлайн переводчиками. То есть имеет место отток кадров из оффлайн сектора, на фоне которого заметный рост качества перевода существующих оффлайн переводчиков, еще менее вероятен. |