Трахтенберг Роман Михайлович: другие произведения.

Заговорим на всех языках

Сервер "Заграница": [Регистрация] [Найти] [Рейтинги] [Обсуждения] [Новинки] [Помощь]
  • Комментарии: 7, последний от 17/12/2019.
  • © Copyright Трахтенберг Роман Михайлович (romantr@netvision.net.il)
  • Обновлено: 17/12/2019. 23k. Статистика.
  • Рассказ: Израиль
  • Иллюстрации: 1 штук.
  • Оценка: 3.82*7  Ваша оценка:
  • Аннотация:
    Главы из книги "ПРОЗРЕНИЕ", гл. 74

  •    Роман Трахтенберг
      
       Заговорим на всех языках
      
       Многие идеи в то безработное время посещали мою высвободившуюся голову. Одна из них зацепилась основательно. Жизнь показала, что на русском языке никто из нужных людей не говорит и не слушает, а мой иврит, как принято выражаться, - оставлял желать лучшего. Но голове может помочь машина!
       Мне было ясно, что сегодня ещё рано пытаться научить технику разговаривать, подобно болтливому человеку. Но её можно приспособить для краткого "служебного" диалога. А как это важно, я прочувствовал на собственной шкуре. Оказавшись в Ганновере на промышленной выставке, я заблудился и не мог найти нужного выхода в сторону улочки, на которой жил. Шёл дождь и дул холодный ветер. Я промок и замёрз, боялся так некстати заболеть, но на своих языках никому, даже терпеливому полицейскому, не мог растолковать, что я хочу. Все вежливо улыбались и отступались от что-то бормочущего иностранца.
       Я понял, что мы нуждаемся в самых простых вещах. Например, в аэропорту спросить у девушки в справочном, где доплатить за лишний вес, где посадка на мой рейс? А она тебя не понимает! А времени совсем нет! И ещё я почувствовал, что вот-вот мир бросит сюда огромные деньги. Ну, примерно, как на мобильные телефоны. У меня были основания доверять этому ощущению. Оглядываясь в прошлое, убеждала судьба моей идеи конца 60-х о том, что "Можно жить без денег", и вскоре бум с кредитными карточками, которые люди буквально выхватывали из рук банковских клерков.
      
       На самом деле, та легкость, с которой мы говорим и слушаем речь - великое чудо природы. Хотя это делается нами совершенно запросто, мировая наука множество лет бьётся над этой проблемой, и мало чего поняла. Размышляя в эту сторону, мне было абсолютно ясно, что, будучи неспециалистом, нечего и пытаться лезть в научные теории языковых дел. Но вместе с тем, было понятно, что стремительный прогресс компьютеров и разноязыкие толпы людей в крупных городах... впрочем, лучше я приведу кусочек из моего оставшегося скрытым от всех патента.
       Должен извиниться, читателю предстоит некоторый труд, чтобы вникнуть в хитрое дело. Я постараюсь сделать ваше усилие максимально лёгким.
      
       PATENT
       СПОСОБ СИНХРОННОГО ПЕРЕВОДА РЕЧИ
      
       "Предлагается способ синхронного автоматического перевода речи двух или нескольких лиц, при котором каждый из них говорит и слышит собеседника на своём родном языке. Вид языков и их число - не ограничивается. Попутно решается задача голосового взаимодействия человека с машиной.
       История развития современной цивилизации опровергает предположение о будущем едином языке общения всех жителей планеты. Хотя наблюдается тенденция интеграции соседних государств, значимость родного языка в каждой стране полностью сохраняется.
       Вместе с тем, границы государств становятся всё более прозрачными, а население - многоязычным. Возрастает актуальность проблемы уменьшения или снятия языковых ограничений в общении людей.
       Автоматизация перевода речи осуществляется поэтапно. Вначале решается более простая задача подачи голосовых команд. Затем осуществляются служебные разговоры с ограниченным словарным и грамматическим фондом. Постепенно автоматические средства перевода распространяются на большинство форм общения людей, где языковые барьеры особенно досадны.
       Сокровенные желания людей - стимул развития техники. Существуют сказания типа "ковёр-самолёт" или "...повернись изба ко мне передом!". Если мечты о полётах во многом осуществились, то исполнение речевых команд оказалось делом более сложным. Пришлось ожидать изобретения и развития техники, воспроизводящей мыслительную деятельность человека.
       Компьютеры достигли уровня, когда возможна реализация в режиме реального времени полезных программ распознавания речи.
       Коммерческий потенциал таких средств безграничен, поскольку они удовлетворяют естественные потребности каждого человека, живущего в сообществе людей и машин. Скоро мир инвестирует сюда огромные денежные средства".
      
       Наука до сих пор вгрызается в "анатомию" речи. Расчленяет наш разговор на короткие звуки, а затем изучает законы их объединения в слова и фразы. Здесь открылись некоторые тайны, написаны книги и диссертации. Однако сегодня на рынке нет надёжных диктофонов и переводчиков. Сенсационных сообщений было сколько угодно. Но мобильный телефон сегодня почти у каждого в руках, а для передачи даже краткого сообщения по электронной почте приходится нудно ползать по клавиатуре. Нет бы просто - сказать в микрофон, а компьютер пускай сам напечатает текст.
       Быть может, мой читатель из "прекрасного далёко", ты усмехнулся темноте автора? Какие проблемы! Да я просто говорю в свой мобильник, а мой собеседник, стоящий рядом или за тысячи километров, слышит меня через свой мобильный аппарат на своём языке. И нет между нами никакого языкового барьера!
      
       Да, таковы мечты. А пока попробую коротко объяснить свою идею.
       Не обязательно вникать, кто и что говорит, и на каком языке. Ведь микрофон "слышит" любую речь, а магнитофон её запоминает. И ни тот, ни другой понятия не имеют о разных языках, да и вообще малограмотны. Надо научиться фиксировать особенности, отличающие одно слово от другого. Конечно, человек должен произнести слово в микрофон, тогда на выходе этого простенького прибора появится определенная картина сигнала в виде электрического напряжения оригинальной формы. Каждое слово - своя картинка.
    Например, это слово "ЗАВТРА"
     []
    Один из нескольких десятков вариантов обработки "картинки" слова ЗАВТРА.
    Подобных и других результатов проникновения в тайны простого нашего разговора у меня сохраняется целый портфель.
      
       Сделаем так: под N1 запомним звучание слова "когда" и отличительные признаки-критерии его "картинки"; затем под N2 - звучание и критерии слова "прилетает"; и ещё под N3 слово - "самолёт". Приведённые слова позволяют уже составить начало вопроса: "Когда прилетает самолёт...?" Таким способом можно создать словарь для служебного диалога.
       Ну, а как быть с переводом на другой язык? Да очень просто! Предложим англичанину произнести на своём родном языке эти же слова и добавим их в словарь под теми же номерами. Затем можно обратится к уважаемому эфиопу и под теми же номерами записать эти слова по-эфиопски.
       Теперь представим себе, что в аэропорту Лондона к служащей справочного бюро обращается наш эфиоп и на одному ему понятном языке спрашивает о том, когда прилетает самолёт такого-то рейса. Девушка в справочном умеет только одно: услышать этот вопрос, звучащим по-английски, и на этом же языке произнести ответ, который эфиоп должен услышать на своём языке.
       Да, но как это сделать?
       Магнитофон - это штука устаревшая. Запоминать все слова и картинки, сравнивать их, узнавать и произносить будет, конечно, компьютер.
      
       Как же научить его такому делу? Ну, ясно, вопрос и ответ должны произноситься собеседниками в свои микрофоны, а слышать их они смогут с помощью громкоговорителей или наушников, которые стоят рядышком с каждым компьютером. Вся проблема в специальной программе, которая позволит компьютеру, "услышав" по-эфиопски слово "когда" понять, что это слово N1. Если это получилось, то совсем просто взять из памяти компьютера английское слово N1 и выдать его через громкоговоритель английской девушке. Ей не составит никакого труда понять вопрос и дать на него ответ на своём языке. Теперь опять работает компьютер: "услышав" ответ, он отыщет в словаре эти слова и по их номерам выдаст соответствующие слова эфиопу на его языке.
      
       Итак, изюмина в программе, которая должна, получив "картинку" от микрофона "узнать" в ней знакомое слово. Мы уже знаем, что предварительно наш эфиоп произносил эти слова, и их картинки сидят в программе. Теперь компьютер переберёт в своей памяти все картинки, сравнивая их с входящей. Мгновенно выполнив такую детскую игру, компьютер обнаружит, что новая картинка подобна уже имеющейся под N1 и скажет по-английски: "When" (Когда). Так и продолжится диалог.
       Чтобы упростить дело эфиоп, наговорив все слова компьютеру у себя на родине, получит магнитную карточку с их записью. Именно эту карточку он вставит в компьютер в лондонском справочном бюро (как вы вставляете карточку в каспомат, чтобы получить деньги). Таким образом, программа будет "слышать" знакомые слова, произносимые знакомым голосом, и ей легко будет их узнавать. Аналогично, свои карточки будут иметь и английская девушка из справочного и каждый человек, который захочет приобщиться к нашей системе перевода. Как сейчас вы вступаете в компанию "Виза" или "Мастеркарт", так же купите себе карточку "Диалог".
       Как видно, проблема свелась к тому, чтобы "узнавать самого себя".
      
       А вдруг мой читатель не боится науки. Для него могу кое-что пояснить. Знаменитый Фурье открыл, что любой сигнал состоит из гармоник. Речь человека содержит частоты от 20 до 16000 Герц. Другой гений Шеннон понял, что излишне работать с полной картинкой сигнала, достаточно выбрать его отдельные значения. И сделать это нужно с частотой выборки вдвое выше, чем частота наивысшей гармоники сигнала. Для нашего случая, очевидно, нужно прочитывать сигнал каждую 32 000-ную секунды.
       Опытами я быстро установил, что достаточно опрашивать сигнал значительно реже. Так уже при 8000 опросов в секунду не улавливаешь на слух разницы. Таким способом произносимые человеком слова превращаются в группы импульсов, то есть чисел. Ну, а числа - это любимая пища компьютера, с которой он готов проделать всё, что мы прикажем ему в программе. Кстати, сегодня во всех рекламах только и слышно: "дигитальное изображение, дигитальный звук". Речь идёт, как раз, о тех самых "оцифрованных" сигналах-импульсах, о которых мы говорили.
      
       Эта идея среди других была у меня в запасе, когда на организованной для олимов встрече с инвесторами мной заинтересовался один бизнесмен. Он, видимо, усмотрел в этом невидном, но настойчивом русском, возможность заработать, рискнув небольшими деньгами. Я требовал компьютер и 3 месяца оплаты себя и программиста для получения первого варианта разговорной программы. Этот человек посомневался только, что я за 2000 долларов в месяц найду программиста. Но я рассчитывал на Сашу Геллера. Мой бывший студент и желанный, но не пробившийся тогда через ректора, несмотря на самую активную мою поддержку, аспирант, - недавно приехал и поселился рядом. Он пока не имеет работы и согласится войти в мою компанию.
      
       И завертелась работа. Теперь сам удивляюсь, с какой немыслимой быстротой удалось нам внедриться в новую область. Конечно, мы налетели на тысячу неожидаемых препятствий. Но с бодрой отвагой и изобретательностью раскалывая их, таки выдали пригодный для публичных испытаний продукт. Пожалуй, до этого лишь однажды я так работал. Тогда, в Киеве, нащупывая пути к точному приводу.
       Достаточно взглянуть на дневник, который я вёл для отчёта перед инвестором.
      11.08.94 Покупка компьютера, установка программного обеспечения
      12.08 Установка программ записи звука
      13.08 Исследование "рисунков" нескольких слов и выбор частоты опроса в 8 кГц
      14.08 Исследование гласных звуков
      15.08 Упрощения формы рисунков-слов
      16.08 Алгоритм обнаружения начала и конца слова
      17.08 Исследование согласных, особенности шипящих звуков
      18.08 Разработка признаков-критериев формы слов: сумма, плотность, длительность, число пиков и впадин, расстояния между ними
      21.08 Исследование различий в русском, английском, французском и ивритском произношениях
      25.08 Сформировано 60 критериев
      30.08 Программа идентификации слов
      7.09 Проверка программы разговора из 10 слов
      11.09 Работает программа из 20 слов
       Саша стучал на клавишах, как пулемёт. Он уже работал, приходил усталый, но нет худа без добра - мы не тратили времени и сил на обычные в таких случаях споры. Он легко принимал мои задания. В начале творческого дела верна поговорка - "две головы хорошо, а одна - лучше". На короткое время я выходил на горку и в пардесы, промывал уши и мозги тишиной, мысли шустро обегали последние результаты. Становилось ясно - этот путь плох, а надо делать так и так. Возвращался домой и писал Саше задание на новый сеанс. Компьютерное умение и руки были целиком его. Мы идеально дополняли друг друга.
       Через месяц такой работы мы начали разговаривать с компьютером, и он понимал произносимые слова. Не всегда. Требовалось не расслабляться, говорить отчётливо, но просто. Мы ввели в программу особый "коэффициент чёткости". Если его ослабить - программа легко принимала все слова, но иногда путала их. Можно было наоборот, усилить этот коэффициент, тогда ошибки исчезали, но всё чаще на обращение к компьютеру он отвечал: "Повторите, пожалуйста".
       Через два месяца у нас работала программа на 208 слов. Кипы листов хранили записи моих бесчисленных указаний программисту, таблицы и графики их испытаний. Но бумага не очень помогала мне. Приходилось всё одновременно держать в голове. Её испытания пока что, слава Богу, тоже проходили удачно.
       Трудности появились там, где их и не ожидали. Например, начало и конец слова. Ну, чего проще? Но оказалось, что полной тишины не существует и компьютер хватается за любой шумок, искажая картинку слова. Да и человек начинает произношение не сразу, сначала 1-2 десятых секунды "мычит", а после окончания ещё доли секунды шумно дышит. Это тоже ломает определённость слова. Пришлось повозиться с программой. Нельзя же приставать к человеку - говори так и не говори этак. Он тогда волнуется и говорит ещё хуже. Между прочим, существуют люди с такой дикцией, что никогда никакая машина их понимать не будет. Да вы и сами знаете таких. Его слушаешь и не слышишь, а только догадываешься, что он сказал. Кстати, мой инвестор говорил по-французски. При этом он издавал такое хриплое и лишь слегка модулируемое по громкости звучание, что наш компьютер растерялся и не смог выделить из его речи ни единого слова.
       Вскоре выяснилось и другое неприятное свойство человеческой речи - изменчивость произношения. Понятно, можно говорить громче или тише, быстрее или медленней. С этим справились легко. Но оказалось, что существует ещё многочисленная группа "хлипких" слов, способных сильно изменяться внутри, хотя на слух это почти не ощутимо. И против этого я придумал замечательную штуку - "бетон", который "заливался" в слово, защищая его от такого ёрзания.
       Наконец, нам удалось ухватить эту ускользающую плазму звучаний, и программа на 208 слов и выражений заработала прилично. С таким объёмом словаря можно вести в справочном бюро уже довольно содержательный диалог. Инвестор познакомил меня со своей переводчицей и секретарём, которая взяла на себя роль английской справочной девушки. Мы немного порепетировали и с оптимизмом стали ждать приезда группы покупателей из Бельгии.
      
       Пришёл назначенный день. Я погрузил в свою Сузуки компьютер и все прочие вещи и поехал в столицу Негева - Беер-Шеву.
       Мне представили комиссию. Четверо совсем разных по росту, виду и цвету, но одинаково упитанных джентльменов. Они с интересом взирали на, видимо, разрекламированную покупку. Мы с секретаршей начали "Диалог в справочном бюро аэропорта". Всё шло гладко. Я задавал по-русски вопросы (они слышали мою вопросительную, но непонятную речь), девушка слышала эти вопросы по-английски (это уже было им понятно). Затем она отвечала на английском, а машина говорила мне эти фразы по-русски. Так мы беседовали минут пять.
       После окончания сеанса все оживились и стали задавать вопросы. Один из приезжих оказался специалистом именно по этому делу.
       - И это вы сделали с одним программистом всего за три месяца?
       - Да, вот дневник нашей работы.
       - Я знаком с работами нашего института, где трудятся десять нобелевских лауреатов. Их программа работает не лучше. А вы можете дополнить вашу программу ещё другими словами?
       Я не был готов к таким экспериментам, но решил, что попробовать можно. Недавно придуманный "бетон" укреплял мою надежду на удачу.
       - Какое слово вы хотите ввести?
       - Ну, пусть это будет слово - "Бельгия". Сколько раз вам требуется его повторить, чтобы компьютер запомнил?
       - Думаю, достаточно одного раза.
       Я нажал несколько кнопок, поставив программу в режим запоминания, и произнёс в микрофон это слово. Затем включился в режим диалога и, изо всех сил удерживая себя в спокойном состоянии, произнёс в микрофон: "Бельгия".
       - Бельгия, - чётко ответил компьютер.
       - Фантастика! - сказал специалист. - Нашим требовалось повторять слово 3-4 раза.
       Гости и инвестор повели между собой оживлённую беседу по-французски. Я попросил перевести. Оторвавшись от разговоров, самый солидный из приезжих сказал через переводчицу.
       - Ваша демонстрация была интересной, но особенно нам понравился сам профессор. Конечно, если бы он своевременно уехал на Запад, то теперь имел бы уже хорошие деньги и положение. Мне хотелось бы пояснить уважаемому профессору, что на Западе практикуется иной подход к техническим проектам. Сначала изучаются насущные потребности общества, затем оценивается возможная прибыль в избранном направлении, а уже после всего начинается техническая разработка и патентование. Значительно сложней приспособить к делу уже готовое изобретение.
       Наступило довольно долгое ожидание результатов нашего спектакля. Зарплату нам инвестор сначала снизил вдвое (вопреки подписанному вначале соглашению), а вскоре и совсем забыл об этом. Рассказывал, что приезжавшие люди оказались в сложном финансовом положении из-за военного переворота на Мадагаскаре, где у них были вложены большие деньги в строительство электростанций.
      
       Я сначала не сдавался, искал более простые пути применения нашей разговорной программы. Ездил в Иерусалим к хозяину фирмы, выпускавшей дискеты для обучения на иностранном языке. Убеждал его, что любая его дискета, получит обратную связь через мою программу, когда ученик сможет не просто прослушивать учителя, но и учитель "услышит", что и как говорит ученик и сможет его направлять. Ведь только так можно научить человека правильному произношению, да и в целом обучение пойдёт лучше. Он соглашался, ему это нравилось, но денег на доработку не давал. После ещё я обратился в министерство образования. Любезная тётя ответила: "Давайте вашу программу, и мы включим её в перечень обучающих средств, из которого школы закупают то, что им понравится". Но денег на доработку бедное ведомство не имело.
       Так и осталось ещё одно из моих "крупных" изобретений - без последствий. Раньше хоть публикация давала чувство, что родившееся ушло к людям. Здесь и это осложнилось.
      
       После я ещё делал довольно вялые попытки продвинуть мой "Диалог". Вот уже и мобильный телефон предлагает услугу - "голосовой набор номера", реклама осторожно пошумливает о разговаривающих игрушках. Из Интернета можно бесплатно "скачать" огромную программу распознавания, авторы указывают её надёжность - 30% (наша программа имела 90%).
       Когда сказал внукам, что могу сделать собачку, которая отзовётся на ваш голос и пойдёт к вам, а чужих ребят не послушается, они оба закричали: "Деда, сделай мне такую!" Вот это и есть прекрасный проект для бизнеса, ведь сегодня в детских играх крутится 20 миллиардов долларов. Но где они, мои инвесторы?
      
       И всё-таки надежда не умерла. Иногда я вновь обдумываю алгоритм и нахожу новые усиления, в частности - узнавание индивидуального голоса и интонации.
       А недавно Кто-то шепнул мне ещё интересную штуку: нормализацию критериев. Если машина угадала слово, то все критерии сближаются. Если же выбран ошибочный эталон - критерии разбегутся. Ведь и мы действуем похоже: услышали слово нечётко - мысленно или даже вслух повторим его, как бы примеримся к тому, что сидит в нашей памяти, и тогда принимаем решение. Чувствую, теперь программа стала бы заметно сильнее.
    И ещё одна штука - иммунная метка. Когда мы хотим понять чью-то речь, то не все услышанные слова подвергаем анализу. Большинство слов отклоняем с порога. В их звучании ещё до осознания смысла чувствуем нечто постороннее. Это свойство нашего механизма распознавания сродни иммунитету. Только в данном случае обороняются клетки мозга от перегрузки информацией - "спамом". Такую "иммунную метку" формируем для каждого эталона-слова, и прежде сравнения всех критериев "прощупываются" эти метки. Пожалуй, теперь программа справилась бы и с 500 словами, а может и больше. Так не только справочное бюро или детская игра, но и 'болтун' с моим переводчиком скоро сможет подружиться.
    В наши дни у каждого человека в руках мобильный телефон. Это сильно упрощает техническую часть системы разговоров между разноязычными собеседниками. Не требуется микрофон, громкоговоритель, да и собственно компьютер. Всё это уже имеется в вашем аппаратике или на станции. Они лишь должны быть снабжены нашей программой, и объявить в рекламе о новой функции компании-пионера: "вы можете разговаривать на любые расстояния на своем языке с любым иноязычным собеседником".
      
       А, кстати, ещё одно применение - "инструмент поэта". Программа ищет рифмы. Не банальные: "накопила - купила", а самые ценные - неявные, ассоциативные, ассонансные, гипердактилические. Вообще, можно задавать желаемую степень точности рифмы и номер слога, на котором хочется получить созвучие. Каждому иногда требуется что-то выразить стихами. Вот, пожалуйста, - помощник. Профессионал-поэт может проверить, не лежит ли рядом с рождённой им рифмой более совершенная. 10,000 слов - словарь Пушкина - со всеми их падежами, причастиями, числами, прилагательными и пр. умещаются на стандартном диске в 70 мегабайт.
       Ну, люди, вот оно в руках ваших состояние!
    Сегодня май 2016
    Наконец в смартфонах и Windows 10 появились приличные программы распознавания и записи речи.
    Ждем возможности свободного разговора с иноязычным собеседником!
    Декабрь 2019
    Наконец, в СМИ появились рекламы (в частности фирма Grape США) о появлении на рынке "синхронных разговорников" разных фирм стоимостью около $500 с большим объемом слов и языков. Ещё бы современные компьютеры в тысячи раз превосходят по объему памяти и быстродействию тот, с которам работали мы в 1994-ом. Ура!
  • Комментарии: 7, последний от 17/12/2019.
  • © Copyright Трахтенберг Роман Михайлович (romantr@netvision.net.il)
  • Обновлено: 17/12/2019. 23k. Статистика.
  • Рассказ: Израиль
  • Оценка: 3.82*7  Ваша оценка:

    Связаться с программистом сайта
    "Заграница"
    Путевые заметки
    Это наша кнопка