- Артикул:00202310
- Автор: Ронжин А.Л.
- ISBN: 5-02-035254-3
- Обложка: Твердый переплет
- Издательство: Наука (все книги издательства)
- Город: Москва
- Год: 2006
С ростом числа решаемых задач и мощностью современных компьютеров все более очевидными становятся недостатки средств взаимодействия человека с компьютером на основе командного и графического интерфейсов. На смену им претендовал речевой, а теперь уже многомодальный интерфейс, который параллельно обрабатывает два или более естественных для человека потока информации, таких как речь, рукописный текст, жесты, движение головы и тела, и т.д. В данной книге приводится обзор подходов и разработанных систем автоматического распознавания русской речи и многомодальных интерфейсов. Очерчен круг насущных проблем и возможные пути развития средств человеко-машинного взаимодействия.
Для широкого круга специалистов, аспирантов и студентов, занимающихся разработкой средств естественного взаимодействия человека с компьютером.
Введение
Разработка средств эффективного взаимодействия человека с компьютером - одно из приоритетных направлений развития искусственного интеллекта и информатики в целом. Это связано с тем, что вычислительная техника не используется в полной мере из-за отсутствия полноценного, привычного человеку интерфейса для взаимодействия пользователя с компьютером. Отсутствие решения этой проблемы сдерживает развитие различных прикладных систем в телекоммуникации, медицине, образовании и повседневной жизни, поскольку вся современная техника и различные сетевые сервисы используют автоматизированные средства управления и обработки информации.
На сегодня большинство компьютерных приложений используют графический пользовательский интерфейс, который обеспечивает весьма ограниченный способ взаимодействия: печать с помощью клавиатуры, управление виртуальными объектами курсором мыши и отображение визуальной информации в виде текста и изображений на экране монитора. Такой способ общения заставляет пользователей адаптироваться к компьютеру и виртуальному способу общения. В результате пользователь вынужден ограничивать свои чувства и способы взаимодействия для того, чтобы получить доступ к компьютерному миру.
С развитием современных речевых технологий появилась принципиальная возможность перехода от формальных языков-посредников между человеком и машиной к естественному языку в устной форме как универсальному средству выражения целей и желаний человека. Речевая форма диалога обладает рядом преимуществ, таких, как естественность, оперативность, смысловая точность ввода, освобождение рук и зрения пользователя, возможность управления и обработки в экстремальных условиях. Однако все эти преимущества были известны и 30 лет назад, и даже существенный прогресс в мощности компьютеров за это время так и не привел к массовому использованию речевого интерфейса. Возможно, проблема в том, как пытаются его применить. Считая, что речь является наиболее естественной формой взаимодействия, многие разработчики пытались заменить все существующие средства речевым интерфейсом и заставить пользователя выполнять все функции с помощью голоса. Но эти попытки оказались не слишком результативными. Кроме того, в отличие от общепринятых интерфейсов, речь, с одной стороны, обладает бесспорными преимуществами, а с другой - накладывает ряд существенных ограничений на условия эксплуатации. Пользователь, которому предлагают речевые технологии, чаще всего оказывается не готов самостоятельно адаптировать речевой интерфейс к решаемой задаче и необходимым для нее программно-аппаратным средствам. Поэтому существующие речевые технологии, а точнее говоря, демонстрационные версии, распространяются в первую очередь с целью изучения спроса на те или иные голосовые сервисы.
Таким образом, существующие модели автоматического понимания речи пока еще значительно уступают речевым способностям человека, что свидетельствует об их недостаточной адекватности и ограничивает применение речевых технологий в промышленности и быту. Для решения глобальной проблемы человеко-машинного взаимодействия стали использовать дополнительные виды каналов передачи информации (речь, артикуляцию губ, жесты, направление взгляда и т.д.). В результате начали разрабатывать так называемые многомодальные интерфейсы. Такие интерфейсы свойственны межчеловеческому общению, поскольку здесь мы сами выбираем, какой канал, для передачи какого типа информации нам наиболее удобно использовать в данный момент. Они позволяют обеспечить наиболее эффективное и естественное для человека взаимодействие с различными автоматизированными средствами управления и коммуникации.
В многомодальных системах информация от различных видео, аудио, тактильных коммуникативных каналов непрерывно отслеживается и обрабатывается, создавая реальное или виртуальное окружение, позволяющее удовлетворить желания пользователя и оперативно адаптироваться к текущей задаче и другим прикладным аспектам. Адаптивные многомодальные системы позволят создавать новые многофункциональные устройства и обеспечат требуемую гибкость использования персональных и мобильных систем.
За рубежом многомодальные интерфейсы уже используются в некоторых прикладных областях: картографических системах, системах виртуальной реальности, медицинских системах, робототехнике, web-приложениях и т.д. Помимо этого, многомодальный интерфейс может быть полезен в мобильных устройствах, где использование обычной клавиатуры невозможно. В карманных персональных компьютерах используются системы распознавания рукописного текста. Комбинирование таких систем с голосовым вводом позволит обмениваться информацией с пользователем более эффективно. Актуально также использование многомодальных интерфейсов в смартфонах (умных телефонах), в которых в настоящее время возможен раздельный ввод с помощью голоса, неэргономичной клавиатуры или сенсорного экрана. Оптимальное совместное использование этих коммуникативных каналов позволит пользователю более оперативно и надежно обмениваться информацией с такими устройствами.
В России научные исследования по данному направлению начались совсем недавно, и их успешная реализация усложняется тем, что необходимо объединять усилия различных исследовательских групп, занимающихся отдельно обработкой речи, видеоизображений, почерка и т.д. в различных научно-исследовательских институтах. В 2003 г. группа речевой информатики СПИИРАН начала фундаментальные и прикладные работы по многомодальным интерфейсам в рамках Европейского научного сообщества SIMILAR, финансируемого ЕС по программе FP6. В данной книге изложен обзор подходов к решению проблемы человеко-машинного взаимодействия, а также некоторые оригинальные результаты группы, полученные в ходе исследований последних лет. Приведены, главным образом, методы, направленные на автоматизацию средств ввода информации в компьютер, т.е. распознавание аудио, видео и других потоков данных, которые поступают от человека. При этом модули, обеспечивающие синтез речи и другие естественные модальности, являются неотъемлемой частью многомодальных интерфейсов. Кроме того, при обработке сигналов одного типа как для распознавания, так и для синтеза в большинстве случаев используются аналогичные методы, поэтому в книге будут представлены базовые методы обработки сигналов, их применение для обработки входных модальностей, а также общие сведения и ссылки на литературу по синтезу выходных модальностей.
Книга имеет целью не только описать современные подходы к решению проблемы взаимодействия человека с компьютером, но и привлечь специалистов различного профиля (инженеров, математиков, филологов, медиков, педагогов и др.) к обсуждению этой междисциплинарной проблемы. Дело в том, что интерфейс только тогда будет эффективным, если он станет привычным для пользователя, адаптирован к нему. Сегодня назрела крайняя необходимость в объединении потенциала исследователей сразу в нескольких областях науки (обработка сигналов, распознавание образов, фонетика, компьютерная лингвистика, психолингвистика, физиология и другие) для создания систем, которые были бы способны воспринимать речь и другие модальности не хуже, чем понимает их человек, а в будущем, возможно, даже и лучше.
Артикул 00-01020451