Анонс: Управление Умным домом с помощью голосовых помощников и история эволюции распознавания речи. Как работает распознавание речи и эффективность голосовых помощников.
Умный дом по факту – система домашней автоматизации в виде комплексных решений с различными типами функций и возможностей для управления от телевизора и освещения до дверных замков и бытовой техники, в том числе голосом с помощью специальных помощников. Голосовые помощники – программно-технические решения, причем на текущий момент помимо Apple Siri и Google Assistant в нашей стране активно развивают Алису от «Яндекса», а также Марусю от VK, Салют от Сбера, Еву от «Мегафона» и др., хотя именно в системе Умного дома пока используются Siri, Google Assistant и Алиса, причем в основном выбор помощника определяется оборудованием и программным обеспечением системы домашней автоматизации.
С голосовым управлением домашней автоматикой каждый может вести более комфортную жизнь, ведь теперь, например, для того, чтобы включить свет не нужно не только бегать по дому в поисках выключателя, но и открывать приложение на смартфоне или давать сигнал контроллеру через панель управления. Любое голосовое управление базируется на системах автоматического распознавания речи (Automatic Speech Recognition - ASR), в которых (упрощенно) человеческая речь преобразуется в текст.
Первые попытки обработки речевых сигналов проводились в 1952 году в американской Bell laboratories (сегодня финско-американская корпорация Nokia Bell Labs) и базировались на измерении частот в гласных звуках при произнесении цифр. Идея распознавателя фонем была реализована в Университетском колледже в Англии в 1959 году, однако точность и скорость распознавания оставляла желать лучшего.
Поскольку в начале 1960-х годов компьютеры все еще не обладали достаточной вычислительной мощностью, для распознавания речи было создано специализированное оборудование, а с 70-х годов по мере «эволюции» «железа» и программных платформ, приложений компьютеров было изобретено множество решений с использованием динамического программирования. В эту эпоху появились такие ключевые концепции, как распознавание изолированных слов с использованием статических шаблонов в предложениях и распознавание непрерывной речи с использованием динамического отслеживания фонем.
70-е годы также были периодом, когда в лабораториях AT&T Bell Labs началось исследование распознавания речи, независимого от говорящего и эта техника сегодня продолжает оставаться базовой наряду с hidden markov models (HMM), которые впервые были введены в 1980-х годах. Использование HMM оказалось успешным благодаря простому и эффективному способу, которым они моделируют форму речевого сигнала в изменяющиеся во времени векторы для обработки. Другим важным подходом стало использование моделей N-грамм, которые пытаются предсказать N-е слово, используя предыдущие N-1 слов.
В 1990-х и 2000-х годах исследования были больше сосредоточены на улучшении алгоритмов в отношении минимизации ошибок, а другим направлением совершенствования стала концепция обучения модели с целью повышения точности.
Процесс распознавания речи для понимания можно упростить до четырех этапов – сначала речь переводится в ряд векторов признаков (наблюдаемые части речи, разбитые на более мелкие блоки, и служат для сохранения релевантной акустической информации из исходного звука), которые затем преобразуются в соответствующее фонетическое представление. Далее фонетическое представление переводится в слова и проверяется по набору правил в форме грамматики, а итогом является оцифрованное представление речевого ввода в форме соответствующего текста.
По сути, «машинное» распознавание речи аналогично работе человеческого мозга и представляет собой интерпретацию того, что мы в действительности слышим, а значит зависит от «емкости» словарного запаса «распознавателя», особенностей языка, использования диалекта, сленга, правильного и четкого произношения звуков и слов в целом, даже тембральной окраски и т.д.
Т.е. голосовой помощник с Кембриджским словарем в английском, но словарным запасом Эллочки-людоедки из романа Ильфа и Петрова «Двенадцать стульев» в русском языке вряд ли будет полезным в Умном доме наших соотечественников. В свою очередь владельцу Умного дома с врожденными или приобретенными дефектами речи, «посаженным» из-за болезни голосом будет сложно найти взаимопонимание даже с наиболее прогрессивным по программному обеспечению голосовым помощником.
Поэтому выбор оборудования для системы домашней автоматизации и собственно голосового помощника, поддерживаемого программно-логическим контроллерами в системе лучше делегировать профильным специалистам, причем доказавшим эффективность и успешность своих решений именно на территории нашей страны.
Справка: Узнать о путях и возможностях формирования оптимальной и демократичной цены на сборки ДК из компонентов ведущих производителей мира можно по телефонам: +7(495) 771-55-22, +7(495) 506-00-82, или отправив интересующий вопрос на email: info@tophi-fi.ru) |
Пользуясь данным сайтом и любым его сервисами, Вы подтверждаете свое согласие на обработку персональной информации. |
|
Top HI-FI® 2003-2025 |