Лучший сайт HI-FI
по оценке мировых производителей
бронзовый финалист

Наши сертификаты

  • THIEL Audio Products
  • Университет Звука: акустика и аудиотехника
  • KRAMER Electronics, Ltd
  • THIEL Audio Loadspeakers
  • Университет Звука: мастер автоматизации
  • Контроль качества Xantech
  • SmartSub Integrator
  • Авторизованный дилер Acoustic Energy
  • Авторизованный дилер THIEL Audio
  • Авторизованный дилер ARCAM (A&R)

Мы являемся официальными дилерами

  • Sonos
  • Hantarex
  • Marantz
  • Imerge
  • Mcintosh
  • Dali
  • Rti
  • Sim-2
  • Meridian
  • Monitor Audio Ltd
  • Rotel
  • Genelec
  • Onkyo
  • Revel
  • Metz
  • Clear Audio
  • Rel
  • Elan
  • Martin Logan
  • Mark Levinson
  • JBL
  • Elac
  • Loewe
  • Control
  • KEF


Управление Умным домом с помощью голосовых помощников.

Возврат к списку

28.11.2024

Анонс: Управление Умным домом с помощью голосовых помощников и история эволюции распознавания речи. Как работает распознавание речи и эффективность голосовых помощников.


Умный дом по факту – система домашней автоматизации в виде комплексных решений с различными типами функций и возможностей для управления от телевизора и освещения до дверных замков и бытовой техники, в том числе голосом с помощью специальных помощников. Голосовые помощники – программно-технические решения, причем на текущий момент помимо Apple Siri и Google Assistant в нашей стране активно развивают Алису от «Яндекса», а также Марусю от VK, Салют от Сбера, Еву от «Мегафона» и др., хотя именно в системе Умного дома пока используются Siri, Google Assistant и Алиса, причем в основном выбор помощника определяется оборудованием и программным обеспечением системы домашней автоматизации.


С голосовым управлением домашней автоматикой каждый может вести более комфортную жизнь, ведь теперь, например, для того, чтобы включить свет не нужно не только бегать по дому в поисках выключателя, но и открывать приложение на смартфоне или давать сигнал контроллеру через панель управления. Любое голосовое управление базируется на системах автоматического распознавания речи (Automatic Speech Recognition - ASR), в которых (упрощенно) человеческая речь преобразуется в текст.


Первые попытки обработки речевых сигналов проводились в 1952 году в американской Bell laboratories (сегодня финско-американская корпорация Nokia Bell Labs) и базировались на измерении частот в гласных звуках при произнесении цифр. Идея распознавателя фонем была реализована в Университетском колледже в Англии в 1959 году, однако точность и скорость распознавания оставляла желать лучшего.


Поскольку в начале 1960-х годов компьютеры все еще не обладали достаточной вычислительной мощностью, для распознавания речи было создано специализированное оборудование, а с 70-х годов по мере «эволюции» «железа» и программных платформ, приложений компьютеров было изобретено множество решений с использованием динамического программирования. В эту эпоху появились такие ключевые концепции, как распознавание изолированных слов с использованием статических шаблонов в предложениях и распознавание непрерывной речи с использованием динамического отслеживания фонем.


70-е годы также были периодом, когда в лабораториях AT&T Bell Labs началось исследование распознавания речи, независимого от говорящего и эта техника сегодня продолжает оставаться базовой наряду с hidden markov models (HMM), которые впервые были введены в 1980-х годах. Использование HMM оказалось успешным благодаря простому и эффективному способу, которым они моделируют форму речевого сигнала в изменяющиеся во времени векторы для обработки. Другим важным подходом стало использование моделей N-грамм, которые пытаются предсказать N-е слово, используя предыдущие N-1 слов.

В 1990-х и 2000-х годах исследования были больше сосредоточены на улучшении алгоритмов в отношении минимизации ошибок, а другим направлением совершенствования стала концепция обучения модели с целью повышения точности.

Как работает распознавание речи и эффективность голосовых помощников.


Процесс распознавания речи для понимания можно упростить до четырех этапов – сначала речь переводится в ряд векторов признаков (наблюдаемые части речи, разбитые на более мелкие блоки, и служат для сохранения релевантной акустической информации из исходного звука), которые затем преобразуются в соответствующее фонетическое представление. Далее фонетическое представление переводится в слова и проверяется по набору правил в форме грамматики, а итогом является оцифрованное представление речевого ввода в форме соответствующего текста.


По сути, «машинное» распознавание речи аналогично работе человеческого мозга и представляет собой интерпретацию того, что мы в действительности слышим, а значит зависит от «емкости» словарного запаса «распознавателя», особенностей языка, использования диалекта, сленга, правильного и четкого произношения звуков и слов в целом, даже тембральной окраски и т.д.

Т.е. голосовой помощник с Кембриджским словарем в английском, но словарным запасом Эллочки-людоедки из романа Ильфа и Петрова «Двенадцать стульев» в русском языке вряд ли будет полезным в Умном доме наших соотечественников. В свою очередь владельцу Умного дома с врожденными или приобретенными дефектами речи, «посаженным» из-за болезни голосом будет сложно найти взаимопонимание даже с наиболее прогрессивным по программному обеспечению голосовым помощником.


Поэтому выбор оборудования для системы домашней автоматизации и собственно голосового помощника, поддерживаемого программно-логическим контроллерами в системе лучше делегировать профильным специалистам, причем доказавшим эффективность и успешность своих решений именно на территории нашей страны.




Справка: Узнать о путях и возможностях формирования оптимальной и демократичной цены на сборки ДК из компонентов ведущих производителей мира можно по телефонам:

+7(495) 771-55-22, +7(495) 506-00-82, или отправив интересующий вопрос на email: info@tophi-fi.ru)


Возврат к списку

      Пользуясь данным сайтом и любым его сервисами, Вы подтверждаете 
свое согласие на обработку персональной информации.
   

Top HI-FI® 2003-2025