Говоря о будущем в существование: почему голос — это следующая большая вещь в технологиях – Tehnografi.com

Следующая статья поможет вам: Говоря о будущем в существование: почему голос — это следующая большая вещь в технологиях

В то время как многие в отрасли могут утверждать, что «следующая большая вещь» в технологиях — это блокчейн, искусственный интеллект, заменяющий людей, или дополненная реальность, есть одна важная технология, которая недооценивается: голосовой пользовательский интерфейс.

Исследования показывают, что 50% поисковых запросов будет осуществляться с помощью голосового поиска к 2020 году. Однако это исследование недооценивает то, что небольшие улучшения в голосовом пользовательском интерфейсе могут полностью изменить нынешнюю парадигму взаимодействия человека с компьютером. Это выходит далеко за рамки варианта использования поиска в сторону замены голосового пользовательского интерфейса или глубокой интеграции с графическими пользовательскими интерфейсами и приложениями.

Голосовой пользовательский интерфейс позволяет людям общаться с устройствами на естественном разговорном языке с помощью интеллектуальных динамиков и других устройств, которые в настоящее время используются в таких устройствах, как Alexa или Google Home. Речь имеет основополагающее значение для того, как мы делаем что-то вместе с другими людьми, и она будет фундаментальной для того, как мы будем делать что-то с помощью компьютеров в будущем.

Однако в настоящее время это второстепенное мнение.

В то время как большинство технических экспертов согласны с тем, что голос будет продолжать играть свою нынешнюю нишевую роль в технологической экосистеме или, по крайней мере, будет расти постепенно по мере совершенствования технологии, мой прогноз заключается в том, что голос — это главное событие само по себе. Он станет доминировать в нашем взаимодействии с программным обеспечением и устройствами и даже станет таким же важным, как графический пользовательский интерфейс.

Как уже упоминалось, это не общепринятое мнение. Многие отраслевые эксперты признают, что голос все еще является новинкой и еще не достиг идеального соответствия продукта рынку. Некоторые видные венчурные капиталисты, например, придерживаются мнения, что до тех пор, пока не будет достигнут общий искусственный интеллект, голосовые технологии всегда будут очень нишевыми.

Из-за множества текущих ограничений голосовых помощников людям трудно представить голос как следующую волну технологий. На мой взгляд, голосовая связь сегодня похожа на коммутируемый Интернет в начале 90-х. В то время онлайн-опыт был настолько плох, что трудно было представить, что станет возможным после улучшения пропускной способности. Ведущие мыслители делали всевозможные прогнозы для Интернета, которые задним числом выглядят абсурдно консервативными — некоторые эксперты даже предсказывали, что он будет влияние на экономику не больше, чем у факсимильных аппаратов.

Сегодня ожидания людей в отношении голоса столь же консервативны, отчасти из-за того, насколько грубым остается голос. Предполагается, что до тех пор, пока не будет достигнут общий искусственный интеллект, боты будут плохо работать в беседах, а технология никогда не станет отличной, пока чат-боты не будут способны к человеческому разговору с пользователем. Однако это предположение о необходимости универсального искусственного интеллекта ошибочно: безусловно, существуют способы заставить чат-ботов достичь производительности, близкой к человеческому, с использованием современных технологий.

Для обычных помощников умных динамиков охват темы настолько широк, что они должны быть почти полностью самообучаемыми. К сожалению, текущая технология недостаточно хороша для автоматического создания самообучающихся ботов, которые могут вести многоходовые разговоры с людьми. Если бы эта технология существовала, мы могли бы задавать уточняющие вопросы в Google. Но заставить умных ботов создавать себя — это все равно, что пытаться создать приложение для смартфона без участия человека — на данный момент это просто невозможно.

Есть еще один способ добиться общения с ботами почти на человеческом уровне: резко сузить область их действия. Как и в случае с приложениями, разработчики могут создавать сложных ботов для конкретных задач, вручную программируя их для участия в осмысленном разговоре. Именно с такими ботами произойдет прорыв в голосовой сфере: умные колонки, телефоны и другие устройства будут содержать таких ботов, создавая большие возможности для первопроходцев, которые делают все правильно.

Решение проблем современных голосовых ботов

Чтобы интуитивно понять разницу между работой нынешних голосовых ботов и тем, как эта технология будет выглядеть в будущем, нам нужно начать с понимания того, почему голосовое устройство в настоящее время эквивалентно просмотру веб-страниц через модем с коммутируемым доступом.

Во-первых, основные взаимодействия с голосовым ботом все еще очень плохи. Вы должны специально обратиться к устройству с горячим словом, после чего вы должны подождать, чтобы увидеть, успешно ли активировался бот или нет. Если он был активирован, вам нужно говорить после звукового сигнала с медленной, но постоянной скоростью и формулировать свои предложения, включая все необходимые параметры — почти так же, как вы говорите в операторе SQL. Если вы в любой момент сделаете паузу, чтобы подумать, ваше взаимодействие не удастся, и вам нужно будет вернуться к началу.

Давайте посмотрим на реальный пример:

‍

Вы говорите: «Привет, Google».

Существует пауза, пока вы ждете подтверждения того, что устройство было активировано.

Если он был активирован, вы продолжаете свой запрос:

«Включите «Dark Horse» Кэти Перри на YouTubeпо телевизору в гостиной».

Есть еще одна задержка, пока устройство обрабатывает то, что вы сказали.

Если ваш запрос будет успешным, на вашем телевизоре что-то начнет происходить, и видео будет воспроизводиться.

Если это не удается, вы должны вернуться к началу и попробовать еще раз, возможно, с другой структурой предложения, другими словами или просто пытаясь говорить более четко.

‍

Этот опыт полон задержек, потенциальных ошибок и может потребовать много перезапусков для выполнения задач. Кроме того, голосовой бот еще недостаточно умен и не будет отвечать на соответствующие команды или запросы относительно того, что вы делаете.

Новый способ взаимодействия с голосовыми ботами

Самый простой способ представить себе взаимодействие с умными ботами будущего — представить человека-оператора, управляющего устройством и дающего ему инструкции, касающиеся конкретных операций. YouTube (и ничего больше).

Первое отличие заключается в скорости взаимодействия. Вы могли говорить с оператором-«человеком» с нормальной скоростью, без пауз и задержек в ответе, а также без проблем, если вы делали паузу во время разговора. Вы также можете сослаться на человека-оператора в середине предложения, например: «Я хочу посмотреть телевизор — знаешь что, Алекса, пожалуйста, надень что-нибудь». YouTube». На самом деле, вам, возможно, вообще не придется произносить их имя (горячее слово), чтобы заставить их ответить.

Этот человекоподобный бот также будет гибким с точки зрения того, как он взаимодействует с вами:

‍

Вы: «Алекса, я хочу посмотреть YouTube».

Алекса: «Конечно, на каком телевизоре?»

Вы: «По телевизору на кухне — может быть, что-нибудь из Кэти Перри».

Алекса: «Вы имеете в виду какую-то конкретную песню?»

Вы: «Нет, что вы можете предложить?»

Человек: «Рев», «Темная лошадка»? Я вывел на экран больше предложений».

Вы: «Отлично, спасибо. Сыграй «Горячий и холодный».

‍

Это будущее взаимодействия с ботами: Бесшовный, плавный и легкий для разговора о задаче или теме. Представьте себе огромную вселенную этих ботов и столь же обширную вселенную дешевых голосовых устройств. Это будет похоже на человека-оператора, стоящего в каждой комнате и рядом с каждым устройством. По-прежнему будет много графических интерфейсов, но их будет намного проще использовать через бота.

‍

‍Шагая в будущее голоса

Сегодня часто можно увидеть сотрудников в таких местах, как станции метро, аэропорты и супермаркеты, которые помогают тем, кто использует сенсорные экраны самообслуживания — например, человека, который помогает вам использовать автоматы для регистрации, чтобы получить посадочный талон в аэропорту. . Представьте, однако, что этот человек может на самом деле напрямую взаимодействовать с приложением регистрации — это означает, что в середине процесса регистрации вы можете сказать машине, что хотите изменить свое место с позиции, которую вы изначально выбрали, и приложение откроет для вас соответствующий экран — и все это без помощи человека-помощника.

это будущее: голосовой бот будет встроен или доступен для каждого устройства или службы, с которыми вы хотите взаимодействовать, и мгновенно будет выполнять ваши команды. Вам больше не нужно доставать свой телефон или ноутбук, чтобы что-то сделать — вместо этого все, что вам нужно сделать, это произнести вслух то, что вам нужно, и все встанет на свои места.

Переход к голосовой связи в конечном итоге будет касаться чего-то столь же простого, как удобство. В нашем современном мире люди хотят делать что-то быстро и с наименьшими трудностями, а скорость важнее, чем когда-либо прежде. Хотя большинство тех, кто связан с индустрией чат-ботов, в настоящее время не ожидают этого, те из нас те, кто исследует и разрабатывает технологию, предвидят огромные последствия для бизнес-операций, маркетинга, продаж, брендинга, распространения продукции и многого другого. Голос — это будущее технологий, и мы уже на полпути к нему.