03.12.2024

NewsPaper

Ваша лучшая новостная газета

Как большие языковые модели меняют правила игры для голосового ИИ

Большинство американцев уже несколько лет имеют дело с той или иной формой голосового помощника (VA) и хорошо представляют себе ограничения таких инструментов. Настолько, что «Привет, Siri», «Alexa…» и «Привет, Google» стали частью духа времени. Мы приняли удобство взаимодействия без помощи рук, на ходу или на кухне, и пришли к пониманию того, что иногда они нас просто не понимают.

Введите Chat GPT, работающий на основе одной из нескольких ведущих Больших языковых моделей (LLM), и мы вступаем в новую эру голоса. В которой возможности голосовых помощников, как для понимания, так и для рекомендаций, претерпевают кардинальные изменения. Что это означает для конечных пользователей?

Больше помощников, больше приложений, лучший пользовательский опыт и больше ценности.

Путь к этой цели будет зависеть от того, насколько быстро разработчики и специалисты в области голосового управления и искусственного интеллекта будут использовать степени магистра права в циклах разработки своих продуктов.

Мы уже видим, что LLM кардинально меняет подход к разработке голосовых сервисов в качестве интерфейса к интеллекту — настоящего разговорного ИИ — что повышает производительность и увеличивает скорость разработки, одновременно снижая затраты.

 Большие языковые модели меняют игру. Голосовой искусственный интеллект

ИЗОБРАЖЕНИЕ: UNSPLASH

Что такое степень магистра права?

LLM — это модель, основанная на машинном обучении, способная обрабатывать естественный язык, извлекать намерения из свободного текста и затем отвечать в разговорной манере.

У некоторых наиболее выдающихся магистров права есть миллиарды параметров, на основе которых они учатся и развивают свою способность предсказывать следующий токен или слово в предложении на основе контекста вокруг него.

Модель повторяет эту задачу снова и снова, пока точность не станет оптимальной, прежде чем перейти к следующему слову.

Несмотря на то, что эта технология существует уже много лет и продолжает совершенствоваться, толчком к сегодняшнему ажиотажу вокруг LLM стало внедрение более простых в использовании интерфейсов, встроенных в потребительские инструменты, такие как Chat GPT от Open.ai, обновление поисковой системы Bing от Microsoft (основанное на Chat GPT) и Google

Несмотря на то, что эта технология существует уже много лет и продолжает совершенствоваться, толчком к сегодняшнему ажиотажу вокруг LLM стало внедрение более простых в использовании интерфейсов, встроенных в потребительские инструменты, такие как Chat GPT от Open.ai, обновление поисковой системы Bing от Microsoft (основанное на Chat GPT) и Bard от Google.

Кроме того, сами модели стали крупнее и функциональнее.

Что не является степенью магистра права?

LLM отлично справляются с обобщением текста на естественном языке и созданием новых данных из существующего набора данных, но сами по себе они не являются «убийственными приложениями» и имеют ограниченные возможности для выполнения задач. LLM также склонны к «галлюцинациям», когда модель генерирует неверную или противоречивую информацию на основе множества источников, из которых она черпает.

Это быстро изменится, поскольку экосистема «плагинов» или «расширений» относительно незрелая, но быстро растет, увеличивая возможности LLM по доступу к актуальной информации, выполнению вычислений и использованию сторонних сервисов. По мере роста этих соединений с живыми API будет расти и спектр вариантов использования, которые смогут выполнять разговорные помощники ИИ на основе LLM.

Сегодня, например, Chat GPT интегрирован с Expedia, так что пользователи могут планировать и бронировать маршрут путешествия или общаться с Instacart, чтобы заказывать продукты. Аналогичным образом Google Bard выпускает «расширения», которые позволяют пользователям совершать покупки, создавать собственные изображения или слушать музыку от ведущих брендов в своей категории.

Итак, как степени магистра права помогают разработчикам сервисов разговорного ИИ?

Голосовые сервисы, такие как Siri и Alexa, используют автоматическое распознавание речи (ASR) для перевода голосовых команд от конечных пользователей в текстовые строки для обработки. Здесь ничего не меняется, эти инструменты обычно имеют точность более 90%.

Но что действительно меняется с добавлением LLM, так это способность выводить значение фраз на основе контекста и более точно извлекать намерение пользователя. Большая точность означает лучшие ответы.

Вспомните последний раз, когда вы сталкивались с проблемами при работе с IVR-системой колл-центра, пытаясь разобраться в запутанной структуре меню, чтобы получить необходимую помощь.

А теперь представьте, что вы делаете заказ на вынос для семьи, которая любит персонализировать варианты блюд и напитков и меняет заказ в процессе его выполнения… для магистров права это не проблема, просто посмотрите на недавний переход Венди к использованию технологий в этом контексте.

Появляется новая структура, которая использует LLM, векторный поиск, векторные датчики и языковые модели, обученные решать, какие API вызывать в ответ на команду, отправленную ASR.

Модель автономно решает вызвать различные API, чтобы получить информацию, полезную для выполнения инструкции или запроса, а затем ответ доставляется пользователю на естественном языке с использованием LLM, а затем преобразуется в аудио с помощью механизма преобразования текста в речь.

LLM можно даже использовать для автоматической генерации кода для доступа к данным из API.

Для случаев использования, требующих нахождения наилучшего результата из большого набора данных, может быть использован векторный поиск, который очень эффективен. Векторный поиск повышает качество поиска, выделяя числовые представления тексту с помощью OpenAI («внедрение слов»), что упрощает понимание взаимосвязей между концепциями и дает более точные результаты поиска, которые обычно основаны на сопоставлении ключевых слов.

Это точнее, чем предыдущие подходы, основанные на сопоставлении ключевых слов, где намерения и сущности определяются с помощью специального программирования и обучения вместе с любыми синонимами или таблицей поиска (например, возможность идентифицировать LA как Лос-Анджелес как название города). Вместо этого LLM использует ряд похожих запросов и миллиарды точек данных, чтобы понять, как реагировать, и даже сохраняет память из предыдущих взаимодействий, чтобы уточнить результаты.

Векторный поиск может обеспечить точную, детализированную точность результатов. Если пользователь спросит: «Я хочу послушать музыку, которая звучит как Pink Floyd, Led Zeppelin и Tool и транслируется радиостанцией в районе Сноквалми», можно ожидать, что ответ найдет местную рок-станцию ​​в этом районе и мгновенно вернет результат.

Именно способность LLM знать, что определенные артисты часто появляются рядом с определенными жанрами, а определенные местоположения появляются рядом с другими местоположениями, позволяет ему возвращать результат. Векторная база данных не должна быть структурирована по этим измерениям, чтобы высказывание было преобразовано в формат, который будет полезен для вызова API, и это то, что отличает LLM.

Векторные датчики используются для категоризации запросов, например, для определения того, интересуется ли пользователь погодой или хочет послушать медиа. Их также можно использовать для определения того, какой API вызывать для конкретного запроса. Это устраняет большую часть ручного обучения голосового помощника, которое ранее требовалось при разработке.

«Датчик» здесь ищет настроение, лежащее в основе запроса, и в сочетании с векторами встраивания слов, которые связаны вместе, мы можем определить относительный вес различных частей предложения, чтобы правильно реагировать на запросы, содержащие несколько действий. Например, «включи классический рок и увеличь громкость до уровня 5».

Что это значит для разработчиков?

LLM обладают способностью анализировать сложные проблемы, создавать или просматривать замысловатый код, устранять ошибки и выполнять отладку за считанные секунды — это идеальный помощник программиста (не говоря уже о качестве документации).

Еще в прошлом году мы увидели, что написание кода, генерация данных и оптимизация интеллекта нового голосового помощника могут занять более шести месяцев, а оптимизация производительности стала результатом многочисленных циклов тестирования и доработки.

Используя описанные выше подходы, мы видим, что те же результаты достигаются всего за несколько недель, а также обеспечиваем 80–90% успеха в выполнении задач, что позволяет осуществлять более ранние запуски и ускорять итерации.

Так что же будет дальше?

ChatGPT — самое быстрорастущее потребительское приложение в истории: за первые два месяца с момента его появления в открытом доступе им воспользовались более 100 миллионов человек.

Тектонический сдвиг в осведомленности потребителей уже происходит, и так же быстро, как будут внедряться степени магистра права, будут расти и ожидания потребителей… «Мой мебот только что спланировал мою свадьбу за 74 минуты — потрясающе, — но он назначил репетицию ужина на 3 часа дня. Как это раздражает!!»

Для предприятий степень магистра права (LLM) является фактором ускорения внедрения инноваций, а это означает, что на рынок быстрее выйдут бренды с голосовыми сервисами, которые смогут быстрее выполнять поиск и понимать, а также точнее реагировать на тонкие запросы.

С принятием LLM мы можем ожидать, что голосовые ИИ будут расти в количестве и значимости, так что голос/естественный язык могут стать основным интерфейсом, оставив разочарование первых лет общих помощников позади. «Помощник для всего» ближе, чем мы думаем, и гонка за создание и распространение голосовых ИИ уже началась.

Биография автора: Джон Гоша, основатель и генеральный директор Native Voice.

 Большие языковые модели меняют игру. Голосовой искусственный интеллект Большие языковые модели меняют игру. Голосовой искусственный интеллект

ИЗОБРАЖЕНИЕ: UNSPLASH

Если вас интересует еще больше статей и информации на тему технологий от Bit Rebels, то у нас есть из чего выбирать.

Приколоть
Делиться
Делиться