Система ИИ превращает сигналы мозга в речь

27 июня 2020

Когда человек теряет способность говорить, это резко снижает его способность к коммуникации. Но сочетание искусственного интеллекта с производными мозговых волн высокого разрешения может вернуть таким пациентам их речь. В настоящее время исследователи разработали такую систему «мысли в текст», которая с поразительной точностью читает мозговые сигналы и переводит их в слова. При среднем показателе ошибки слов в три процента, эта технология, основанная на парных нейронных сетях, гораздо более точна, чем предыдущие системы такого рода.

Язык необходим для нашего общения — разрушителен тот случай, когда люди теряют способность говорить из-за травмы или болезни. Но современные технологии и, прежде всего, прямые интерфейсы между мозгом и компьютером создают новые возможности для чтения и интерпретации сигналов мозга. Это также может быть использовано в так называемых системах «мысли в текст». Ведь когда мы слышим или говорим слова, это порождает характерные паттерны активности в мозге. Компьютерные системы обучения могут распознавать эти закономерности и, таким образом, присваивать каждому сигналу слова. Фактически, ученым уже удалось с помощью таких систем распознать разговорные слоги и слова исключительно на основе сопутствующих мозговых сигналов и в некоторых случаях преобразовать их в понятный разговорный язык. Однако до сих пор словарный запас таких попыток в основном ограничивался менее чем 100 словами, а доля ошибок при распознавании все еще оставалась относительно высокой и составляла около 25 процентов.

Сейчас Джозеф Макин из Калифорнийского университета в Сан-Франциско и его коллеги разработали систему, которая достигает значительно более высокого уровня точности — и это при относительно небольшом уровне подготовки. В эксперименте участвовали четыре добровольца, которым была имплантирована сеть электродов в кору головного мозга. Первоначально эти электроды были использованы для локализации фокуса их эпилептических припадков, но они также дали Макину и его команде возможность получать речевые сигналы мозга в высоком разрешении. Эксперимент начался с того, что участникам читали вслух простые английские предложения, которые показывались им на мониторе. «Предложения в среднем состояли из девяти слов, в результате чего общий словарный запас составил 250 различных слов», — сообщают исследователи. В то же время, они записали полученные мозговые сигналы.

Затем Макин и его команда использовали эту комбинацию мозговых сигналов и соответствующие акустические записи речи для обучения системы, состоящей из двух гибких нейронных сетей. Первая сеть, так называемый кодировщик, действует как своего рода фильтр, который ищет записанные мозговые сигналы на предмет повторяющихся шаблонов — паттернов, которые могут быть связаны с произнесенными словами. Многократно сравнивая данные с голосовыми записями, эта система повышала их точность во время тренировок. Вторая система, декодер, использует данные своего предшественника, чтобы снова генерировать слова из обработанных сигналов. «Эта нейронная сеть обучена либо выводить соответствующее слово на каждом этапе, либо выводить сигнал остановки в конце предложения», — объясняют Макин и его коллеги.

Эксперименты показали, что комбинированные системы ИИ достигают относительно высокой точности после всего лишь нескольких тренировочных упражнений. «Даже если бы для обучения было доступно 15 повторов предложения, частота словесных погрешностей могла бы быть снижена ниже 25% — это верхний предел допустимой расшифровки речи», — сообщили исследователи. Если испытуемым повторяли отдельные предложения более 15 раз, то это значительно повышало точность результатов: системы достигали в среднем трехпроцентной погрешности. «Пять процентов ошибок уже считаются профессиональным уровнем», — говорит Макин и его команда. В дополнительном тесте они обнаружили, что успех обучения с помощью систем искусственного интеллекта может быть даже передан от одного испытуемого к другому. Если сеть устройств кодирования тренировалась на одном пациенте, то тогда ей было гораздо легче распознать характерные сигналы мозга второго пациента — тренировка тогда длилась сравнительно меньше. Поэтому, по мнению исследователей, систему можно оптимизировать до такой степени, что ее можно будет обучить на некой универсальной языковой модели, прежде чем она будет использоваться на пациенте.

По словам Макина и его команды, такие системы декодирования с поддержкой ИИ в будущем могут помочь в репродукции речевых способностей пациентов, если компьютер будет преобразовывать сигналы мозга непосредственно в речь. Как подчеркивают исследователи, в их эксперименте по-прежнему используется значительно сокращенный словарный запас всего около 250 слов. Тем не менее, системы ИИ уже смогли делать записи речи и мозговых волн длиной 30 минут. «Наши результаты свидетельствуют о том, что увеличение объема данных за эти 30 минут позволило бы расширить словарный запас и повысить гибкость в структуре предложений», — говорят исследователи. «Кроме того, всего несколько сотен слов могут быть очень полезны для пациента, который в ином случае вообще не может говорить».

Исследование: www.nature.com