
Стартап из Сан-Франциско Conduit последние полгода собирает нейроданные, чтобы научить ИИ превращать мысли в текст. За это время команда записала около 10 тысяч часов неинвазивной активности мозга, привлекая тысячи разных людей.
Как утверждает компания, это крупнейший на сегодня нейроязыковой датасет такого рода. Цель исследований - уловить смысл того, что человек собирается сказать или напечатать, за секунды до того, как он это сделает.
Участники приходят в подвальное студийное помещение и проводят там двухчасовые сессии. Каждый сидит в небольшой кабинке и общается с языковой моделью, либо голосом, либо через упрощённую клавиатуру без некоторых клавиш.

Изначально Conduit пробовали строгие задания, но быстро заметили закономерность, что чем живее диалог, тем лучше данные. В итоге компания перешла к персонализированным разговорам в формате вопрос-ответ.
Компания пытается выжать максимум естественной речи и текста, при этом точно синхронизировав нейросигналы, звук и ввод символов. Без этого модель просто не сможет понять, какой кусок мозговой активности относится к какому смыслу.
Готовых устройств под такие задачи на рынке не нашлось, поэтому Conduit сделала всё сама. Команда собрала кастомные гарнитуры, объединив электроэнцефалограмму, оптическую топографию и другие сенсоры в корпусах, напечатанных на 3D-принтере.
Тренировочные шлемы - это тяжёлые, почти четырёхкилограммовые конструкции, которые собирают сигналы со всех участков мозга. Версии для повседневного использования будут куда легче, но их финальный вид определят позже, уже после серии экспериментов, когда станет ясно, какие датчики действительно нужны.

Сначала в Conduit были уверены, что главная проблема неудачных записей - помехи и грязный сигнал. Чтобы данные были максимально чистыми, они изолировали оборудование, возились с питанием и в итоге даже полностью отказались от розеток, переведя студию на аккумуляторы. Всё ради того, чтобы убрать фоновый электрический шум, который мешает считывать сигналы мозга.
Но в итоге сессии стали срываться, техника работала нестабильно, а тяжёлые батареи приходилось постоянно менять и обслуживать. Но когда данных стало действительно много, оказалось, что стерильность сигнала уже не так важна. Модели начали нормально работать даже с небольшими помехами и лучше понимать людей в целом, а не конкретные условия записи.
По мере роста проекта упали и издержки. С мая по октябрь Conduit сократила стоимость одного "полезного" часа данных примерно на 40%. Это удалось сделать за счёт переработки серверной части, которая теперь ловит испорченные сессии в реальном времени, и за счёт того, что один менеджер может следить сразу за несколькими кабинками через камеры.
Дополнительно компания внедрила собственную систему бронирования с динамическими ценами и овербукингом, чтобы гарнитуры не простаивали. В итоге студия работает почти 20 часов в сутки, выжимая максимум из оборудования.
Сейчас Conduit почти полностью сосредоточена на обучении моделей и не спешит раскрывать детали того, как именно устроено декодирование мыслей в текст. Эти подробности обещают опубликовать позже.
Ранее мы рассказывали, что пациент Neuralink показал, как управляет дроном "силой мысли". а сегодня компания Илона Маска вживила импланты уже 12 людям.