2.6Kпросмотров
24 сентября 2025 г.
📷 ФотоScore: 2.9K
Для слуховой коры время важнее фонем
#neuroscience Публикация: Norman-Haignere, S. V., Keshishian, M., Devinsky, O., Doyle, W., McKhann, G. M., Schevon, C. A., ... & Mesgarani, N. (2025). Temporal integration in human auditory cortex is predominantly yoked to absolute time. Nature Neuroscience, 1-10. Традиционные лингвистические теории предполагают, что речь устроена иерархично: фонемы складываются в слоги, слоги — в слова, а слова — в фразы. В устной речи длительность этих элементов может быть вариативна: один и тот же звук может длиться 50 мс или 200 мс, слово же прозвучать за четверть секунды или за целую. Возникает вопрос: как мозг справляется с этой изменчивостью? Варианты ответа следующие: 1️⃣Слуховая кора “синхронизируется” с речевыми структурами (фонемами, словами).
2️⃣Слуховая кора работает в жёстких окнах абсолютного времени (например, 100–300 мс), а структуры лишь “накладываются” на эти окна. В свежей статье описана прямая экспериментальная проверка этих вариантов. Пациентам с электродами в слуховой коре предъявляли речевые стимулы, искусственно растянутые или сжатые во времени, но с сохранным тембром голоса. Окна слуховой обработки оценивали с помощью метода temporal context invariance (TCI): он позволяет вычислить, насколько долго предшествующий звук влияет на текущий нейронный отклик. Этот подход можно сравнить с измерением краткосрочной памяти слуховой коры. Если бы мозг интегрировал информацию, опираясь на речевые структуры, интеграционные окна должны были бы растянуться вместе с фонемами и словами. Однако обнаружилось, что интеграционные окна увеличились всего на ~5% при трёхкратном изменении длительности структур. То есть слуховая кора практически полностью остаётся привязанной к абсолютному времени. Даже в областях, связанных с речью (напр., верхняя височная извилина), зависимость от структуры оказалась минимальной. Что это значит: 🔸Слуховая кора устроена как часы, а не как словарь: она режет поток звука на фиксированные временные отрезки.
🔵При быстрой речи в одно окно попадает больше фонем, при медленной — меньше.
🔸Работа со смыслами и грамматикой (фонемы, слова, фразы) происходит выше по иерархии: вероятно, в височно-теменных и лобных областях. Что из этого следует: ✅Многие психолингвистические и вычислительные модели речи предполагают, что мозг интегрирует информацию “по структурам” (фонемам или словам). Полученные же данные показывают, что в слуховой коре такой механизм практически отсутствует.
✅В рамках декодирования речи по сигналам мозга те архитектуры искусственных нейросетей, которые опираются на фиксированные временные окна, более физиологически обоснованы, чем те, что пытаются встроить явные фонемные или пословесные границы на ранних уровнях. При этом исследование обладает рядом ограничений. Во-первых, использовалось равномерное масштабирование всех слов и фонем, что не вполне соответствует естественной речи. Однако авторы проверили свой подход и на реальных записях естественно быстрой и медленной речи: результат оказался тем же. Во-вторых, авторы анализировали активность в широкополосном диапазоне гамма-ритма (70–140 Гц), потому что его можно надёжно извлечь короткими фильтрами без искусственного “размазывания” во времени. Для низких частот, напротив, нужны длинные фильтры, которые сами создают иллюзию длинных интеграционных окон. Поэтому вопрос о том, как низкие частоты участвуют в обработке речи, остаётся открытым. Кроме того, анализ ограничивался субсекундными отрезками, поскольку именно в этом диапазоне слуховая кора интегрирует звук. Поэтому пока нельзя утверждать, как мозг обрабатывает речь на более длинных временных масштабах на уровне предложений или фраз, где интеграция может работать иначе.