四虎在线播放免费永久视频,全黄毛片,人人叉人人,在线 ,久操视频在线播放-国内自拍网红在线综合-桃花阁成人网在线观看-久色乳综合思思在线视频 ,精品视频中文字幕,精品久久国产视频,久久精品视频免费看,亚洲精品98久久久久久中文字幕

Neuron:發(fā)音運動軌跡在大腦語音感覺運動皮層上的編碼

研究亮點

l  感知運動皮層加工發(fā)音運動軌跡(articulatory kinematic trajectories, AKTs)

l  AKTs揭示了舌頭、嘴唇、下巴和喉部的協(xié)調(diào)運動

l  AKTs表現(xiàn)為聲道發(fā)音器官的刻板軌跡

l  AKT表征由于發(fā)音器官運動導(dǎo)致的上下文相關(guān)運動的編碼

流利的語言表達(dá)需要精確的聲道運動。Chartier等人研究聲道運動在感覺運動皮層上的編碼。該研究發(fā)現(xiàn),單電極神經(jīng)活動可以編碼不同的運動軌跡,這些運動軌跡是產(chǎn)生自然語言的復(fù)雜運動軌跡基礎(chǔ)。本文發(fā)表在Neuro雜志。

文獻(xiàn)導(dǎo)讀

人們在說話時,會動態(tài)協(xié)調(diào)下巴、舌頭、嘴唇和喉部運動。為了研究發(fā)音的神經(jīng)機制,研究者在參與者使用包含全部英語語音進(jìn)行自然語言表達(dá)時,直接記錄感覺運動皮層的神經(jīng)信號。研究者們使用深層神經(jīng)網(wǎng)絡(luò)從產(chǎn)生的語音聲學(xué)信號中推斷出說話者的發(fā)音運動。單個電極編碼不同的發(fā)音運動軌跡(AKTs),每一個都顯示了特定聲道形狀的發(fā)音器官協(xié)調(diào)運動。AKTs能捕捉到多種不同的聲帶運動類型并且可以根據(jù)聲帶收縮的部位來區(qū)分。此外,AKTs還表現(xiàn)出與諧波動態(tài)變化相關(guān)運動前后的軌跡。雖然AKTs在不同句子中的功能具有一致特性,在同一音位產(chǎn)生過程中,上下文相關(guān)的動作前后的編碼反映了協(xié)同發(fā)音的皮層表征。感覺運動皮層的發(fā)音運動編碼產(chǎn)生了連續(xù)語音發(fā)音的復(fù)雜的運動軌跡基礎(chǔ)。

研究背景

為了能夠產(chǎn)生流利地表達(dá),研究者們用近100塊肌肉來完成一項運動控制任務(wù),以快速塑造和重塑發(fā)聲系統(tǒng),產(chǎn)生連續(xù)的語音片段進(jìn)而形成單詞和短語。發(fā)音器官(嘴唇,頜骨,舌頭和喉部)的運動是精確協(xié)調(diào)的,以產(chǎn)生特定的聲道模式。先前的研究通過語言特征(例如,音位--成熟的聲音研究單位)對這些動作進(jìn)行編碼,發(fā)現(xiàn)了腹側(cè)感覺運動皮層(ventral sensorimotor cortexvSMC)中的神經(jīng)編碼與假定的潛在發(fā)音運動有關(guān)。然而,完全理解vSMC神經(jīng)群如何表征語音產(chǎn)生過程中的實際發(fā)音運動仍然存在兩方面的挑戰(zhàn)。

1)如何超越大多數(shù)研究中采用的實驗上方便的方法?即,從在孤立的語音段中的研究vSMC,朝著研究自然、連續(xù)語音產(chǎn)生中的更豐富、更復(fù)雜的運動動力學(xué)方向發(fā)展。

2)如何超越范疇語言特征(如音位或音節(jié)),去描述運動的精確表征?即,研究真實的發(fā)音運動軌跡。

克服這些挑戰(zhàn)對于理解流利表達(dá)至關(guān)重要。雖然語音通常被描述為在任何給定時間具有局部不變性的離散成分的組合(即音位或發(fā)音系統(tǒng)姿態(tài),但是語音片段產(chǎn)生的發(fā)音運動仍可能受到先前和即將出現(xiàn)的語音片段(稱為協(xié)同發(fā)音)的影響。例如,在“cool”中,在/k/后會出現(xiàn)/u/所需的圓形唇形,而在“keep”中,/k/則在預(yù)期出現(xiàn)/i/時被顎化。所以,研究的核心問題仍然是,大腦皮層控制是否調(diào)用這些原始運動模式組合來執(zhí)行更復(fù)雜的任務(wù)?

為了解決這些問題,研究者們使用高密度顱內(nèi)腦電圖(ECoG)記錄被試大聲說出完整句子時的腦電信號。關(guān)注連續(xù)表達(dá)的句子有助于研究獨立音節(jié)發(fā)音時無法獲得的發(fā)音器官運動的動態(tài)協(xié)同功能。此外,由于自然語音中可能存在各種各樣的發(fā)音運動,因此研究者使用的句子覆蓋了美式英語中幾乎所有的語音和發(fā)音環(huán)境。此方法能夠根據(jù)聲帶運動來表征語音產(chǎn)生過程中的感覺運動皮層活動。

研究自然語言機制的一個主要障礙是,只能用高時空分辨率的跟蹤舌運動的專用工具來監(jiān)測內(nèi)聲帶運動的持續(xù)時間,而這些工具大多與顱內(nèi)記錄不兼容,也不適合捕捉自然語言言語模式。為了克服這個障礙,研究者們開發(fā)了一種一種統(tǒng)計方法,可以從產(chǎn)生的聲學(xué)信號推導(dǎo)聲道運動。然后,使用推斷出的發(fā)音運動軌跡來確定發(fā)音運動的神經(jīng)編碼,以一種與模型無關(guān)且不可知的方式來確定語音生成中使用的預(yù)定義發(fā)音和聲學(xué)模式(例如音位和姿態(tài))。并通過學(xué)習(xí)發(fā)音運動和電極神經(jīng)活動如何組合,估計單個電極的發(fā)音運動軌跡(AKTs),并通過語音vSMC描繪發(fā)音運動的異質(zhì)性。

研究方法

參與者

研究共招募5名女性參與者,在大腦側(cè)面高密度硬膜下慢性植入電極陣列(2個左半球網(wǎng)格,3個右半球網(wǎng)格)作為癲癇臨床治療的一部分。在手術(shù)前簽署書面知情同意。



實驗任務(wù)

要求參與者朗讀來自MOCHA-TIMIT數(shù)據(jù)庫的460個句子。實驗共包括9block(其中8個包含50個句子,1個包含60個句子),在患者住院的幾天內(nèi)執(zhí)行實驗任務(wù)。每個block中,在屏幕上呈現(xiàn)句子,一次一個,讓參與者朗讀。句子的順序是隨機的。MOCHA-TIMIT是一個句子級別的數(shù)據(jù)庫,是TIMIT語料庫的一個子集,旨在覆蓋美式英語中的所有語音文本。參與者將每句話讀1-10遍。麥克風(fēng)錄音與ECoG記錄是同步的。

 

數(shù)據(jù)采集和信號處理

使用Tucker Davis Technologies多通道放大器連接數(shù)字信號,記錄皮層腦電。語音經(jīng)過數(shù)字放大,并通過麥克風(fēng)與皮層信號同時進(jìn)行記錄。ECoG電極排列成16*16,間距為4mm,放置由臨床因素決定。記錄時的采樣率為以3052hz。對每個通道進(jìn)行目測和定量檢查,以確定是否存在偽跡或過度噪聲(60Hz的工頻干擾)。用Hilbert變換提取局部場電位(70150hz)high-gamma頻段的振幅,并將其降采樣到200hz。最后,將30 s窗口內(nèi)的信號使用平均值和標(biāo)準(zhǔn)差進(jìn)行z分?jǐn)?shù)轉(zhuǎn)化,以便對不同的數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化。研究使用high-gamma頻段的振幅,因為它與多單元放電率(multi-unit firing rates)的相關(guān)性好,并且具有解決精細(xì)發(fā)音器官運動的高時間分辨率。



語音和音位記錄

對于收集到的語音錄音,在單詞的層面進(jìn)行人工校正,以反映參與者實際發(fā)出的聲音。根據(jù)句子級別的錄音和聲學(xué)信息,為每個參與者建立了基于hidden Markov模型的聲學(xué)模型,以實現(xiàn)亞語音(sub-phonetic)對齊。根據(jù)語音、音節(jié)和詞的上下文產(chǎn)生語音上下文特征。



與說話者無關(guān)的聲學(xué)-發(fā)音轉(zhuǎn)換(acoustic-to-articularoty inversion, AAI)

為了對只有聲學(xué)數(shù)據(jù)可用的參與者進(jìn)行發(fā)音逆推,我研究者發(fā)明了與說話者無關(guān)的聲學(xué)-發(fā)音轉(zhuǎn)換(acoustic-to-articularoty inversion, AAI)法,模擬參與者的并行的EMA(electromagnetic midsagittal articulography)和語音數(shù)據(jù)。

小編注:EMA是一種可以清晰的看見參與者在發(fā)音時每個部位(唇、舌頭、喉嚨、下巴)的運動變化。

使用8EMA參與者的聲譜特征與想要推斷聲道運動軌跡的5目標(biāo)參與者進(jìn)行匹配,對EMA參與者的聲譜特征進(jìn)行聲音變換,以令每個EMA的聲譜數(shù)據(jù)都與目標(biāo)參與者的相匹配,來實現(xiàn)將所有聲學(xué)數(shù)據(jù)應(yīng)用到目標(biāo)參與者的轉(zhuǎn)換。該方法假設(shè)兩個參與者的聲學(xué)數(shù)據(jù)對應(yīng)相同句子。

由于沒有關(guān)于目標(biāo)參與者的運動軌跡信息,研究者對8EMA記錄者的發(fā)音空間的平均值進(jìn)行標(biāo)準(zhǔn)化。為了對運動數(shù)據(jù)能在參與者間使用利用,對于每個EMA數(shù)據(jù)上進(jìn)行特定的發(fā)音z分?jǐn)?shù)變換。確保目標(biāo)參與者的發(fā)音運動軌跡在所有可用的EMA數(shù)據(jù)中是一個無偏的平均值。運動軌跡由13維特征向量描述(12維表示6個聲道點的XY坐標(biāo),基頻F0表示喉功能)

使用24mel-cepstral系數(shù)作為聲譜特征。運動軌跡和聲學(xué)的采樣頻率均為200hz(每個特征向量代表一段5ms的語音)。此外,每一幀語音對應(yīng)的音位和語音信息被編碼為一維有效編碼(one-hot vector),并填充到聲學(xué)特征上。這些特征包括音位同一性、音節(jié)位置、詞性、當(dāng)前及相鄰音位和音節(jié)狀態(tài)的位置特征。結(jié)果發(fā)現(xiàn),前后背景數(shù)據(jù)為聲學(xué)提供了補充信息,提高了逆推精度。

針對目標(biāo)參與者創(chuàng)建并行語音數(shù)據(jù)集和EMA數(shù)據(jù)的模擬數(shù)據(jù)集,這兩個數(shù)據(jù)集都是針對目標(biāo)參與者定制的。為了訓(xùn)練逆推模型,使用基于深度遞歸神經(jīng)網(wǎng)絡(luò)的發(fā)音逆推技術(shù)來學(xué)習(xí)從聲譜和語音背景到說話者通用發(fā)音空間的映射。本研究選擇具有兩個前饋層(200個隱藏節(jié)點)和兩個雙向LSTM(long short-term memory)(100LSTM cells)4層深度遞歸網(wǎng)絡(luò)的最優(yōu)網(wǎng)絡(luò)結(jié)構(gòu)。然后將訓(xùn)練好的逆推模型應(yīng)用于目標(biāo)參與者的所有語音,以笛卡爾X坐標(biāo)和Y坐標(biāo)的形式推斷出發(fā)音器官運動。該網(wǎng)絡(luò)是使用Keras實現(xiàn)的,它是一個在Tensorflow后端運行的深度學(xué)習(xí)庫。

電極選擇

選擇中央前回和中央后回的電極,因為它們在言語產(chǎn)生過程中具有明顯的high-gamma活動。我們用一個給定電極的類間與類內(nèi)的變化率(F統(tǒng)計量)來測量音位的可分性。選擇F最大值大于或者等于8的電極。5名參與者中,總共有108個電極在語音產(chǎn)生過程中具有強大的活動性。

編碼模型

為了揭示電極所代表的運動軌跡,我們使用線性編碼模型來描述在每個電極上記錄的high-gamma活動,作為一個隨時間變化的發(fā)音器官運動軌跡加權(quán)和。在我們的模型中,使用了發(fā)音器XY坐標(biāo)來代替聲譜成分。該模型估計每個電極i的時間序列Xi(t)作為發(fā)音器官運動器A的卷積,包括運動軌跡參數(shù)K和濾波器H,我們將其稱為電極的發(fā)音器官運動軌跡(AKT)編碼。

將聲學(xué)和音位編碼模型與電極活動相匹配。用共振峰(F1、F2F3)代替發(fā)音器的XY坐標(biāo)來描述聲學(xué)信息和句子中產(chǎn)生的音位。每一個特征的10分別表示一個特定的音位是否產(chǎn)生。

編碼模型ridge回歸擬合,用交叉驗證訓(xùn)練數(shù)據(jù),70%的數(shù)據(jù)用于訓(xùn)練,10%的數(shù)據(jù)用于估計ridge參數(shù),20%作為最終測試集。最后測試由完全獨立于訓(xùn)練句子的錄音中的句子組成。測試模型預(yù)測響應(yīng)與最終測試集中測量的實際高high-gamma之間的相關(guān)性。



層級聚類

使用Ward的方法進(jìn)行聚集層次聚類。對每個電極的編碼運動軌跡的運動描述單獨進(jìn)行電極聚類。為了為每個運動軌跡開發(fā)簡明的運動軌跡描述,提取了個發(fā)音器官的最大位移點。用主成分分析法對每一個發(fā)音器提取解釋方差最大的發(fā)音器方向。然后,將濾波器權(quán)重映射到每個發(fā)音器官的第一主成分上,并選擇最大值的點。根據(jù)每個電極的音位編碼權(quán)重對音位進(jìn)行聚類。對于給定的電極,在給定的電極的最大音位可辨別性點處,提取長度為100ms的時間窗中每個音位的最大編碼權(quán)重。



皮層表面提取和電極可視化

為了觀察參與者大腦皮層表面的電極,在SPM12進(jìn)行配準(zhǔn)并結(jié)合T1CT顯示電極位置。用Freesurfer重建軟腦膜表面。為了在MNI空間觀察參與者的電極,在Freesurfer中使用基于球面sulcal的對齊方式進(jìn)行了非線性表面配準(zhǔn),并與mni152模板中的cvs avg35對齊。

解碼模型

為了解碼發(fā)音運動,研究者們訓(xùn)練了一個長短期記憶(LSTMlong short-term memory)遞歸神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)從high-gamma活動到發(fā)音運動的映射。LSTM特別適合學(xué)習(xí)具有時間相關(guān)信息的映射。LSTM使用500 ms時間窗的high-gamma活動,從所有vSMC電極中,以解碼樣本為中心,預(yù)測每個發(fā)音器官位置樣本。解碼器結(jié)構(gòu)是一個4層的深度遞歸網(wǎng)絡(luò),具有兩個前饋層(每個100個隱藏節(jié)點)和兩個雙向LSTM(100cell)。使用Adam優(yōu)化和丟棄(dropout )(40%的節(jié)點),訓(xùn)練網(wǎng)絡(luò)以減少解碼和實際輸出的均方誤差。該網(wǎng)絡(luò)是使用Keras實現(xiàn)的,它是一個在Tensorflow后端運行的深度學(xué)習(xí)庫。



量化和統(tǒng)計分析

嵌套編碼模型比較

使用嵌套回歸模型來比較單個發(fā)音器官軌跡的神經(jīng)編碼與AKT模型。對于每一個電極,我們使用每個EMA傳感器的XY方向擬合單個發(fā)音器官軌跡模型,并選擇對保留數(shù)據(jù)具有最小殘差平方和(RSS)的單個發(fā)音器官模型。根據(jù)完全(2)和嵌套(1)模型的RSS值,我們通過計算每個電極的F統(tǒng)計量來比較解釋方差的顯著性。

pn分別是RSS計算中使用的模型參數(shù)和樣本數(shù)。當(dāng)F統(tǒng)計量大于由兩個模型中參數(shù)個數(shù)和置信區(qū)間定義的臨界值時,說明在考慮參數(shù)個數(shù)的差異后,全模型(AKT)在統(tǒng)計學(xué)上顯著解釋了比嵌套模型(單個發(fā)音器)更多的方差。

相關(guān)結(jié)構(gòu)比較

為了測試語音響應(yīng)電極在low-gamma活動期和high-gamma活動期之間,發(fā)音器的相關(guān)結(jié)構(gòu)(EMA)是否不同,基于給定電極的high-gamma活動z分?jǐn)?shù)是否高于閾值(1.5),將推斷出的發(fā)音器運動分成兩個數(shù)據(jù)集。然后從每個數(shù)據(jù)集中隨機抽取1000個發(fā)音器官運動點,構(gòu)建兩個發(fā)音器官間的交叉相關(guān)結(jié)構(gòu)。為了量化相關(guān)結(jié)構(gòu)之間的差異,計算兩個結(jié)構(gòu)之間的歐氏距離(Euclidean distances)。然后,從低于閾值的數(shù)據(jù)集中額外抽取1000個點,以量化亞閾值(sub-threshold )數(shù)據(jù)中相關(guān)結(jié)構(gòu)之間的差異。我們對每個電極重復(fù)這一過程1000次,使用Wilcoxon秩和檢驗(經(jīng)過Bonferroni檢驗)比較歐氏距離的兩種分布,以確定發(fā)音器官的相關(guān)結(jié)構(gòu)是否與電極的高或低頻gamma活動有關(guān)。

輪廓分析

為了評估聚類的可分性,計算每個電極的輪廓指數(shù),基于給定特征比較每個電極與它自身聚類的匹配程度。通過計算同一聚類內(nèi)所有電極的平均不相似度與最近聚類內(nèi)電極的平均不相似度之差,計算出電極的輪廓指數(shù)。然后,通過取兩個度量中的最大值來規(guī)范化該值。輪廓指數(shù)接近1表明電極與其自身的聚類高度匹配。0表示聚類可能重疊,而-1表示電極可能分配給錯誤的聚類。


音位選擇性指數(shù)(PSI)

為了確定每個電極的音位選擇性,我們使用Mesgarani等人(2014)描述的統(tǒng)計框架,來測試在兩個不同音位的產(chǎn)生過程中,電極的high-gamma活動是否存在顯著差異。對于一組音位對和一個給定的電極,根據(jù)與每個音位對齊的數(shù)據(jù)創(chuàng)建了兩個high-gamma活動分布。使用非參數(shù)統(tǒng)計假設(shè)檢驗(Wilcox秩和檢驗)來評估這些分布是否有不同的中位數(shù)(p<0.001)。PSI0表示沒有其他音位具有不同的(可區(qū)分)high-gamma活動,PSI40則表明其他所有音位都具有不同的(可區(qū)分的)high-gamma活動。


混合效應(yīng)模型

為了研究high-gamma與聯(lián)合發(fā)音運動軌跡之間的關(guān)系,使用具有多個交叉隨機效應(yīng)的混合效應(yīng)模型。對于給定的電極,在目標(biāo)音位產(chǎn)生期間,以該電極的F峰值為中心的50 ms窗口期間取high-gamma活動的中位數(shù)來計算活動峰值。然后,取每個唯一音位對(目標(biāo)音音vs上下文音位,其中目標(biāo)音位前面是上下文音位)的平均活動峰值。對于每個電極,只考慮PSI>25的音位對。在圖6C、6D6H6I中,將/z/擴展為包含/z//s/,并將/p/擴展為包含/p//b/,因為從EMA的角度來看,發(fā)音幾乎相同,它增加了可以分析的聯(lián)合發(fā)音實例的數(shù)量,從而減少了來自其他上下文效果的偏差和來自噪聲的可變性。并計算由AKT模型預(yù)測的high-gamma活動,以提供對特定音位對產(chǎn)生過程中的運動軌跡的洞察。為了確定模型的優(yōu)度,使用方差分析將模型與保留交叉隨機效應(yīng)但去除固定效應(yīng)的嵌套模型進(jìn)行比較?;旌闲?yīng)模型使用R中的lme4包進(jìn)行擬合。

6.發(fā)音器官運動軌跡的神經(jīng)表征

(A)下門牙不同程度的預(yù)期發(fā)音器官發(fā)音的示例。顯示了針對/?z//?p/的下切牙(y方向)的平均跡線,該平均跡線與/?/的聲學(xué)發(fā)作對齊。

(B)電極120密切相關(guān)地參與到元音AKT(下頜張開和喉嚨控制)/?/的產(chǎn)生,并且對/?/具有高的語音選擇性。

(C)/?z//?p/的產(chǎn)生期間,電極120的平均high-gamma活動。

(D)(B)AKT預(yù)測的high-gamma活動平均預(yù)測。

(E)混合效應(yīng)模型顯示了high-gamma活動與運動變異性的關(guān)系,這是由于所有電極和音位的后續(xù)音位的預(yù)期聯(lián)合發(fā)音效應(yīng)(β=0.30SE=0.04,?2(1)=38.96p=4e-10)。

(F)下門牙不同程度保留聯(lián)合發(fā)音示例。顯示了針對/?z// iz /的下切牙(y方向)的平均跡線,該平均跡線與/ z /的聲學(xué)起點對齊。

(G)電極122至關(guān)重要地參與了冠狀AKT/ z /的產(chǎn)生,并且對/ z /具有高的語音選擇性。

(H)/?z// iz /的產(chǎn)生期間電極122的平均high-gamma活動。/?z/的中值高頻γ值明顯高于/ iz /(p <0.05,Wilcoxon符號秩檢驗)。

(I)(G)中由AKT預(yù)測的high-gamma活動的平均預(yù)測。

(J)混合效應(yīng)模型顯示,由于所有電極和音位的先前音位的殘留協(xié)同發(fā)音效應(yīng),high-gamma系數(shù)與運動軌跡變異性之間的關(guān)系(β = 0.32,SE = 0.04?2(1)= 42.58,p = 6e-11)/?z/(綠色)/ iz /(藍(lán)色)(H)(I)的關(guān)系顯示為點。

結(jié)果

發(fā)音運動軌跡推斷結(jié)果

1.推斷的發(fā)音器官運動軌跡

A.EMA記錄期間記錄發(fā)音器官信號的傳感器大概位置。中正矢狀面運動以笛卡爾xy坐標(biāo)來表示。

(B)從聲學(xué)和語音特征(彩色)推斷出發(fā)音器中正矢狀運動。每個參考傳感器的軌跡以黑色顯示。

(C)記錄的發(fā)音器官運動(EMA)顯示了投射在低維(LDA)空間上的輔音和元音。

使用留一法(leave-one-out)交叉驗證,測試參與者的推斷軌跡與真實基線EMA的平均相關(guān)性,r0.68±0.11。圖1B顯示了在一列看不見說話者的測試表達(dá)期間,每個發(fā)音器官的推測EMA軌跡和真實基線EMA軌跡。所有推斷出的發(fā)音器官運動軌跡與真實的用來參考的發(fā)音器官運動軌跡之間都具有高度相關(guān)性。圖S1A顯示了12個發(fā)音器官的詳細(xì)性能。

S1 聲學(xué)-發(fā)音逆推

為了測試AAI方法在推斷聲學(xué)信號相關(guān)的發(fā)音器官運動能力,對真實和推斷的EMA,研究者們訓(xùn)練了相同的深度遞歸網(wǎng)絡(luò)進(jìn)行發(fā)音器官合成,比如從發(fā)音器官運動軌跡預(yù)測聲譜(編碼為24mel-cepstral系數(shù)和能量)。結(jié)果表明,使用目標(biāo)參與者真實EMA或通過AAI方法推斷出來的EMA預(yù)測的隱藏語音聲譜沒有顯著差異(p = 0.4;圖S1BS1C)。這表明,推斷的和實際的EMA之間的差異可能在很大程度上由于運動偏移不具有明顯的聲學(xué)影響。也可能包括其他因素傳感器位置,噪音收集和其他說話者/記錄可能與聲學(xué)信號不相關(guān)的特定偽跡差異。

為了進(jìn)一步驗證AAI方法,研究者檢查了推斷的運動軌跡保留語音結(jié)構(gòu)的程度。分析了由真實和推斷的音位運動軌跡產(chǎn)生的音標(biāo)聚類。對于一個參與者的真實和推斷的EMA,構(gòu)建了一個音位運動軌跡起點200毫秒左右的分析窗口。然后,使用線性判別分析(linear discrimant analysis, LDA)從真實EMA數(shù)據(jù)中模擬音位之間的運動軌跡差異。并將音位的真實和推斷EMA數(shù)據(jù)都放置在此二維LDA空間中,以觀察真實和推斷EMA之間的語音結(jié)構(gòu)相對差異。結(jié)果發(fā)現(xiàn),在推斷的和實際的運動軌跡數(shù)據(jù)之間,音位重心之間的音位聚類和相對距離在很大程度上得到了保留(圖1C)(輔音相關(guān)性r = 0.97,元音相關(guān)性r = 0.97p <0.001)??傊@些結(jié)果表明,使用運動軌跡與聲學(xué)和語言學(xué)指標(biāo),從易于記錄的聲學(xué)信號中獲得對聲道運動的高分辨率描述是可能的。



vSMC單電極上的運動軌跡編碼

AKT模型可以很好地解釋語音過程中vSMC區(qū)域電極檢測到的神經(jīng)活動(5個參與者中有108個電極;平均r = 0.25±0.08,最高為0.5,p <0.001)。研究者們在各個發(fā)音器官上觀察到一致的模式,每個發(fā)音器官都顯示出一條軌跡,該軌跡在返回起點之前以有向的方式從起點出發(fā)。最大運動點描述了涉及多個發(fā)音器官協(xié)同工作的特定功能性聲道形狀。例如,圖2A中電極的AKT(2E)顯示了下切牙和舌尖在牙槽嵴處收縮時的明顯協(xié)調(diào)運動。此外,舌片和舌背向前移動,以便于舌尖的移動。上唇和下唇保持張開,喉部不發(fā)聲。聲道結(jié)構(gòu)與齒槽收縮的典型特征相對應(yīng)(例如,產(chǎn)生/t/,/d/,/s/,/z/,等等)。在圖2D中,在產(chǎn)生/st/、/d?s/、和/nz/期間,可以明顯看到電極對這一特殊語音類別的調(diào)諧,測量和預(yù)測的high-gamma活動都增加,所有這些都需要聲道的齒槽收縮。

2.發(fā)音器官運動軌跡的神經(jīng)編碼

(A)單個參與者的大腦磁共振成像(MRI)重建,其中在腹側(cè)感覺運動皮層(vSMC)中標(biāo)記了一個示例電極。

(B)刺激性討論一詞的產(chǎn)生過程中推斷出的發(fā)音動作。動作方向按顏色區(qū)分(xy方向,紫色;負(fù)xy方向,綠色)。

(C)通過擬合發(fā)音器官運動來解釋示例電極的high-gamma的時空濾波器。時間0表示與預(yù)測的神經(jīng)活動樣本對齊。

(D)將時空濾波器與發(fā)音器官動態(tài)運動進(jìn)行卷積可以解釋high-gamma活動。

(E)映射到聲道中正矢狀視點的示例電極編碼濾波器權(quán)重表現(xiàn)出與語音相關(guān)的運動軌跡運動軌跡(AKT)。軌跡的時間過程由細(xì)到粗的線表示。喉音(通過發(fā)聲進(jìn)行音高調(diào)制)沿y軸為一維,x軸為時程。

使用了交叉驗證嵌套回歸模型,將單個發(fā)音器官運動軌跡的神經(jīng)編碼與AKT模型進(jìn)行了比較。將一個發(fā)音器官對應(yīng)一個EMA傳感器。用80%的數(shù)據(jù)對模型進(jìn)行訓(xùn)練,并對其余20%的數(shù)據(jù)進(jìn)行測試。對于每個電極,使用與其對應(yīng)的估計EMA傳感器的xy兩個方向來擬合單個發(fā)音器官軌跡模型,并選擇一個在與AKT模型比較中表現(xiàn)最好的發(fā)音器官模型。在對訓(xùn)練數(shù)據(jù)進(jìn)行測試發(fā)現(xiàn),AKT模型描述的多發(fā)音器官模式比單發(fā)音器官軌跡模型解釋的差異更大(F(280,1820)>1.31,108個電極中96個的p<0.001,平均F =6.68,p<0.001,Wilcoxon符號秩檢驗;)。這意味著,單電極的活動與涉及多個發(fā)音器官的聲帶運動模式的關(guān)聯(lián)比與單個發(fā)音器官的關(guān)聯(lián)更大。

發(fā)音相關(guān)結(jié)構(gòu)的差異取決于high-gamma活動是高還是低(閾值為1.5sds)(108個電極p<0.001,Bonferroni校正),這表明,除了聲帶生物力學(xué)特性引起的協(xié)調(diào)外,各發(fā)音器官之間的協(xié)調(diào)性也反映在神經(jīng)活動的變化上。vSMC上的發(fā)音運動組織結(jié)構(gòu)存在與協(xié)調(diào)運動的肢體控制類似的皮質(zhì)編碼,在一個電極的神經(jīng)活動編碼多個發(fā)音器官特定協(xié)調(diào)運動軌跡。

3.發(fā)音運動軌跡聚類和語音結(jié)果

(A)5個參與者的所有108個電極的編碼發(fā)音器官運動軌跡(AKT)的層次聚類。每一列代表一個電極。AKTS的動態(tài)運動被描述為沿著每個發(fā)音器官的主運動軸的最大位移點的七維向量。

(B)每個電極的音位編碼模型。運動群集電極也編碼四個編碼的音位群集,這些音位由發(fā)音部位(齒槽、雙唇、舌根后部和聲道)區(qū)分。

(C)群集中所有電極的平均AKT。除聲音控制外,四種截然不同的聲道結(jié)構(gòu)還包括冠狀,唇側(cè)和背側(cè)收縮。

使用層次聚類法根據(jù)電極的發(fā)音運動描述來組織電極(3A)。為了從語音學(xué)角度解釋這些聚類,研究者為每個電極建立了一個音位編碼模型。與AKT模型相似,電極活動被看作一個音位的加權(quán)和,其中每個音位的值要么是1,要么是0,這取決于它是否在給定的時間被發(fā)出。對于每個電極,提取每個音位的最大編碼權(quán)重。每個電極的編碼音位顯示順序與發(fā)音運動群電極相同(3B)。

一個清晰的組織結(jié)構(gòu)揭示了AKT之間的共同發(fā)音模式。第一級根據(jù)下頜運動的方向(下門牙上下)來組織AKTs。亞層為具有明顯的協(xié)調(diào)發(fā)音模式的四個主要AKTs聚類。將每個聚類的AKT平均起來,得到每個聚類的代表性AKT(3C)。其中三組描述了聲道的收縮:冠狀、唇狀和舌背,廣泛覆蓋英語中所有輔音。另一組描述了一個元音(元音)AKT,涉及喉部活動和下頜張開運動。

研究者還發(fā)現(xiàn)電極對一組特定的音位表現(xiàn)出高度特異性,而不是分散式表征單個音位。每個AKT聚類內(nèi)的電極也主要編碼具有相同規(guī)范定義發(fā)音位置的音位。例如,冠狀AKT聚類內(nèi)的電極對/t/、/d//n/、/?//s//z/更敏感,所有這些音位都具有相似的發(fā)音位置。然而,聚類的內(nèi)部存在一定差異。例如,在冠狀AKT(3A3B,綠色)中,表現(xiàn)出相對較弱的舌尖運動(淺紫色)的電極,其語音結(jié)果較少局限于牙槽緊縮部位的音位(音位--綠色簇中的淺黑色)。

同時,對音位編碼權(quán)重進(jìn)行了層次聚類,以識別音位結(jié)構(gòu),以便與AKTs進(jìn)行比較并幫助解釋AKTs的聚類。這些結(jié)果證實研究者對vSMC語音結(jié)構(gòu)的描述:由發(fā)音位置定義的語音特征占主導(dǎo)地位。

為了解每個AKT聚類在運動和語音上的相互區(qū)別,使用輪廓指數(shù)作為聚類強度的度量,量化了每個AKT聚類的類內(nèi)相似度和聚類間相似度之間的關(guān)系。AKT類內(nèi)在運動軌跡和語音描述上的聚類強度明顯高于隨機分布,說明聚類內(nèi)具有相似的運動軌跡和語音結(jié)果(p<0.01,Wilcoxon符號秩檢驗)。

進(jìn)一步研究每個參與者vSMCAKTs的解剖聚類。冠狀位和唇位AKTs的解剖聚類有顯著性差異(p<0.01Wilcoxon符號秩檢驗),背側(cè)和元音AKTs的解剖聚類無顯著性差異。為了進(jìn)一步研究AKT聚類的解剖位置,將所有參與者的電極位置投射到一個標(biāo)準(zhǔn)腦上(4)。發(fā)現(xiàn)AKTs存在根據(jù)運動功能和發(fā)音位置在空間上進(jìn)行定位的粗大的體感組織。由于AKTs編碼發(fā)音器官協(xié)調(diào)運動,本研究并沒有發(fā)現(xiàn)單一發(fā)音器官的定位。例如,通過對發(fā)音運動的詳細(xì)描述,我們發(fā)現(xiàn)下切牙的運動并不是局限于一個區(qū)域;相反,開閉運動是分開表現(xiàn)的,分別見于元音相關(guān)和冠狀AKT。

4.聲帶運動的空間組織

來自五名參與者(2個左半球和3個右半球數(shù)據(jù))的電極,不同顏色表征投射到通過MRI重建大腦的vSMC位置的不同運動軌跡。電極透明度隨運動軌跡編碼模型中的皮爾森相關(guān)系數(shù)而變化。

軌道阻尼振蕩動力學(xué)

為了進(jìn)一步研究每個AKT的軌跡動力學(xué),我們分析了每個發(fā)音器官的相位圖(速度和位移關(guān)系)。在圖5A中,對于四個示例電極的AKT,分別顯示了每個發(fā)音器官沿其位移主軸的軌跡的編碼位置和速度,每個電極代表一個主AKT聚類。每個發(fā)音器官的運動軌跡由每個AKT的編碼權(quán)重決定。所有的軌跡都向外移動,然后回到與起點相同的位置,速度相應(yīng)地增加和減少,形成一個循環(huán)。即使是只做相對較小的動作的發(fā)音器官也是這樣。圖5B顯示了來自所有108AKT的每個發(fā)音器官的軌跡,這些軌跡再次說明了前后運動軌跡模式。給定發(fā)音器官的運動軌跡并沒有顯示出相同的位移程度,這表明了特定聚類內(nèi)AKTs的特異性水平。位移較大的軌跡也傾向于高速運動。

雖然每個AKT都指定了隨時間變化的發(fā)音器官運動,但決定各個發(fā)音器官運動方式的動態(tài)控制可能不隨時間變化。在發(fā)音運動研究中,用阻尼振蕩動力學(xué)描述聲道姿態(tài)的時間不變特性。就像鐘擺一樣,運動的描述元素(即速度和位置)相互關(guān)聯(lián),而不依賴于時間。本研究發(fā)現(xiàn),AKTs所描述的每個發(fā)音器官的峰值速度和位移之間存在線性關(guān)系(5C;r分別為0.85、0.77、0.83、0.69、0.790.83;p<0.001),表明AKTs也表現(xiàn)出阻尼振蕩動力學(xué)。此外,與每個發(fā)音器官相關(guān)的斜率顯示了該發(fā)音器官的相對速度。下切牙和上唇移動最慢(斜率分別為0.650.65),舌頭速度隨舌體舌尖位置而變化,舌尖移動最快(斜率分別為0.66、0.780.99)。這些動態(tài)特征表明AKT形成一個定型化軌跡,以形成單個聲道配置,即次音節(jié)語音成分,充當(dāng)生成單個音節(jié)所需的多個聲道配置的基礎(chǔ)。雖然我們無法區(qū)分單個發(fā)音器官的動力學(xué)特性是集中規(guī)劃的還是由聲道的生物力學(xué)特性決定的,但速度-位置關(guān)系強烈地表明,AKT模型對每個發(fā)音器官的運動進(jìn)行編碼,該編碼對應(yīng)于連續(xù)語音產(chǎn)生的內(nèi)在動力學(xué)。

5.運動軌跡的阻尼振蕩動力學(xué)

(A)來自每個運動軌跡聚類的事例電極的編碼AKT沿主運動軸的發(fā)音運動軌跡。正值表示向上運動和向前運動的組合。

(B)5位參與者的所有108條運動軌跡的發(fā)音器官運動軌跡。

(C)峰值速度與發(fā)音器官位移之間的線性關(guān)系(r分別為0.85、0.77、0.83、0.69、0.790.83p <0.001)。 

聯(lián)合發(fā)音器官運動軌跡

在預(yù)期聯(lián)合發(fā)音過程中,在當(dāng)前音位的產(chǎn)生過程中,可以觀察到即將到來的音位的運動效應(yīng)。例如,思考在/z/(“has”)/p/(“tap”)的發(fā)音過程中下頜張開度(下切牙向下)的差異(6A)/?/發(fā)音需要下巴張開,但張開的程度由即將到來的音位來調(diào)節(jié)。由于/z/的產(chǎn)生需要下頜閉合,因此在發(fā)出/?z/時下頜張開的較少,以補償/z/的要求。而/p/不需要下頜閉合,因此/?p/發(fā)音時下頜張開較多。在每一種情況下,下頜在/?/期間打開,但根據(jù)即將到來的運動的兼容性而不同程度地打開。

為了研究預(yù)期性聯(lián)合發(fā)音是否有神經(jīng)上的表征,研究者們關(guān)注在聯(lián)合發(fā)音程度不同的兩種情況下,產(chǎn)生/?z//?p/時神經(jīng)活動的變化。圖6B中,電極120AKT描述了下頜開口和喉聲帶結(jié)構(gòu)。/?/聲音起點的時間點上,/?p/誘發(fā)電極120high-gamma的活動高于/?z/(6C)。為了量化這種差異,研究者以所有音位的分辨峰值點為中心,比較了50 ms期間的中位high-gamma活動,發(fā)現(xiàn)顯著差異(p<0.05Wilcoxon符號秩檢驗)。并且,在/?p/期間,AKT預(yù)測的high-gamma值同樣較高于/?z/(p<0.001,Wilcoxon符號秩檢驗)(6D)。在這個電極上,high-gamma活動反映了發(fā)音運動的變化,源于預(yù)期的聯(lián)合發(fā)音效應(yīng)。

為了確定每個音位的所有預(yù)期情境中,聯(lián)合發(fā)音效應(yīng)是否在所有vSMC電極都存在。使用混合效果模型來研究給定電極的high-gamma在具有不同后續(xù)音位的音位發(fā)音過程中如何變化。該模型使用交叉隨機效應(yīng)來控制電極與電極和音位與音位的差異,并使用從AKT預(yù)測的high-gamma的固定效應(yīng)來描述每個電極的運動變異敏感性。在圖6E中,每行顯示了在至少25個實例中的所有后續(xù)語音環(huán)境中,給定音位和電極的high-gamma值與發(fā)音器官運動軌跡變異性之間的關(guān)系。結(jié)果發(fā)現(xiàn),與特定發(fā)音運動相關(guān)的神經(jīng)活動受后續(xù)發(fā)音環(huán)境的運動軌跡約束的調(diào)節(jié)(β=0.30,SE=0.04,p<0,05)。這些特定聲道結(jié)構(gòu)的電極活動反映了由于預(yù)期性和攜帶性聯(lián)合發(fā)音而引起的運動變異性。

與其他編碼模型的比較

為了評估AKTvSMC中的編碼情況,我們比較了(1)AKT模型相對于其他皮層區(qū)域的編碼性能和(2)其他語音表型的vSMC編碼模型

7.神經(jīng)編碼模型評估

(A)在不同解剖區(qū)域中跨電極的AKT編碼性能的比較。

(B)電極的AKT和共振峰編碼模型的比較。使用F1F2F3,以與AKT模型相同的方式擬合共振峰編碼模型。每個點代表一個電極的兩個模型的性能。

(C)AKT和音位編碼模型的比較。音位模型以與AKT模型相同的方式進(jìn)行擬合,不同之處在于音位被描述為一維有效編碼(one-hot vector)

為了確定AKTvSMC的特異性,我們比較了受試者每個皮質(zhì)區(qū)域記錄的AKT模型表現(xiàn)(Pearson's r )(7A)。除了額葉中回(MFG)和眶部(n=4)的電極外,AKT模型顯著解釋了所有記錄到的皮層區(qū)域高于偶然水平的差異(p<0.001,Wilcoxon秩和檢驗)。然而,對于本研究中所考慮的電極(EIS),即vSMC中的語音激活的電極,AKT模型對神經(jīng)活動的解釋明顯優(yōu)于其他皮質(zhì)區(qū)域(p<1e-15,Wilcoxon秩和檢驗)。我們檢查的其他皮質(zhì)區(qū)域之前都被證明參與語音處理的不同方面--聲學(xué)信號和語音加工(顳上回[STG]和顳中回[MTG])。因此,預(yù)計這些區(qū)域的皮質(zhì)活動與產(chǎn)生的運動軌跡有一定的相關(guān)性。AKT模型在EIS中的較高性能表明,研究運動軌跡的神經(jīng)相關(guān)關(guān)系可能主要集中在vSMC。

雖然在vSMCAKTs編碼最好,但可能有其他的語音表示方式可以更好地解釋vSMC的活動。我們根據(jù)AKT模型評估了聲學(xué)(這里使用前三個共振峰:F1、F2F3)和音位的vSMC編碼。每一個模型都以與AKT模型相同的方式進(jìn)行了擬合,并對訓(xùn)練數(shù)據(jù)進(jìn)行比較。我們發(fā)現(xiàn),盡管AKT模型存在有局限性,發(fā)音運動的編碼明顯優(yōu)于聲學(xué)和音位編碼模型(7B7C;p<1e-20,Wilcoxon秩和檢驗)。


解碼發(fā)音運動

使用長-短期記憶遞歸神經(jīng)網(wǎng)絡(luò)(LSTM)對句子產(chǎn)生過程中的發(fā)音運動進(jìn)行解碼。圖8A表面,來自解碼器的預(yù)測發(fā)音運動與來自聲學(xué)的預(yù)測發(fā)音運動緊密匹配。對所有發(fā)音器的運動都進(jìn)行了很好的預(yù)測,涵蓋了100個以上的句子,大大超過了隨機結(jié)果(平均r=0.43,p<0.001)。圖8B表明,可以使用自動語音識別技術(shù)對ECoG錄音中的音位進(jìn)行解碼,進(jìn)而對完整句子進(jìn)行解碼。本研究表明,可以直接從神經(jīng)信號解碼發(fā)音運動。

8. vSMC活動中解碼的發(fā)音器動作

(A)保留數(shù)據(jù)集中的一個例子。在產(chǎn)生句子的過程中,發(fā)音器官運動的原始(黑色)和預(yù)測(彩色)xy坐標(biāo)。每個發(fā)音器官軌跡的皮爾遜相關(guān)系數(shù)(r)。

(B)從訓(xùn)練集中得出的每個句子的100個句子的平均表現(xiàn)(相關(guān)性)。

總結(jié)

本研究描述了在連續(xù)語音產(chǎn)生的中的更豐富、更復(fù)雜的動力學(xué)的運動皮層編碼。這些發(fā)現(xiàn)描繪了一幅關(guān)于發(fā)音的大腦皮層基礎(chǔ)和其他可能的連續(xù)運動任務(wù)的新圖景。協(xié)調(diào)的發(fā)音器官軌跡在局部進(jìn)行編碼并流暢地組合在一起,同時考慮到周圍的運動環(huán)境,以產(chǎn)生我們需要傳達(dá)的廣泛的聲道運動。
原文:Encoding of Articulatory Kinematic Trajectories in Human Speech Sensorimotor Cortex


微信掃碼或者長按選擇識別關(guān)注思影

如對思影課程感興趣也可微信號siyingyxf或18983979082咨詢。覺得有幫助,給個轉(zhuǎn)發(fā),或許身邊的朋友正需要。請直接點擊下文文字即可瀏覽思影科技其他課程及數(shù)據(jù)處理服務(wù),歡迎報名與咨詢,目前全部課程均開放報名,報名后我們會第一時間聯(lián)系,并保留名額。


更新通知:第二十八屆磁共振腦影像基礎(chǔ)班(重慶,已確定)



更新通知:第十屆腦影像機器學(xué)習(xí)班(已確定)


更新通知:第十二屆磁共振彌散張量成像數(shù)據(jù)處理班(已確定)



第六屆任務(wù)態(tài)fMRI專題班(預(yù)報名,南京)






眼動數(shù)據(jù)處理班(預(yù)報名)

數(shù)據(jù)處理業(yè)務(wù)介紹:



招聘及產(chǎn)品: