任務(wù)態(tài)fMRI測量的重測可靠性：新的實證證據(jù)和元分析

在神經(jīng)科學(xué)中，識別疾病風(fēng)險的腦生物標(biāo)記物日益重要。識別有意義的生物標(biāo)記物的能力受到測量可靠性的限制;不可靠的測量方法不適用于預(yù)測臨床結(jié)果。利用任務(wù)態(tài)功能磁共振成像(task fMRI)測量大腦活動是開發(fā)生物標(biāo)記物的一個主要手段；然而，對于任務(wù)態(tài)fMRI的可靠性還沒有得到系統(tǒng)的評估。本文作者提出了一致的證據(jù)，證明任務(wù)態(tài)fMRI測量的可靠性較差。首先，對90個實驗(N = 1008)的元分析顯示總體可靠性較差——平均組內(nèi)相關(guān)系數(shù)(ICC) = 0 .397。其次，在人類連接組項目(HCP，N = 45)和達尼丁研究(Dunedin study, N = 20)收集的11個常見fMRI任務(wù)中，感興趣的先驗?zāi)X區(qū)活動的重測可靠性很差(ICCs = 0.067 - 0.485)?？偟膩碚f，這些發(fā)現(xiàn)表明，目前普遍的任務(wù)態(tài)fMRI測量并不適合于尋求大腦生物標(biāo)記物或個體差異的研究。作者回顧了這一現(xiàn)狀產(chǎn)生的原因，并指出提高任務(wù)態(tài)fMRI可靠性的途徑。本文發(fā)表在Psychological Science雜志。(可添加微信號siyingyxf或18983979082獲取原文，另思影提供免費文獻下載服務(wù)，如需要也可添加此微信號入群，原文也會在群里發(fā)布)。

1前言

自從1992年引進功能核磁共振成像(fMRI)，科學(xué)家們可以無創(chuàng)地觀察人類大腦活動。在傳統(tǒng)的fMRI中，可以通過測量血氧水平依賴(BOLD)信號來估計大腦區(qū)域的活動，該信號反應(yīng)了與神經(jīng)活動相關(guān)的血氧變化。在BOLD fMRI最常見的一種形式中，研究人員通過對比控制條件下的BOLD信號和感興趣條件下的BOLD信號來得到與特定認(rèn)知功能相關(guān)的活動。通過這種方式，任務(wù)態(tài)fMRI使神經(jīng)科學(xué)家對人類行為的大腦機制—從基本的知覺到復(fù)雜的思維有獨特的見解，并使臨床醫(yī)生和心理健康研究人員得以直接測量與疾病有關(guān)的器質(zhì)性功能障礙。

最初，任務(wù)態(tài)fMRI主要用于研究人腦支持的一般功能。研究人員可以測量被試在任務(wù)條件和控制條件下的激活差異，再將個體間的差異進行平均則可以得到群體效應(yīng)。因此，fMRI任務(wù)可以優(yōu)化在對比特定實驗條件時感興趣區(qū)域（ROI）或回路中引起的穩(wěn)健的激活。例如，當(dāng)人們對比情緒面孔與幾何形狀時，可以觀察到杏仁核活動的增加;對比人們贏錢和輸錢時，可以觀察到腹側(cè)紋狀體活動的增加。通過使用這種被試內(nèi)方法所引起的穩(wěn)健的大腦活動，研究人員可以用相同的fMRI任務(wù)來研究被試間的差異。其背后的邏輯很簡單：如果一個大腦區(qū)域在執(zhí)行任務(wù)時被激活，那么該區(qū)域個體激活程度的差異可能會導(dǎo)致個體行為的差異，以及任何相關(guān)的疾病風(fēng)險。因此，如果人們在看到威脅刺激時激活杏仁核，那么人與人之間杏仁核激活程度的差異則標(biāo)志著他們在威脅敏感性和相關(guān)臨床現(xiàn)象方面的差異（比如焦慮和抑郁）。就這樣，fMRI從研究大腦如何工作的工具轉(zhuǎn)變?yōu)檠芯總€體大腦任何不同的工具。

使用任務(wù)態(tài)fMRI來研究人與人之間的差異預(yù)示著它可能成為發(fā)現(xiàn)大腦疾病生物標(biāo)記物的強大工具。廣義上來說，生物標(biāo)記物是一種生物學(xué)指標(biāo)，通常用于風(fēng)險分層、診斷、預(yù)后和評價治療效果。然而，作為一種有用的生物標(biāo)記物，這個指標(biāo)首先必須是可靠的?？煽啃允侵敢环N測量在類似情況下給出一致結(jié)果的能力，它限制了任何測量的預(yù)測效用、效力和有效性（圖1）。因此，可靠性對于臨床應(yīng)用和研究實踐至關(guān)重要?？煽啃缘偷臏y量方法不適合作為生物標(biāo)記物，也不能預(yù)測臨床健康結(jié)果。也就是說，如果臨床醫(yī)生要用一種測量方法來預(yù)測病人未來患病的可能性，那么病人就不能在一次評估中隨機獲得高分，而在下一次評估中隨機獲得低分。

為了具有臨床相關(guān)性的個體差異研究的發(fā)展，必須建立可靠的大腦測量方法。對于任務(wù)態(tài)fMRI的可靠性，個別研究的變異性太高，通常包含小的重測樣本和各種各樣的分析方法。此外，對于相同任務(wù)的可靠性，這些研究者得出的結(jié)論可能是相互矛盾的。這使得任務(wù)態(tài)fMRI的總體可靠性，以及許多常用的fMRI任務(wù)的可靠性在很大程度上是未知的。需要對任務(wù)態(tài)fMRI的可靠性進行最新的、全面的回顧和元分析，并對最廣泛使用的任務(wù)態(tài)fMRI測量的可靠性進行深入檢查。本文作者通過使用兩種證據(jù)揭示了常用的任務(wù)態(tài)fMRI測量的可靠性很差。首先是對任務(wù)態(tài)fMRI區(qū)域激活的重測可靠性進行了元分析。其次，在最近收集的兩組數(shù)據(jù)中（HCP和Dunedin研究），分析了在幾個常用的fMRI任務(wù)的先驗ROI中大腦激活的重測可靠性。

圖1. 任務(wù)態(tài)fMRI重測可靠性樣本量的大小對檢測大腦與行為相關(guān)性80%檢驗力的影響。曲線顯示了與行為或臨床表型相關(guān)的三個水平的可靠性。圖像采用R中的pwr.r.test函數(shù)繪制。r的值根據(jù)附錄中的衰減公式指定。ICC= intraclass correlation coefficient，組內(nèi)相關(guān)系數(shù)。

2方法

2.1 任務(wù)態(tài)fMRI可靠性的元分析

作者按照PRISMA指南進行系統(tǒng)回顧和元分析，在谷歌學(xué)術(shù)上搜索了2019年4月1日或之前發(fā)表的包含任務(wù)態(tài)fMRI激活重測可靠性估計的英文同行評審文章。使用高級搜索查找包含所有“ICC”(即組內(nèi)相關(guān)系數(shù))、“fMRI”和“retest”以及至少一個術(shù)語“ROI”、“ROIs”、“region of interest”或“regions of interest”的文章。共檢索得到1170篇文章。

2.1.1篩選研究和數(shù)據(jù)提取

在審查全文之前先篩選所有的標(biāo)題和摘要。納入了所有報告BOLD fMRI任務(wù)激活的重測可靠性估計的實證文章。文章中正文和補充材料里報告的所有ICCs都被納入。如果ICCs僅用圖形(如柱狀圖)來描述，作者將根據(jù)圖形判斷其值。僅在腦圖上描繪的體素ICCs不包括在內(nèi)。對于基于2個以上時間點計算的ICC，本文使用間隔的平均值作為間隔值(例如，對于基于3個時間點的ICC，使用時間點1和2之間的時間平均值和時間點2和3之間的時間平均值)。對于那些除了對相同數(shù)據(jù)的主要分析(例如使用不同的建模策略或排除某些個體)之外還報告了敏感性分析中的ICCs的文章，本文只納入主要分析中的ICCs。而來自組合任務(wù)的ICCs,旨在評估縱向變化的研究或干預(yù)研究中的ICCs，以及在文中沒有報告ICCs的測量是來自于同一MRI掃描或同一個任務(wù)的，或者報告的ICCs是基于其他個體間的激活測量（比如個體內(nèi)的空間范圍激活或多體素模式激活），這些ICCs都不會被納入后續(xù)的分析。

另外，作者還提取了關(guān)于樣本特征(出版年份、樣本量、健康vs.臨床)、研究設(shè)計(重測間隔、事件相關(guān)vs.組塊、任務(wù)長度和任務(wù)類型)和ICC報告(閾值vs.未閾值)的數(shù)據(jù)。當(dāng)研究計算多個ICCs，但只報告超過最小閾值的值時，就會發(fā)生閾值化。對于每一篇文章，每一個符合上述納入要求的ICC都被記錄下來。

2.1.2統(tǒng)計分析

納入的大多數(shù)研究沒有報告ICC的標(biāo)準(zhǔn)誤差或置信區(qū)間(CI)。因此，為了在meta分析中包含盡可能多的估計值，對所有的ICC值使用Fisher r-to-Z轉(zhuǎn)換來估計所有ICC的標(biāo)準(zhǔn)誤差。

使用R的metafor包中的工具擬合隨機效應(yīng)多層元分析模型。在這個模型中，ICCs和標(biāo)準(zhǔn)誤差在每個唯一的樣本、任務(wù)中進行平均，重測間隔（或子研究）在每篇文章或研究中進行平均。對于本文報告的結(jié)果，為了確保每個子研究的元分析權(quán)重僅基于樣本量而不是報告的ICCs數(shù)量，本文假設(shè)每個子研究中ICCs之間的相關(guān)性為1。敏感性分析顯示，該假設(shè)對總體結(jié)果的影響非常小(見原文補充材料圖S2)。在元分析模型中，將子研究嵌套在研究中，以解釋同一研究中估計的ICCs的非獨立性。對那些報告閾值化ICC值的子研究進行單獨的元分析，因為只報告有統(tǒng)計意義的ICC值會夸大效應(yīng)量。

為了探究調(diào)節(jié)變量的影響，本文對所有的1146個ICC擬合了一個單獨的隨機效應(yīng)多層模型(因為許多子研究都報告了與一個或多個調(diào)節(jié)變量有關(guān)的ICC值，但又沒有在同一個子研究中將這些不同的值進行平均)。調(diào)節(jié)變量包括任務(wù)長度、任務(wù)設(shè)計(block vs.事件相關(guān))、任務(wù)類型(例如，情緒vs.執(zhí)行控制vs.獎勵)、ROI類型(例如，結(jié)構(gòu)或功能)、ROI位置(皮層vs.皮層下)、樣本類型(健康vs.臨床)、重測間隔、每年被引用次數(shù)，以及ICCs是否按顯著性設(shè)定閾值。所有調(diào)節(jié)變量同時作為隨機效應(yīng)輸入模型。在多水平模型中，ICCs嵌套在子研究中，子研究又嵌套在研究中。這樣做是為了解釋在同一個子研究中估計的ICCs的非獨立性，以及在同一研究中進行的子研究的非獨立性。

2.2新數(shù)據(jù)集的分析

2.2.1人類連接組計劃(HCP)

HCP是一個公開的數(shù)據(jù)集，包括1,206名參與者，具有大量的結(jié)構(gòu)像和功能像。此外，45名被試參與了兩次完整的掃描 (掃描的平均間隔約為140天)。所有被試都沒有精神或神經(jīng)疾病，年齡在25到35歲之間。

HCP中使用的七個任務(wù)旨在識別與大腦功能相關(guān)的節(jié)點。這些任務(wù)包括：

n-back工作記憶/執(zhí)行功能任務(wù)(針對背外側(cè)前額葉皮層-dlPFC);

賭博-獎勵/激勵處理任務(wù)(針對腹側(cè)紋狀體);

由腳、手和舌頭的運動組成的運動定位任務(wù)(針對運動皮層);

聽覺語言任務(wù)(針對前顳葉);

社會認(rèn)知/心理理論任務(wù)(針對側(cè)梭狀回、顳上溝和其他社交網(wǎng)絡(luò)區(qū)域)；

關(guān)系處理/維度變化檢測任務(wù)(針對嘴外側(cè)前額葉皮層-rlPFC);

面部匹配的情緒處理任務(wù)(針對杏仁核)。

2.2.2達尼丁多學(xué)科健康和發(fā)展研究

達尼丁研究（Dunedin Study）是對1972年4月至1973年3月在新西蘭達尼丁出生的1037個完整出生隊列的健康和行為的縱向調(diào)查(符合條件的新生兒占91%，52% 為男性)，隨訪至45歲。2016年8月至2019年4月期間收集了結(jié)構(gòu)和功能神經(jīng)成像數(shù)據(jù)，參與者年齡為45歲。此外，20名參與者完成了兩次完整的掃描(掃描平均間隔為79天)。

本文收集了四個任務(wù)的功能磁共振成像，這些任務(wù)的目標(biāo)是四個不同領(lǐng)域的神經(jīng)中樞:一個面孔匹配情緒處理任務(wù)(針對杏仁核)，一個Stroop執(zhí)行功能任務(wù)(針對dlPFC和背側(cè)前扣帶皮層)，一個貨幣激勵延遲獎勵任務(wù)(針對腹側(cè)紋狀體)，和一個面孔名稱編碼情景記憶任務(wù)(針對海馬體)。

2.2.3定義ROI

使用兩種常見方法提取大腦區(qū)域活動的個體估計。首先，從解剖定義的先驗區(qū)域提取平均值。確定每個任務(wù)的主要ROI，并提取相應(yīng)的雙側(cè)解剖mask內(nèi)所有體素的平均BOLD信號變化。

接著，使用了基于組水平激活的功能定義區(qū)域。在每個任務(wù)下，以其解剖ROI 內(nèi)的峰激活體素為中心繪制5mm球體作為功能ROI。這是一種常用的方法，用于捕捉每個被試的峰激活位置（盡管激活的具體位置在不同被試間存在差異）。

2.2.4可靠性分析

提取每個任務(wù)、每個ROI和每次掃描會話（session）的個體水平BOLD信號變化估計。采用兩因素混合效應(yīng)ICC對可靠性進行量化，其中掃描會話建模為固定效應(yīng)，被試建模為隨機效應(yīng)，重測間隔作為不感興趣的效應(yīng)。這種混合效應(yīng)模型稱為ICC (3,1)，ICC(3,1)=（BMS-EMS）/(BMS+(k-1)*EMS)，其中BMS表示被試間均方，EMS表示誤差均方，k是評分者或掃描會話的數(shù)量(在本文中為2)。ICC(3,1)追蹤的是各階段之間測量結(jié)果的一致性，而不是絕對一致性。由于隨著時間的推移可能對刺激習(xí)慣化，ICC(3,1)通常用于任務(wù)態(tài)fMRI重測可靠性的研究。

為了更廣泛地測試每個任務(wù)的可靠性，作者計算了11個任務(wù)的所有目標(biāo)ROI的ICC。因為在HCP和Dunedin的研究中，有三個任務(wù)(情感、獎勵和執(zhí)行功能任務(wù))非常相似，并且針對相同的腦區(qū)，所以在這兩個研究中對這些任務(wù)使用了相同的ROI，因此總共對8個ROI進行了可靠性評估。為了進一步可視化可靠性的全局模式，我們還使用AFNI軟件中的3dICC_REML.R函數(shù)計算了ICC(3,1)的體素映射。最后，為了提供一個評估任務(wù)態(tài)fMRI可靠性的基準(zhǔn)，作者確定了結(jié)構(gòu)像常用的三種重測可靠性：皮質(zhì)厚度和360個分割或ROI各自的表面積，以及17個皮層下結(jié)構(gòu)的灰質(zhì)體積。

3結(jié)果

3.1任務(wù)態(tài)fMRI個體差異的可靠性:一項系統(tǒng)綜述和元分析

本文納入了56篇符合元分析標(biāo)準(zhǔn)的文章，從90個不同的子研究的1088個參與者中得出1146個ICC估計值，采用66種不同的任務(wù)態(tài)fMRI范式(Fig. 2)。這些論文共被引2686次，平均每篇被引48次，每年每篇被引5.7次。在篩選文獻過程中，作者發(fā)現(xiàn)一些研究人員計算了許多不同的ICCs(跨越多個ROI、對比和任務(wù))，但只報告了在統(tǒng)計上顯著或者達到最小閾值的ICC，而這種做法會夸大可靠性估計。因此，作者還對無閾值化和閾值化的數(shù)據(jù)分別進行了分析。

圖2. 系統(tǒng)文獻綜述及元分析流程圖

圖3. 元分析森林圖顯示了每項研究中報告的所有組內(nèi)相關(guān)系數(shù)(ICCs)對每項任務(wù)態(tài)fMRI測量的重測可靠性估計。第一欄按第一作者的姓和出版年份標(biāo)明每篇文章。這里列出的所有文章的參考資料都在網(wǎng)上的補充材料中提供。在被試類型欄中，h表示本研究中的樣本由健康對照組組成，c表示臨床樣本。所有研究被分為兩組。在第一組研究中，作者報告了所有計算過的ICCs，從而允許相對無偏倚的可靠性估計。在第二組研究中，作者選擇了計算ICCs的一個子集(基于ICC的量級或另一個非獨立統(tǒng)計數(shù)據(jù))，然后只報告該子集中的ICCs。這種做法會導(dǎo)致可靠性估計的夸大，因此這些為這些研究分別進行了元分析，以強調(diào)這種偏差。誤差條表示95%置信區(qū)間（CIs）。MID = 金錢獎勵間隔，LH = 左手，RH = 右手。

圖3顯示了來自77個報告無閾值化的子研究的重測可靠性系數(shù)(ICCs)(平均值N = 19.6，中位數(shù)N = 17)。56%的數(shù)值可靠性較差(低于0.4)，另外24%的數(shù)值可靠性尚可(0.4-0.6)，只有20%的可靠性達到良好或極好的范圍(0.75以上)。隨機效應(yīng)元分析顯示，平均ICC為0.397(95% CI =[.330–.460], p < .001)，處于較差的范圍。研究間存在異質(zhì)性(p = 0.04, I² = 31.6)。

正如預(yù)期的那樣，對于13個有超過最低閾值的子研究（平均值N =24.2，中位數(shù)N =18）進行元分析，結(jié)果顯示，ICC的值更高，為0.705(95% CI = [0.628–0.768], p < .001,I ² = 17.9)。這個值是那些無閾值化研究ICCs估計值的1.78倍，可靠性良好，這表明進行閾值化會夸大任務(wù)態(tài)fMRI的可靠性。沒有證據(jù)表明研究間存在異質(zhì)性(p = 0.54, I ² = 17.9).。

所有亞研究的調(diào)節(jié)分析顯示，基于閾值ICC的研究的可靠性顯著更高，Q_M(1) = 6.531, p = 0.010， β = 0.140。此外，位于皮層的ROI的ICCs顯著高于皮層下的，Q_M(1) = 114.476, p <0.001， β = 0.259。然而，沒有證據(jù)表明元分析的估計受到任務(wù)類型、任務(wù)設(shè)計、任務(wù)長度、重測間隔、ROI類型、樣本類型或每年被引用次數(shù)的調(diào)節(jié)。最后，使用Egger隨機效應(yīng)回歸檢驗發(fā)表偏倚，結(jié)果未發(fā)現(xiàn)有發(fā)表偏倚(Z = 0.707, p = 0.480).

元分析的結(jié)果雖然具有啟發(fā)性但解釋起來并不簡單。首先，可靠性的估計來自大量的任務(wù)和樣本，因此單一的元分析可靠性估計可能會掩蓋真正可靠的任務(wù)態(tài)fMRI范式。其次，這些研究使用了不同的掃描儀(有些已經(jīng)過時)和不同的預(yù)處理和分析管道，為了解決這些限制，作者進一步分析了兩個新的數(shù)據(jù)集(這兩個數(shù)據(jù)集使用最先進的掃描儀和分析手段)來評估常用的認(rèn)知和情感任務(wù)中的個體差異。

3.2 任務(wù)態(tài)fMRI中個體差異的可靠性:在兩個新的數(shù)據(jù)集中分析

本文評估了11個常用fMRI任務(wù)的先驗ROI激活的重測可靠性(見方法部分)。在HCP中，45名參與者使用定制的3T掃描儀(西門子，慕尼黑，德國)掃描了兩次，平均間隔140天(SD = 67.1天)，使用了七個任務(wù)，目標(biāo)是情感、獎勵、執(zhí)行功能、運動、語言、社會認(rèn)知和關(guān)系處理。在Dunedin 研究中，20名參與者使用3T西門子Skyra掃描了兩次，平均間隔79天(SD = 10.3天)，使用了四個以情緒、獎勵、執(zhí)行功能和情景記憶為目標(biāo)的任務(wù)。該樣本量與meta分析研究中使用的平均樣本量相對應(yīng)。在兩項研究中，有三個任務(wù)是相似的，允許我們測試任務(wù)態(tài)fMRI可靠性的可重復(fù)性。對于兩項研究中的其他8個任務(wù)，確定了每個任務(wù)的主要目標(biāo)區(qū)域，總共有8個先驗ROI(參見方法部分)。

3.2.1 組水平激活

為了確保這11個任務(wù)被正確地實現(xiàn)和處理，我們對每個任務(wù)中感興趣的對比重新進行計算，分析結(jié)果表明，每一個任務(wù)在目標(biāo)ROI上組水平的激活是穩(wěn)健的（三個共同的任務(wù)見圖4，其他任務(wù)見附錄圖S4）。

圖４.HCP和Dunedin研究中使用的三種任務(wù)態(tài)fMRI測量的全腦激活和可靠性圖。對于每個任務(wù)，主要的被試內(nèi)對比(t分?jǐn)?shù))的全腦激活圖以暖色顯示(上)，被試間的可靠性(ICC)的全腦激活圖以冷色顯示(下)。對于每個任務(wù)，感興趣的目標(biāo)區(qū)域用天藍色標(biāo)出。激活圖的閾值為p<0.05，并使用無閾值聚類增強對多次比較進行全腦校正。ICC映射圖被閾值化，這樣ICC小于0.4的體素就不會被著色。X、Y和Z的值在MNI坐標(biāo)中給出。

3.2.2 目標(biāo)區(qū)域激活的可靠性

作者用四個步驟研究了兩個數(shù)據(jù)集中任務(wù)激活的可靠性。首先，測試了每個任務(wù)在目標(biāo)ROI中激活的可靠性。其次，評估了每個任務(wù)在其他七個先驗ROI中激活的可靠性。這樣做是為了測試目標(biāo)ROI的可靠性是否高于其他(非目標(biāo))大腦區(qū)域激活的可靠性，并確定任何具有持續(xù)高可靠性的任務(wù)或區(qū)域。第三，分別使用左腦和右腦的激活來重新評估可靠性，以測試對兩腦的平均是否會削弱對可靠性的估計。第四，測試了可靠性是取決于結(jié)構(gòu)上的ROI(使用解剖圖譜)還是功能上的ROI(使用基于峰值活動位置的一組體素)。

3.2.3 HCP數(shù)據(jù)集中區(qū)域激活的可靠性。

首先，如圖5中黑色圈出的估計值所示，HCP中解剖定義的目標(biāo)ROI的激活在七個fMRI任務(wù)中具有較低的可靠性（平均 ICC = 0.251, 95% CI = [0.142–0.360])。只有語言處理任務(wù)的可靠性高于0.485。沒有任何的可靠性達到良好范圍(ICC>0.6)。第二，非目標(biāo)ROI中任務(wù)激活的可靠性也較低(圖5; 平均ICC = 0.239, 95% CI = [0.188–0.289])，但也并未低于目標(biāo)ROI的可靠性(p=0.474)。第三，從左、右ROI分別計算的任務(wù)激活可靠性與從平均ROI估算的可靠性相似(目標(biāo)ROI的左ICC平均值為0.207，非目標(biāo)ROI為0.196，目標(biāo)ROI的右ICC平均值為0.259，非目標(biāo)ROI為0.236)。第四，功能定義的ROI任務(wù)激活的可靠性也很低(平均ICC = 0.381, 95% CI =[0.317-0 .446])，只有運動任務(wù)和社會任務(wù)的ICCs大于0.4 (ICCs分別為.550和.446)。

另外，為了考慮HCP中存在的家庭結(jié)構(gòu)，在去掉測試樣本中的每個兄弟姐妹/雙胞胎對中的一個后，作者重新估計了可靠性。26個不相關(guān)個體的亞樣本中雙側(cè)解剖ROI的可靠性與整體樣本的可靠性非常相似（目標(biāo)ROI的平均ICC=0.301，非目標(biāo)ROI ICC =0.218）.

圖5 分別為HCP（左）和Dunedin研究（右）11個常用的任務(wù)態(tài)fMRI和3種常用的結(jié)構(gòu)MRI測量的區(qū)域激活的重測可靠性。對于每一項任務(wù)，在先驗?zāi)繕?biāo)感興趣區(qū)域(ROI; 黑色圈出)和從其他任務(wù)中選擇的非目標(biāo)ROI中估計組內(nèi)相關(guān)系數(shù)ICC。非目標(biāo)ROI為前顳葉(ATL)、背外側(cè)前額葉皮層(dlPFC)、中央前回(PCG)、前外側(cè)前額葉皮層(rlPFC)和腹側(cè)紋狀體(VS)。作為基準(zhǔn)，三種常見的MRI結(jié)構(gòu)測量方法皮質(zhì)厚度(CT)、表面積(SA)和皮層下體積的ICCs被描繪為小提琴圖，分別代表CT和SA的360個分割和灰質(zhì)體積的17個皮層下結(jié)構(gòu)的ICCs的分布。為了可視化將ICC為負(fù)值的設(shè)置為0。EF=執(zhí)行功能

3.2.4 Dunedin研究中區(qū)域激活的可靠性

首先，如圖5中黑色圈出的估計值所示，在Dunedin研究中，四個任務(wù)中每個解剖定義目標(biāo)ROI的激活都具有較低的可靠性(平均ICC = .309, 95% CI =[0.145-0 .472])，沒有ICCs達到良好范圍(ICC >0.6)。其次，非目標(biāo)ROI中激活的可靠性也很低(圖5;平均ICC = 0.193, 95% CI =[0.100 -0.286])，但并不顯著低于目標(biāo)ROI的可靠性(p = 0.140)。第三，分別計算左、右半腦任務(wù)激活的可靠性，結(jié)果與平均ROI的可靠性相似(目標(biāo)ROI的左ICC均值為0.243，非目標(biāo)ROI為0.202;目標(biāo)ROI的右ICC均值為0.358，非目標(biāo)rROIoi為0.192)。第四，功能定義的ROI也并沒有顯著提高可靠性(平均ICC = 0.325, 95% CI =[0.197-0.453])。

3.2.5 結(jié)構(gòu)測量的可靠性

作者還調(diào)查了三種常用的結(jié)構(gòu)MRI測量的可靠性:皮層厚度、表面積和皮層下灰質(zhì)體積，以便為評估任務(wù)fMRI的重測可靠性提供基準(zhǔn)。與先前的研究證據(jù)一致，結(jié)構(gòu)MRI表型具有極好的可靠性(即ICCs>0.9)，本文結(jié)果表明，目前樣本中的全腦和區(qū)域結(jié)構(gòu)MRI測量有非常高的重測可靠性(圖5)。對于平均皮質(zhì)厚度，在HCP和Dunedin研究數(shù)據(jù)集中，ICCs分別為0.953和0.939。在HCP中，分區(qū)（parcel-wise）皮層厚度的可靠性平均值為0.886（range=0.547-0.964）, ICC高于“一般”閾值占100%，98.6%高于“良好”閾值，94.2%高于“極好”閾值。在Dunedin研究中，parcel-wise皮層厚度的可靠性平均值為0.846（range=0.385-0.975），99.7%的ICCs高于“一般”閾值，96.4%高于“良好”閾值，84.7%高于“極好”閾值。對于表面積，HCP和Dunedin數(shù)據(jù)集的ICCs分別為0.999和0.996。在HCP中，parcel-wise表面積的平均ICCs為0.937（range=0.526-0.992），ICC的值100%高于“一般”閾值，98.9%高于“良好”閾值，96.9%高于“極好”閾值。在Dunedin研究中，表面積的平均ICCs為0.942（range=0.572-0.991），ICC高于“一般”閾值占100%，99.7%高于“良好”閾值，98.1%高于“極好”閾值。對于皮層下灰質(zhì)體積，HCP的平均ICCs為0.903（range=0.791-0.984），所有的ICCs都高于“極好“閾值。在Dunedin研究中，ICCs的平均值為0.931（range=0.767-0.979）,也是所有的ICCs都高于“極好”閾值。

4 討論

本文的研究證據(jù)表明，常用的任務(wù)態(tài)fMRI測量不具有發(fā)現(xiàn)生物標(biāo)記物或大腦行為映射所必需的重測可靠性。對任務(wù)態(tài)fMRI可靠性的元分析顯示，重測的平均可靠性系數(shù)為0.397，低于良好可靠性所需的最小值(ICC = 0.6)，遠低于臨床應(yīng)用(ICC = 0.8)或個體水平解釋（ICC = 0.9）的推薦臨界值。不過，也并不是所有的任務(wù)態(tài)fMRI測量方法都是一樣的，也不可能對fMRI研究中收集的所有測量個體差異的方法產(chǎn)生一個單一的可靠性估計。然而，本研究的結(jié)果表明，任務(wù)類型、任務(wù)長度或重測間隔對任務(wù)態(tài)fMRI的可靠性不具有顯著影響。

本文還評估了HCP和Dunedin 研究中11種常用的任務(wù)態(tài)fMRI的測量可靠性。與meta分析中包含的許多研究不同，這兩項研究是最近在現(xiàn)代掃描儀上完成的，使用了前沿的采集參數(shù)、最新的偽跡去除方法和最先進的預(yù)處理管道。然而，平均的重測可靠性也很差（ICC=0.228）。在這些分析中，并未發(fā)現(xiàn)針對特定任務(wù)的目標(biāo)ROI的可靠性會比非目標(biāo)ROI更好（目標(biāo)ROI平均ICC為0.270，非目標(biāo)ROI為0.228），以及并未發(fā)現(xiàn)任何特定任務(wù)或目標(biāo)ROI能夠始終產(chǎn)生高的可靠性。有趣的是，這兩項研究的可靠性估計比元分析的估計要小得多(元分析ICC = 0.397)，可能是因為預(yù)注冊的分析通常比未預(yù)注冊的出版文章的分析產(chǎn)生更小的效應(yīng)量。

4.1 fMRI研究中的兩種方法

本文的研究結(jié)果可以追溯到Lee Cronbach在1957年發(fā)表的一篇經(jīng)典文章，他在文中描述了科學(xué)心理學(xué)的兩個方法。根據(jù)Cronbach的說法，實驗方法致力于通過實驗控制和組平均來揭示人類普遍的特征和能力，而相關(guān)方法則致力于通過測量人與人之間的差異來解釋個體之間的差異。這兩種方法的一個基本區(qū)別是如何對待個體差異。對于實驗研究來說，個體間的差異是一種誤差，必須將其最小化，才能檢測出最大的實驗效應(yīng)。對于相關(guān)研究而言，個體間的差異是分析的主要單位，必須仔細測量，以提取可靠的個體差異。

目前的任務(wù)態(tài)fMRI范式很大程度上來自于實驗方法。設(shè)計任務(wù)態(tài)fMRI范式來揭示人類大腦對刺激的一般反應(yīng)，同時最小化被試間的差異。能夠在群體水平上誘發(fā)穩(wěn)健的定向大腦活動的范式，隨后被轉(zhuǎn)化為評估個體差異的工具。因此，被試內(nèi)的穩(wěn)健性經(jīng)常被不恰當(dāng)?shù)赜脕戆凳颈辉囬g的可靠性，但是研究者們卻忽略了這樣一個事實，即不可靠的被試間測量也能在群體水平上產(chǎn)生可靠的被試內(nèi)實驗效應(yīng)。

這一推理并不是任務(wù)態(tài)fMRI研究所獨有的。在被試內(nèi)部(即群體)產(chǎn)生強效應(yīng)的行為測量方法在被試間具有較低的信度，例如，Stroop測試的平均重測可靠性（ICC=0.45）與本文的任務(wù)態(tài)fMRI元分析的平均信度大小（ICC=0.397）是如此的相似。不過，MRI測量，甚至BOLD信號本身，也并非都是不可靠的。在我們的分析中，結(jié)構(gòu)MRI測量(見圖5)，以及從fMRI長時掃描中估計的內(nèi)在功能連通性測量，都顯示了較高的重測可靠性。因此，問題不在于工具本身，而在于所使用的策略（采用認(rèn)知神經(jīng)科學(xué)實驗所開發(fā)的任務(wù)），這種策略對于可靠的測量人與人之間大腦激活的差異似乎不太適合。

4.2建議和未來的研究方向

在接下來的部分，作者提出了幾種方法來最大化實現(xiàn)現(xiàn)有數(shù)據(jù)集的價值，并進一步提高fMRI任務(wù)的可靠性。首先提出兩項可以立即實施的建議，另外兩項則是需要收集更多數(shù)據(jù)以及進行創(chuàng)新。

4.2.1 任務(wù)態(tài)fMRI的即時機會:從大腦熱點到全腦特征。

目前，大多數(shù)任務(wù)態(tài)fMRI測量是基于從ROI中提取的條件之間的對比(即變化分?jǐn)?shù))。然而，條件間變化分?jǐn)?shù)的可靠性不僅總是低于其組合分?jǐn)?shù)的可靠性，還會破壞任務(wù)態(tài)fMRI測量的可靠性。然而，從ROI中提取的基于對比的激活值只是從任務(wù)態(tài)fMRI數(shù)據(jù)中獲得個體差異的其中一種測量方法。例如，通過利用任務(wù)態(tài)fMRI數(shù)據(jù)中的高維信息，一些多變量方法可以增加測量的可靠性和預(yù)測效用。比如，可以通過以下方法來提高任務(wù)態(tài)fMRI的可靠性:使用潛變量模型，使用多體素模式分析測量表征空間中的個體差異，訓(xùn)練交叉驗證的機器學(xué)習(xí)模型(通過預(yù)測獨立樣本中的個體差異來建立可靠性)。此外，任務(wù)態(tài)fMRI可以與靜息態(tài)fMRI相結(jié)合，產(chǎn)生可靠的內(nèi)在連通性測量。

4.2.2建立一個報告任務(wù)態(tài)fMRI測量可靠性的規(guī)范

心理科學(xué)的可重復(fù)性說明了快速變化的規(guī)范如何影響研究的實踐和標(biāo)準(zhǔn)。近年來，對假設(shè)和分析方法的預(yù)注冊研究已經(jīng)越來越受歡迎。作者認(rèn)為在發(fā)現(xiàn)生物標(biāo)記物和大腦行為映射的背景下，類似的規(guī)范將有利于發(fā)展任務(wù)態(tài)fMRI。尤其是研究人員在研究個體差異時應(yīng)該報告所有任務(wù)態(tài)fMRI測量的可靠性。然而，鑒于相關(guān)性在大約150個觀測值時開始趨于穩(wěn)定，研究人員如果要有足夠的信心獲得對任何特定任務(wù)的可靠性，則需要收集更大的重測數(shù)據(jù)集。本文提供的證據(jù)表明，任務(wù)態(tài)fMRI文獻報告的可靠性通常較低，由于這些報告里的重測樣本規(guī)模相對較小，因此對其可靠性的結(jié)論需謹(jǐn)慎對待。為了追求精確的可靠性估計，研究人員必須收集更大的重測樣本，探索影響重測可靠性的調(diào)節(jié)變量（比如，重測間隔)，并避免可能由于循環(huán)的統(tǒng)計分析造成對可靠性估計的夸大。

研究人員還可以提供被試間的可靠性，即內(nèi)部一致性。雖然重測可靠性提供了一種隨時間變化的穩(wěn)定性估計，適合對性狀和生物標(biāo)記物的研究，但這種估計較為保守，需要額外的數(shù)據(jù)收集，并且可能會受到習(xí)慣化效應(yīng)以及快速波動的影響。在某些情況下，內(nèi)部一致性更實用，因為它更經(jīng)濟且不需要額外的數(shù)據(jù)收集，可以用于任何情況下的任務(wù)態(tài)fMRI測量。內(nèi)部一致性特別適合那些預(yù)期會迅速變化的短暫的心理狀態(tài)（比如當(dāng)下的情緒和思想）。然而，僅內(nèi)部一致性不足以作為預(yù)后的生物標(biāo)志物。建立一種明確報告測量可靠性的規(guī)范將增加任務(wù)態(tài)fMRI測量結(jié)果的可重復(fù)性，并加速生物標(biāo)志物的發(fā)現(xiàn)。

4.2.3來自更多人的更多數(shù)據(jù)

使用任務(wù)態(tài)fMRI來可靠的檢測個體差異的能力，在一定程度上取決于兩個互補的因素:(a)每個研究的人數(shù)更多，(b)每個人的數(shù)據(jù)更多。有人認(rèn)為神經(jīng)科學(xué)的檢驗效力通常不夠，尤其是小樣本量會破壞fMRI的研究。本文的研究結(jié)果表明，這種檢驗效力的不足可能會被任務(wù)態(tài)fMRI測量的低可靠性進一步復(fù)雜化。fMRI研究樣本量的中位數(shù)是28.5。然而，如圖1所示，ICCs為0.397(元分析平均信度)的任務(wù)態(tài)fMRI測量的樣本量需要214個以上，大腦和行為之間0.3的相關(guān)性的檢驗效力才能達到80%。如果r為0.1（在心理學(xué)研究中0.1是一個小的效應(yīng)），要達到足夠的檢驗效力其總樣本量需要超過2000個。作者認(rèn)為增加任務(wù)態(tài)fMRI研究的樣本量，并考慮到檢驗效力的分析，對于使用任務(wù)態(tài)fMRI提高個體差異研究的可重復(fù)性具有重要意義。

如果沒有更高的可靠性，任務(wù)態(tài)fMRI測量將無法提供在個體層面上具有意義的生物標(biāo)記物。提高任務(wù)態(tài)fMRI可靠性的另一個有效方法是每個人收集更多的數(shù)據(jù)。這種方法已被證明可以提高功能連接的可靠性，初步的研究表明，這可能也適用于任務(wù)態(tài)fMRI。從實際出發(fā)，收集額外的fMRI數(shù)據(jù)對被試是一種負(fù)擔(dān)，特別是在兒童和臨床人群中，更長的掃描時間通常有更多的數(shù)據(jù)偽影，特別是運動的增加。自然的fMRI技術(shù)是解決這一挑戰(zhàn)的一個潛在方案。在自然的fMRI中，參與者在掃描時觀看刺激豐富的電影，而不是完成傳統(tǒng)的認(rèn)知神經(jīng)科學(xué)任務(wù)。初步研究表明，觀看電影對被試來說是非常有吸引力的，研究者不僅能收集到更多的數(shù)據(jù)，而且被試的運動也會更少。作者認(rèn)為，通過強調(diào)生態(tài)有效性而不是實驗控制，甚至有可能更好地發(fā)現(xiàn)大腦活動的個體差異。在尋求與疾病風(fēng)險有關(guān)的大腦生物標(biāo)記物的研究領(lǐng)域里開展大規(guī)模的神經(jīng)成像研究，保證對fMRI心理測量可靠性的信心是至關(guān)重要的，而這將需要資助者倡導(dǎo)和支持研究人員從更多人那里收集更多的數(shù)據(jù)。

4.4.4優(yōu)化測量的可靠性和有效性

與其繼續(xù)采用那些由強調(diào)被試內(nèi)效應(yīng)的實驗發(fā)展而來的fMRI任務(wù)，作者認(rèn)為我們需要從頭開發(fā)新的任務(wù)(和自然刺激)，以優(yōu)化它們在個體差異研究中的效用(即被試間效應(yīng))。心理測量學(xué)為開發(fā)可靠的個體差異測量提供了許多工具和方法，這些方法在任務(wù)態(tài)fMRI開發(fā)中尚未得到充分利用?？梢愿鶕?jù)這些工具和方法最大限度區(qū)分人群或產(chǎn)生可靠的被試間差異的能力來選擇fMRI任務(wù)中的刺激。正如前文所提到的，可以采用項目分析、潛變量建模和內(nèi)部一致性測量等心理測量工具來優(yōu)化可靠的任務(wù)態(tài)fMRI測量。
5結(jié)論

任務(wù)態(tài)fMRI研究的一個主要目標(biāo)是識別異常的大腦活動，這有助于大腦疾病的診斷、預(yù)后和治療。本文發(fā)現(xiàn)，若要實現(xiàn)這一目標(biāo)，常用的任務(wù)態(tài)fMRI測量方法缺乏最低的可靠性標(biāo)準(zhǔn)。為了測量可靠的個體間變異，需要設(shè)計和優(yōu)化任務(wù)態(tài)fMRI范式。由于任務(wù)態(tài)fMRI研究面臨著可重復(fù)性挑戰(zhàn)，因此也必須強調(diào)測量可靠性的重要性。在個性化醫(yī)療和神經(jīng)科學(xué)的精確化時代，需要資金進行新穎的fMRI研究，并且這種fMRI研究需要具備產(chǎn)生臨床可操作知識所需的心理測量的嚴(yán)謹(jǐn)性。
如需原文及補充材料請?zhí)砑铀加翱萍嘉⑿牛?/span>siyingyxf或18983979082獲取,如對思影課程及服務(wù)感興趣也可加此微信號咨詢。另思影提供免費文獻下載服務(wù)，如需要也可添加此微信號入群，原文也會在群里發(fā)布，如果我們的解讀對您的研究有幫助，請給個轉(zhuǎn)發(fā)支持以及右下角點擊一下在看，是對思影科技的支持，感謝！

微信掃碼或者長按選擇識別關(guān)注思影

非常感謝轉(zhuǎn)發(fā)支持與推薦
歡迎瀏覽思影的數(shù)據(jù)處理業(yè)務(wù)及課程介紹。（請直接點擊下文文字即可瀏覽思影科技所有的課程，歡迎添加微信號siyingyxf或18983979082進行咨詢，所有課程均開放報名，報名后我們會第一時間聯(lián)系，并保留已報名學(xué)員名額）：

核磁：

上海：

第六十九屆磁共振腦影像基礎(chǔ)班（上海，11.4-9）

第十四屆任務(wù)態(tài)功能磁共振數(shù)據(jù)處理班（上海，11.30-12.5）

第十一屆腦網(wǎng)絡(luò)數(shù)據(jù)處理提高班（上海，12.15-20）
第七屆影像組學(xué)班(上海，12.22-27)

重慶：
第二十八屆彌散成像數(shù)據(jù)處理班（重慶，11.5-10）
第六屆彌散磁共振成像提高班（重慶，11.17-22）
第二十三屆磁共振腦影像結(jié)構(gòu)班（重慶，11.27-12.2）
第二十五屆腦影像機器學(xué)習(xí)班（重慶，12.5-10）
第七十三屆磁共振腦影像基礎(chǔ)班（重慶，12.20-25）

北京：
第七十二屆磁共振腦影像基礎(chǔ)班（北京，11.9-14）
第六屆影像組學(xué)班（北京，11.25-30）
第三十四屆磁共振腦網(wǎng)絡(luò)數(shù)據(jù)處理班（北京，12.3-8）

南京：
第七十一屆磁共振腦影像基礎(chǔ)班（南京，11.12-17）
第二十九屆彌散成像數(shù)據(jù)處理班（南京，11.19-24）
第二十六屆腦影像機器學(xué)習(xí)班（南京，12.9-14）
腦電及紅外、眼動：上海：
第三十六屆腦電數(shù)據(jù)處理中級班（上海，11.13-18）
第二十八屆腦電數(shù)據(jù)處理入門班（上海，11.20-25）

第二十五屆近紅外腦功能數(shù)據(jù)處理班（上海，12.7-12）

北京：
第五屆R語言統(tǒng)計班（北京，11.16-20）

第三十九屆腦電數(shù)據(jù)處理中級班（北京，12.13-18）

上一篇 | 基于圖論的腦功能連通性腦電圖建模

下一篇 | Nature Medicine：腿部截肢者感覺反饋的修復(fù)改善了其行走速度、代謝消耗和幻肢疼痛