實驗

實驗（粵拼：sat6 jim6 | 英文：experiment）係一種研究方法，指研究者唔淨只齋靠觀察研究緊嘅事物，仲做咗啲嘢嚟操作研究嘅對象。精確啲噉講，做實驗嘅人會操控自變數（IV）－即係用人工方法改變 IV 嘅值，再睇吓噉做會點影響應變數（DV）嘅值，從而去支撐或者推翻一句假說^[1]^[2]。

舉個簡化嘅例子，例如係時間膨脹嘅假說噉。愛因斯坦嘅狹義相對論主張，當一嚿物體郁嘅速度（ $v$ ）愈近光速（ $c$ ），嚿物體過嘅時間就會愈慢。要驗證時間膨脹，研究者可以做噉嘅實驗：想像佢哋擺個原子鐘喺架好勁嘅火箭裏面，開大架火箭嘅引擎，令架火箭飛得好快（有咁上下接近光速）；喺呢場實驗入面^[3]^[4]，

速度就係 IV（俾研究者人工噉操控），
而個原子鐘度嘅過咗幾耐時間就係 DV（研究者淨係量度咗呢個變數，冇直接操控佢嘅值）

－想像架火箭飛完一輪之後研究者再攞架火箭裏面個原子鐘睇，攞佢同一個由始至終都喺地球表面唔郁嘅原子鐘比較吓，睇吓以接近光速飛過嘅原子鐘係咪真係會行得慢咗，如果唔係嘅話，就會推翻時間膨脹嘅假說^{[註 1]}。

實驗係現代科學不可或缺嘅一環：實驗呢種研究方法最大嘅優點係可以搵出事物之間嘅因果關係^[5]，而要達到科學嘅終極目標－對宇宙有完全嘅理解－就實要知道事物之間嘅因果關係；所以無論自然科學定社會科學都會用到實驗，而喺呢啲領域上做研究嘅人都實會學實驗設計嘅嘢^[1]。

定義

X

同

Y

呢兩個變數睇得出係大致上成正比，但噉唔表示佢哋之間有因果關係。

喺現代科學上，實驗係種用嚟驗證假說（簡化講就係科學上一啲未確定嘅諗法）嘅研究方法。定義上，實驗嘅特徵係會用到實驗操作^{[英 1]}嚟確立因果關係。

想像家陣有位經濟學研究者想研究消費者嘅衝動買嘢行為，佢齋靠觀察做研究，佢觀察咗一大拃消費者之後，發覺一位消費者睇廣告嘅頻率（ $X$ ）愈高，就愈容易出現衝動買嘢嘅行為（ $Y$ ）－用統計學行話講，佢發現 $X$ 同 $Y$ 之間有正嘅統計相關 $\operatorname {corr} (X,Y)>0$ ，但就算佢搵到噉嘅結果，佢都唔知 $X$ 同 $Y$ 之間邊個係因邊個係果，因為有最少三個可能性可以解釋個結果，而且佢覺得三個可能性都係理論上有可能^[6]^[7]：

睇廣告睇得多會令人成日諗住買嘢，令佢哋多咗衝動買嘢（ $X$ 引致 $Y$ ）；
一個人衝動買嘢得多，會令佢成日走去睇廣告同第啲買嘢相關嘅資訊（ $Y$ 引致 $X$ ）
一個人性格上鍾意消費，令佢鍾意去睇廣告等嘅買嘢相關資訊同埋容易衝動買嘢（有第三個變數同時引致 $X$ 同 $Y$ ）；

噉嘅問題就係所謂嘅相關唔蘊含因果^{[英 2]}。為咗解決呢個問題，研究者可以做返場實驗－佢可以特登操作 $X$ 再睇吓 $Y$ 會點受影響，即係例如佢搵班受試者返實驗室度，將佢哋隨機噉分做 A 組同 B 組（實驗組同對照組^[8]），然後再

俾 A 組喺實驗室入面用成粒鐘嘅時間一路勁睇廣告，
而 B 組就喺實驗室入面用一粒鐘嘅時間睇非廣告嘅出版物，

位研究者喺場實驗入面操作咗「睇廣告」呢個變數（IV），如果佢最後發覺 A 組「事後衝動買嘢嘅機率」（DV）高過 B 組嘅，佢就有理由否決「睇廣告唔能夠引起衝動買嘢行為」呢句假說，即係確立咗 $X$ 係可以引致 $Y$ 嘅－支撐到一句講明變數之間嘅因果關係嘅假說^{[註 2]}。

實驗喺自然科學同社會科學上都會用到－「如果我操控咗變數 $X$ 就睇到變數 $Y$ 跟住變，就知 $X$ 可以引致 $Y$ 」呢條思路，無論研究對象係普遍嘅物質（化學）、生物（生物學）定係人類行為（心理學）都會成立^{[註 3]}，所以呢啲咁多唔同領域嘅研究者都會用到實驗嚟求知^[8]。

實驗設計

實驗可以按設計分類，最基本上包括：

多組實驗

實驗其中一種最簡單嘅做法係將樣本^{[英 3]}（泛指攞嚟做研究嘅個體）分做實驗組同對照組兩組：想像家陣有位醫學研究者，佢想同隻新藥做臨床試驗，即係試吓隻藥掂唔掂（醫唔醫到佢想醫嗰隻病），於是佢就搵 $n$ 咁多位有嗰隻病嘅人返嚟，再將啲病人隨機噉分做兩組，兩組人數一樣－

實驗組嘅受試者食隻新藥；
對照組嘅受試者食隻安慰劑（一隻已知冇效嘅藥），而且隻安慰劑特登整到外形上同隻新藥一樣；

喺呢場實驗裏面，IV 係「有冇食隻藥」，而過咗一段時間之後，位研究者再同班受試者做檢查，睇吓佢哋病情點（DV：病情）；如果研究者發覺過咗段時間之後，實驗組嘅病情明顯好過對照組，佢就有理由主張話隻新藥真係有效^[9]^[10]。

T 測試

數學化啲噉睇，實驗組同對照組個諗頭可以用獨立樣本 t 測試^{[英 4]}嘅方法想像：以下嗰兩幅圖嘅 X 軸表示個 DV 嘅數值，而 Y 軸就表示每個 DV 可能值出現得幾密，藍線表示實驗組嘅分佈，紅線就表示對照組嘅分佈，

上圖係表示「兩組冇乜太大差異」嘅情況－實驗組出現得最密嗰個值（設做 $\mu _{1}$ ；條線最高嗰點）係就係低過對照組嘅（ $\mu _{2}$ ），但 $\mu _{1}-\mu _{2}$ 數值唔係咁大；
下圖係表示「兩組有比較明顯嘅差異」嘅情況－ $\mu _{1}$ 同 $\mu _{2}$ 之間嘅差異明顯大過上圖嘅；

喺統計學上，研究者仲有得用條式計返個 $T$ 值出嚟，個 $T$ 值簡單講就係反映咗兩組之間嘅差異「有幾明顯」， $T$ 數值愈大就表示兩組差異愈明顯，噉位研究者愈有理由相信兩組之間真係有差異嘅－用返頭先試新藥嘅例子，假設實驗組病情好過對照組，而且兩組「有明顯差異」，佢就有強嘅理由話隻藥真係掂嘅。上述呢個情況淨係考慮將受試者分兩組嘅情況（組嘅數量 = 2），但當組嘅數量 = 3 或者以上嗰陣，呢種思路一樣會行得通，例如想像研究者想同時試兩隻新藥，比較兩隻新藥嘅效果（受試者分三組－對照組、實驗組 1 同實驗組 2）^[9]^[10]。

有關呢啲統計分析嘅細節，可以睇吓 T 測試同 ANOVA 相關嘅內容。

實驗組同對照組喺個變數上各有個分佈（藍色線同紅色線）；上圖顯示兩組差異細－組之間嘅差異（由

\mu _{1}-\mu _{2}

反映）同組內部差異比起嚟好細，而下圖顯示兩組差異大。組嘅數量 = 3 或者以上（ANOVA）嗰陣可以用同樣方法想像。

析因實驗

附圖；一場 2 × 2 析因實驗嘅圖解

析因實驗^{[英 5]}係指場實驗涉及多過一個自變數受操作：喺習慣上，一場析因實驗會係 $m_{1}\times m_{2}\times ...m_{n}$ 噉嘅樣，當中每個 $m$ 都表示其中一個自變數有幾多層，而 $n$ 就係自變數嘅數量；舉個具體例子，想像家陣有位生物化學研究者想研究某一隻有機物質 sub 喺隨時間會點變化呢點上會唔會受曝露喺環境當中影響，佢可以做場實驗，場實驗會考慮 4 個情況（附圖）：

1a：空樽 A 裝住咗嚿 sub，而個樽口冇任何嘢冚住（接觸到周圍環境）；
1b：空樽 A 擺喺周圍有空氣嘅環境下擺 $t$ 咁耐時間；
2a：空樽 B 同空樽 A 完全一個板，唯一分別係空樽 B 攞個蓋封死咗（同周圍環境隔絕）；
2b：空樽 B 擺喺周圍有空氣嘅環境下擺 $t$ 咁耐時間；

佢發覺過咗 $t$ 咁耐時間之後，空樽 A 惹咗好多昆蟲（比較 1a 同 1b），但空樽 B 就咩生物都冇惹到（比較 2a 同 2b）－噉即係話曝露喺環境當中同時間（IV）會結合噉影響嚿 sub 嘅狀態（DV）。上述個例子有兩個 IV，而且兩個 IV 都係「有兩層」－

「曝露喺環境當中」嘅可能值係有同冇，
而時間（喺呢場實驗裏面）嘅可能值得開始嗰陣同過咗 $t$ 咁耐之後，

所以場實驗係一場 $2\times 2$ 析因實驗，而有兩個 IV 嘅析因實驗通常會攞某啲型式嘅雙因子 ANOVA 嚟分析實驗數據^[11]。同一道理，一場 $3\times 2$ 析因實驗係有兩個 IV，第一個 IV 有三層，第二個IV 有兩層；一場 $2\times 2\times 2$ 析因實驗係有三個 IV，每個 IV 都有兩層... 如此類推^[12]。

部份析因

喺現實嘅科研上仲有所謂嘅部份析因設計^{[英 6]}，即係由一場析因實驗入面淨係揀一部份嘅情況出嚟睇：想像家陣有位醫學嘅研究者做一場 $2\times 2\times 2$ 嘅析因實驗，研究者想睇三種唔同療法（嗌呢幾種療法做 a、b 同 c）獨立用嗰陣同結合用嗰陣嘅療效，所以佢就打算做噉嘅安排：

對照組受試者咩療法都唔受（0）；
有啲受試者淨係接受 a 療法（a）；
有啲受試者淨係接受 a 同 b 療法（ab）；
有啲受試者淨係接受 b 同 c 療法（bc）；
有啲受試者就三種療法都受（abc）；

... 如此類推。如果位研究者想做嗮成場析因實驗，就需要以下嘅組－0、a、b、c、ab、bc、ac、abc 總共 8 組；不過喺現實嘅科研當中，位研究者可能會決定唔做（例如） bc 嗰組－位研究者睇過前人做嘅研究，知道打前有好幾份研究經已發現咗結合 b 同 c 係冇嘢睇嘅，於是佢就為咗想慳人力物力，而決定索性唔做 bc 嗰組，淨係得 7 組受試者。由呢個例子睇得出，喺現實嘅析因實驗裏面，研究者好多時都有理由唔做嗮成場析因實驗，而呢種「由場析因實驗所有可能情況當中，淨係揀一部份嘅嚟做」嘅做法就係所謂嘅部份析因設計^[13]^[14]。

重複量數設計

重複量數設計^{[英 7]}係指場實驗嘅設計涉及分析受試者某啲變數隨時間嘅變化。想像家陣研究者想研究隻新藥，但唔淨只想睇隻新藥對受試者嘅短期影響，仲想睇隻藥對受試者有咩長期影響，於是佢就噉樣做：

搵咗班病人返嚟做受試者；
將佢哋分做實驗組同對照組，實驗組食隻新藥，對照組食安慰劑；
不過今次佢嘅分析方法有啲唔同－佢唔淨只比較受試者食咗藥之後嘅病情係點，仲比較兩組
- 1 年後嘅病情（DV₁）、
- 2 年後嘅病情（DV₂）、
- 3 年後嘅病情（DV₃）... 至
- n 年後嘅病情（DV_n）。

好似呢場實驗噉嘅研究就用咗所謂嘅重複量數設計，呢場實驗嘅研究者分析咗其中一個變數（病情）隨時間嘅變化（成 $2\times n$ 噉嘅設計；其中一個 IV 係時間）。重複量數設計可以係 $1\times n$ 嘅，即係淨係睇一組人隨時間嘅變化，又可以係 $m\times n$ （當中 $m$ 係一個整數而且 $m>1$ ）噉嘅設計，用嚟比較唔同組嘅受試者隨時間變化嘅規律有咩分別－例如好似「睇隻藥對受試者有咩長期影響」個例子噉，實驗組嘅病情可能隨時間好轉，但對照組嘅病情就隨時間不變。好似呢啲噉嘅研究可以俾到好多「齋靠分析啲變數响一個時間嘅值」提供唔到嘅資訊，喺醫學以至社會科學上都相當受到重視^[15]^[16]。

Info：重複量數嘅統計方法

喺統計上，重複量數設計會用到配對樣本 t 測試^{[英 8]}（t 測試一種，專門攞嚟應付重複量數設計嘅）同埋重複量數 ANOVA 等嘅分析法。技術化啲噉講，呢啲分析同一般嘅 t 測試以及 ANOVA 最大嘅分別在於啲數值之間係咪獨立同分佈（iid）－想像^[17]^[18]

獨立樣本 t 測試嘅情況，比較實驗組入面第一位受試者嘅 DV 值（DV_{exp 1}）同對照組入面第一位受試者嘅 DV 值（DV_{con 1}），假如兩位受試者都係隨機噉抽嚟做樣本嘅話，DV_{exp 1} 同 DV_{con 1} 呢兩個數（最少理論上）係可以獨立同分佈嘅；

用配對樣本 t 測試比較兩組數值，第一組係班受試者食藥之前嘅 DV 值，第二組係佢哋食藥之後嘅 DV 值，攞第一位受試者食藥前嘅 DV 值（DV_{pre 1}）比較佢食藥後嘅 DV 值（DV_{post 1}），呢兩個數值必然係有關（DV_{post 1} 係 DV_{pre 1} 嘅函數）嘅，因為兩個數值都係嚟自同一個人；

因為噉，重複量數設計用嘅統計分析方法會有少少唔同，例如對統計自由度（ $df$ ）嘅計法都唔同^[9]。

個人化實驗法

喺廿一世紀初嘅醫療領域上，唔少研究者就開始提倡比較「個人化」嘅實驗方法：人之間有個體差異，例如有啲人免疫系統勁啲冇咁易病，又有啲人免疫系統冇咁勁比較易病；想像 x 咁多劑量嘅藥，A 君食咗可能會完全好返嗮，但可能 B 君食咗就會因為劑量大得滯而唔舒服；不過傳統嘅實驗好多時都係追求一體適用^{[英 9]}－實驗者攞一班受試者試咗隻新藥，班受試者冇唔舒服，實驗者就諗住第時撞到嘅病人冚唪唥都會頂得順隻藥，冇考慮到「病人之間可能會有個體差異」呢條問題；於是有醫學專家開始覺得唔滿意，想諗方法令醫療實驗考慮埋每位病人嘅獨特性質^[19]^{:p. 1}。

Info：N-of-1 試驗

例如 N-of-1 試驗嘅做法噉。N-of-1 試驗係廿一世紀初開始受重視嘅一種實驗法，常用於醫療方面嘅研究，最簡單嗰款係噉嘅：

做喺一位病人身上（單一個案設計）；

一位病人交替噉進入「接受療法」同「接受安慰劑」嘅階段，或者交替噉進入「接受療法 A」同「接受療法 B」嘅階段；

想像研究員家陣想研究隻新藥係咪有助舒緩高血壓。佢可以搵位受試者返嚟，要佢交替噉進入「食緊隻新藥」同「食緊安慰劑」嘅時期，每段時期 30 日咁長；跟住研究者比較位病人「食緊隻新藥」期間嘅血壓同埋「食緊安慰劑」期間嘅血壓；如果佢發現位病人食隻新藥期間嘅血壓明顯比較接近正常水平^{[註 4]}^[19]^{:p. 5}，噉佢就有理由話隻新藥（最少對呢位病人嚟講）係掂嘅^[20]^[21]。
用圖像化嘅方式嘅話，想像下圖 Y 軸做嗰位病人嘅血壓上壓（以 mmHg 做單位），X 軸做時間（以日計）；如果研究者發覺位病人嘅血壓上壓

喺「食緊隻新藥」期間硬係比較近正常水平（正常水平係低 120 mmHg 少少），而且

喺「食緊安慰劑」期間硬係高啲冇咁近正常水平，

噉佢就有理由相信隻藥喺呢位病人身上係掂嘅。

控制程度

實驗可以按控制嘅程度嚟分類：

受控實驗

2009 年一間化學實驗室；間房入面啲檯櫈好乾淨（唔會有不明化學物質喺度）而且啲實驗用嘅化學物質全部都搵密封容器裝住嗮。

再現係廿一世紀科學嘅一個重要概念。想像有位化學家用兩條試管做同樣嘅實驗－「兩次都出錯」嘅機率應該係低過「其中一次出錯」嘅機率。

一場實驗一定要有返咁上下受控^{[英 10]}，即係要排除一啲研究者想忽略、但又有可能會左右實驗結果嘅因素：實驗方法其中一個最令人關注嘅問題係所謂嘅混淆變數^{[英 11]}－混淆變數指有個變數已知係會對 IV 同 DV 產生影響，但研究者冇控制到嘅；舉例說明，想像家陣有位醫學研究者想同隻新藥做場實驗（臨床試驗），於是佢^[22]

搵 $n$ 位有 A 病嘅受試者返嚟，將佢哋分做兩組；
實驗組食咗隻新藥，而對照組食咗隻安慰劑（IV：食嘅藥），新藥同安慰劑係特登整到望落一樣樣（控制咗藥嘅外形）；
過咗若干時間之後，研究者就睇吓班受試者啲症狀（DV），如果實驗組嘅情況明顯好轉咗，而對照組冇變，就知隻藥真係有效－想驗證嘅假說係「隻藥真係有效嘅」呢句嘢；
不過做完之後佢醒返起，佢搵受試者嗰陣冇隨機噉分組，淨係簡單噉按啲受試者「嚟自邊間醫院」分組－嚟自 X 醫院嘅受試者冚唪唥分嗮落實驗組，淨低嘅受試者冚唪唥分嗮落對照組；
問題係佢事後知道，因為 X 醫院係專醫 B 病嘅，所以嚟自 X 醫院嘅受試者全部都有 B 病，而對照組受試者嚟自第啲醫院而且全部冇 B 病；更大嘅問題係，打前嘅研究已知 B 病都會對 A 病啲症狀有影響；

－「嚟自邊間醫院」就係個混淆變數，影響咗啲受試者俾人分落邊組（IV），同時又間接影響咗啲受試者嘅最後症狀（DV），搞到研究者唔可以有信心噉話 DV 受影響真係純粹因為 IV ^[23]。

受控嘅考量係實驗室存在其中一個主因：喺現實嘅科學研究上，研究者做嘢嗰時實會盡力想確保有可能影響 IV 同 DV 嘅變數都受控，想排除混淆變數等因素嘅干擾；實驗室係俾人攞嚟做實驗嘅房，其中一個最重要嘅特徵係高度受控－例如一間做化學實驗嘅實驗室會將所有嘅檯櫈都整到乾乾淨淨，而且實驗用嘅化學物質冚唪唥都會攞密封嘅容器裝住，噉做其中一個重要嘅目的就係想防止做實驗嗰陣有啲意料之外嘅化學物質干擾研究緊嘅化學反應；做醫學同生物學等領域嘅實驗室都係同一道理^[24]^[25]。

控制方法

喺廿一世紀初嘅科學上，實驗控制嘅方法有好多：

隨機化^{[英 12]}：醫學同社會科學等研究人嘅領域常用嘅技巧，指將實驗入面啲受試者隨機噉分組－
Foreach 受試者，
隨機噉揀「實驗組」或者「對照組」，

將位受試者分落嗰組度；
- 噉做可以避免實驗組同對照組之間有啲咩（實驗操作以外嘅）差異^[26]。
雙盲法^{[英 13]}：醫學同社會科學成日用嘅一種技巧，指做實驗嘅人同受試者喺實驗結束之前都唔知每位受試者屬邊組－想像家陣又有位醫學研究者想做臨床試驗試隻新藥，但佢實驗未做完就話咗俾班實驗組嘅受試者知，佢哋食嘅係新藥唔係安慰劑，班受試者信隻藥有效而最後因為噉而感覺舒服咗（DV 受影響）；事實上，「諗住自己食咗隻特效藥（但隻藥實際上係冇用嘅安慰劑）會令病人主觀感覺舒服咗」－所謂嘅安慰劑效應－呢種現象喺廿世紀嘅醫學上經已廣受人討論^[27]；為咗防止安慰劑效應噉嘅現象，廿一世紀初嘅人類實驗實會用雙盲法－唔俾受試者知邊個入咗實驗組邊個入咗對照組，而且啲研究人員喺實驗結束之前亦都唔會知呢樣資訊，費事研究人員唔小心或者無意識噉泄露資訊（兩邊都睇唔到樣資訊，所以叫雙盲）^[28]。
再現^{[英 14]}：將場實驗重複噉做幾次－一般嚟講，「嗰幾次實驗冚唪唥都受同一個混淆變數影響」嘅機率低過「第一次實驗受嗰個混淆變數影響」嘅機率；例如一場化學實驗，研究大可以攞多幾條試管，設同一樣嘅環境（IV），睇吓場化學反應（DV）係咪真係次次都會發生^[29]；

... 呀噉。

實地實驗

實地實驗^{[英 15]}係指喺實驗室以外嘅環境做實驗，喺經濟學同社會學等嘅社會科學裏面零舍常用。除咗再現等嘅因素之外，科學亦都好講求研究嘅結果要可以普遍化^{[英 16]}－做科研嘅人會希望自己嘅理論能夠解釋到嗮研究緊嘅嗰類現象；舉個簡單例子，想像有位經濟學家想研究廣告（IV）會點左右人喺使錢嗰陣嘅決策（DV），佢正路會希望建立個理論模型解釋力勁到可以解釋到嗮

人喺實驗室入面展現嘅使錢決策會點受廣告影響；同埋
人喺實驗室以外展現嘅使錢決策會點受廣告影響；

佢跟住就要做實驗驗證啲假說，如果發覺佢個理論能夠持續噉做出準確預測，佢就有理據話佢個理論係掂嘅（科學方法）；問題係，如果佢啲實驗冚唪唥都淨係喺實驗室入面做嘅，佢啲同行就會有噉嘅疑問：佢啲實驗冚唪唥都係喺實驗室做嘅，個理論係咪真係解釋到人喺實驗室以外展現嘅使錢決策點受廣告影響？

於是科學界就有咗實地實驗嘅諗頭－位經濟學家可以試吓（例如）搵兩間各條件相約嘅百貨公司（一個實驗室以外嘅環境），喺百貨公司 A 度落廣告，同時減少百貨公司 B 嘅廣告量，睇吓噉做（IV）會點樣改變啲人客嘅使錢方式（DV）^[30]^[31]。

喺廿一世紀初嘅科學上，實地實驗有唔少爭議性：一方面，有好多社科（對人類行為嘅研究）嘅研究者都覺得，實地實驗可以達致實驗室做唔到嘅「自然度」－佢哋覺得實驗室嘅環境太唔自然，會搞到受試者展現出喺正常情況下唔會展現嘅行為；另一方面，又有好多研究者嫌實地實驗唔夠受控－好似係上述嘅百貨公司實驗噉，要搵兩間喺各因素上完全一樣嘅百貨公司係冇可能咁滯，但如果嗰兩間百貨公司喺某啲因素（例如大細或者地區）上唔完全一樣，第啲研究者就有理由質疑場實驗嘅結果係咪受咗呢啲唔一樣嘅因素干擾（兩者之間喺 DV 上有差異唔係因為 IV 操作，而係因為呢啲原先就唔一樣嘅條件嘅影響）。一般嚟講，社科研究者會考慮到雙方嘅道理，並且追求^[32]：

「

如果實驗室實驗同實地實驗都支撐句假說，句假說就算係最有說服力。

」

－如果嗰位經濟學家發現：

喺實驗室入面，睇廣告會令人多咗衝動買嘢；而且
喺實地實驗入面，睇廣告都係會令人多咗衝動買嘢；

噉就最支撐到「睇廣告會令人多咗衝動買嘢」嘅假說。

一位受試者喺街頭俾人叫佢填問卷；有好多社科研究者都覺得，喺實驗室外嘅地方做研究會比較能夠觀察到受試者嘅自然行為。

自然實驗

自然實驗^{[英 17]}係指場實驗嘅操作係「自然」發生嘅。正常嚟講，一場實驗嘅操作係由研究者施加嘅，不過想像家陣有位經濟學家想研究「天災對經濟增長有咩影響」，佢冇得話「搵成幾百萬人入實驗室，再施加一場天災，睇吓啲人嘅生產能力會點變化」，於是佢就改變用自然實驗嘅做法，即係搵兩個經濟體返嚟：

經濟體 A 啱啱受咗場天災；
經濟體 B 咩天災都冇，而且喺各方面（人口同實驗前嘅 GDP 呀噉）同經濟體 A 相約；

然後研究者就觀察 A 同 B 跟住落嚟啲經濟指標變化嘅規律有咩差異；喺呢場實驗入面，天災係一個 IV，而啲經濟指標就係 DV，假設兩個經濟體真係喺各方面都相約，經濟體 A 跟住落嚟同經濟體 B 嘅差異應該主要係源自個 IV 嘅；不過同一般嘅實驗室實驗唔同嘅係，呢件 IV 操作係「自然」發生（唔係由研究者施加）嘅^{[註 5]}。自然實驗常見於一啲專研究大規模現象嘅領域－好似係經濟學、社會學、地理學、考古學、地質學同生態學呀噉，噉係因為好似好多社會現象又或者係地殼變動呢啲咁大規模嘅現象，通常都好難喺實驗室裏面模擬^[33]^[34]。

2017 年德州一場水災嘅情境；想像有位生態學家想研究噉嘅天災會點影響當地嘅生態系統，佢有冇得話「喺實驗室入面模擬一場成座城市咁大嘅天災」呢？

如果一定要喺實驗室裏面做嘅話，生態學家可以搵個土族缸裝住啲生物嚟研究，但個土族缸能唔能夠充分噉模擬到實驗室外嘅生態系統呢？

喺廿一世紀初嘅科學上，自然實驗都係有一定嘅爭議性：一方面，自然實驗同實地實驗相似嘅係，兩種實驗都唔係喺實驗室入面做嘅，所以冇咁受控，成日會引起「呢場自然實驗嘅結果係咪俾啲唔受控制嘅因素干擾咗」噉嘅問題；不過另一方面，對於好多研究者嚟講，自然實驗係唯一行得通嘅實驗做法，例如想像一位生態學家想研究水災對一笪地方嘅生態系統（閒閒哋成座城市咁大）有咩影響，佢可以試吓喺實驗室入面攞個土族缸裝住啲生物，睇吓「突然間有大量嘅水湧入個缸裏面」會點影響個缸入面啲生物，不過噉就會引起個疑問^[35]^[36]：

－個土族缸係咪真係代表到實驗室外嘅生態系？已知同土族缸比起嚟，實驗室外嘅生態系大好多複雜好多。

於是就引起

－齋靠土族缸攞到嘅研究結果係咪能夠普遍化，係咪可以準確噉描述實驗室外嘅生態系？

噉嘅問題；而第啲領域入面都會出現「實驗室入面嘅現象，規模上細過想研究嗰樣現象咁多；由實驗室得出嘅結果，係咪真係適用喺現實情況度？」噉嘅情況。因為噉，對於研究大規模現象嘅研究者嚟講，實驗室實驗搵到嘅結果好多時都完全冇說服力，自然實驗係研究佢哋想研究嘅現象嘅唯一方法^[33]^[34]。

道德考量

响廿一世紀初嘅科學界，用實驗做研究嘅人要守好多道德上嘅規定：响人類歷史上有唔少人都試過做一啲唔合乎人道嘅實驗，例如二戰期間嘅納粹德國就試過攞波蘭人同猶太人等嘅族裔嚟做人體研究，包括研究「有冇方法可以令海水飲得」等嘅問題，仲捉咗啲人返嚟做實驗，迫佢哋除咗海水之外咩都唔准飲，期間搞到好多被迫參與呢啲實驗嘅人死亡或者身體嚴重受損^[37]；好似呢啲噉嘅實驗令到西方嘅科學界出咗「想確保實驗參與者嘅權益」噉嘅諗法，於是科學研究者（尤其係好似醫學同社科等成日會攞人做研究嘅領域）就制定咗一套套嘅準則，要求做實驗嘅人要守－唔守嘅就輕則冇咗份工，重則俾人罰佢一世都冇得再參與研究工作^[38]。

一般嚟講，廿一世紀初嘅人類實驗會受到好多限制^{[註 6]}：呢啲實驗最起碼要做知情同意^{[英 18]}，即係假設實驗對象係大人，研究者要同實驗對象講清楚份研究有啲咩風險，並且俾份文件佢哋簽，等佢哋表明自己「明白實驗嘅風險，肯接受呢樣風險」－例如係試新藥嘅實驗，研究者就要講明俾受試者－通常用錢請返嚟嘅－知佢哋試緊隻新藥，隻新藥可能會造成一啲危險，等受試者諗清諗楚先至決定係咪真係想參與實驗；除此之外，人類實驗仲會有某啲嘢係唔准做嘅，例如想研究山埃對人體嘅影響，唔准靠人為嘅實驗操作，頂櫳准做自然實驗（研究啲意外俾山埃毒親嘅人），而且實驗操守對於某啲人群－例如係細路或者傷殘人士－會保護得零舍嚴^[38]。

簡史

「用實驗做科研」最早可以追溯到公元 10 世紀。當時阿拉伯人學者海什木^{[英 19]}喺度研究光學，用咗好似廿一世紀科學噉嘅方法嚟做研究－佢睇咗前人做嘅研究，跟住攞透鏡同鏡等嘅架生嚟操作光線嘅行進，從而測試有關「光嘅行為係點」嘅假說，描述咗反射同折射等嘅概念，仲喺佢本名著《光學之書》入面詳細噉講解佢做嗰啲實驗嘅內容^[39]。

一般認為，現代科學實驗嘅哲學基礎係由 16 至 17 世紀嘅英格蘭哲學家培根^{[英 20]}（1561 - 1626）奠定嘅。佢好似海什木噉拒絕齋靠演繹推理嚟做科研，主張科學應該係要靠重複噉觀察想研究嘅現象，最好仲要做到能夠操縱周圍嘅環境嚟達致想要嘅效果。佢係噉講嘅^[40]：

「

粵文翻譯：（求知嘅方法）仲有簡單嘅體驗－如果係自然發生嘅就叫意外，如果係個人特登追求（令件體驗發生）嘅就叫實驗。真正嘅體驗方法首先點著支蠟燭（假說），跟住靠支蠟燭睇清楚條路（安排場實驗以及知場實驗有咩限制）；... 並且由呢個過程入面推理出公理（理論），同埋由確立咗嘅公理度再做新嘅實驗。

」

响跟住打後嘅幾個世紀裏面，有好多科學家都靠實驗（操作 IV 嚟睇 DV 會受咩影響）嚟做研究，喺物理學、化學、生物學以至心理學等嘅領域上都出咗重大嘅創新。到咗廿世紀初，實驗喺自然科學上經已係常態，社會科學亦都開始睇重實驗，而統計學上仲有咗實驗設計等嘅諗頭，專門諗「要點樣分析實驗出嘅數據」噉嘅問題^[1]。

領域

睇埋

註釋

↑ 實際上物理學家仲要攞條式計吓，睇吓個原子鐘「慢咗幾多」係咪真係同時間膨脹條式預料嘅一致。
↑ 不過呢場實驗並冇否決「 $Y$ 可以引致 $X$ 」或者「有第三個變數可以同時引致 $X$ 同 $Y$ 」呢兩句假說。
↑ 喺廿一世紀初，「因果關係嘅定義係乜」仲有人拗緊，所以有啲思考者會唔認同「實驗可以確立因果關係」嘅睇法。
↑ 最簡單可以用 t 測試對比兩段時期之間嘅差異。亦都可以睇吓 ANOVA。
↑ 而由上面百貨公司廣告實驗個例子可見，實地實驗當中嘅操作可以係由研究者施加嘅。
↑ 唔同領域喺規則嘅具體細節上會有異。

詞表

↑ experimental manipulation
↑ correlation does not imply causation
↑ sample
↑ independent sample t-test
↑ factorial experiment
↑ fractional factorial design
↑ repeat measures design
↑ paired sample t-test
↑ one size fits all
↑ controlled
↑ confounding variable
↑ randomization
↑ double-blind
↑ replication
↑ field experiment
↑ generalizable
↑ natural experiment
↑ informed consent
↑ Ibn al-Haytham / 阿拉伯文：ابن الهيثم
↑ Francis Bacon

引咗

↑ ^1.0 ^1.1 ^1.2 Ryan, T. P., & Morgan, J. P. (2007). Modern experimental design^{[失咗效嘅鏈]} (PDF). Journal of Statistical Theory and Practice, 1(3-4), 501-506.
↑ Kirk, R. E. (2012). Experimental design: Procedures for the behavioral sciences. Sage Publications.
↑ Cooperstock, F. I. (2009). General relativistic dynamics: extending Einstein's legacy throughout the universe. Singapore: World Scientific.
↑ Griffith, W. T. (2001). The physics of everyday phenomena: a conceptual introduction to physics, 3rd Ed. Boston: McGraw-Hill. Page 3-4.
↑ Shadish, William R.; Cook, Thomas D.; Campbell, Donald T. (2002). Experimental and quasi-experimental designs for generalized causal inference (Nachdr. ed.). Boston: Houghton Mifflin.
↑ Sharma, B. K., Mishra, S., & Arora, L. (2018). Does social medium influence impulse buying of Indian buyers?. Journal of Management Research, 18(1), 27-36.
↑ Chen, J. V., Su, B. C., & Widjaja, A. E. (2016). Facebook C2C social commerce: A study of online impulse buying. Decision Support Systems, 83, 57-69.
↑ ^8.0 ^8.1 Hinkelmann, Klaus; Kempthorne, Oscar (2008). Design and Analysis of Experiments, Volume I: Introduction to Experimental Design (2nd ed.). Wiley.
↑ ^9.0 ^9.1 ^9.2 Derrick, B; Toher, D; White, P (2017). "How to compare the means of two samples that include paired observations and independent observations: A companion to Derrick, Russ, Toher and White (2017)". The Quantitative Methods for Psychology. 13 (2): 120-126.
↑ ^10.0 ^10.1 O'Mahony, M. (1986). Sensory Evaluation of Food: Statistical Methods and Procedures. CRC Press. p. 487.
↑ Gelman, Andrew (February 2005). "Analysis of variance? why it is more important than ever". The Annals of Statistics. 33 (1): 1-53.
↑ Van Casteren, M., & Davis, M. H. (2007). Match: A program to assist in matching the conditions of factorial experiments (PDF). Behavior Research Methods, 39(4), 973-978.
↑ Box, G.E.; Hunter, J.S.; Hunter,W.G. (2005). Statistics for Experimenters: Design, Innovation, and Discovery, 2nd Ed. Wiley.
↑ Gunst, R. F., & Mason, R. L. (2009). Fractional factorial design. Wiley Interdisciplinary Reviews: Computational Statistics, 1(2), 234-244.
↑ Charness, G., Gneezy, U., & Kuhn, M. A. (2012). Experimental methods: Between-subject and within-subject design. Journal of economic behavior & organization, 81(1), 1-8.
↑ Pelham, W. E., Schnedler, R. W., Bologna, N. C., & Contreras, J. A. (1980). Behavioral and stimulant treatment of hyperactive children: A therapy study with methylphenidate probes in a within‐subject design. Journal of Applied Behavior Analysis, 13(2), 221-236.
↑ Xu, M., Fralick, D., Zheng, J. Z., Wang, B., Tu, X. M., & Feng, C. (2017). The differences and similarities between two-sample t-test and paired t-test. Shanghai archives of psychiatry, 29(3), 184.
↑ Lovie, A. D. (1981). On the early history of ANOVA in the analysis of repeated measure designs in psychology. British journal of mathematical and statistical psychology, 34(1), 1-15.
↑ ^19.0 ^19.1 Gabler, N. B., Duan, N., Vohra, S., & Kravitz, R. L. (2011). N-of-1 trials in the medical literature: a systematic review. Medical care, 761-768.
↑ Lillie, E. O., Patay, B., Diamant, J., Issell, B., Topol, E. J., & Schork, N. J. (2011). The n-of-1 clinical trial: the ultimate strategy for individualizing medicine?. Personalized medicine, 8(2), 161-173.
↑ Shaffer, J. A., Kronish, I. M., Falzon, L., Cheung, Y. K., & Davidson, K. W. (2018). N-of-1 randomized intervention trials in health psychology: a systematic review and methodology critique. Annals of Behavioral Medicine, 52(9), 731-742.
↑ Liberman, R. (1964). An experimental study of the placebo response under three different situations of pain. Journal of psychiatric research, 2(4), 233-246.
↑ Greenland, S., & Neutra, R. (1980). Control of confounding in the assessment of medical technology. International journal of epidemiology, 9(4), 361-367.
↑ Alp, E., Haverkate, D., & Voss, A. (2006). Hand hygiene among laboratory workers. Infection Control & Hospital Epidemiology, 27(9), 978-980.
↑ Bisen, P. S. (2014). Laboratory protocols in applied life sciences. CRC Press.
↑ Caliński, Tadeusz & Kageyama, Sanpei (2000). Block designs: A Randomization approach, Volume I: Analysis. Lecture Notes in Statistics. Vol. 150. New York: Springer-Verlag.
↑ Harrington, A. (Ed.). (1999). The placebo effect: An interdisciplinary exploration (Vol. 8). Harvard University Press.
↑ Bello, Segun; Moustgaard, Helene; Hróbjartsson, Asbjørn (October 2014). "The risk of unblinding was infrequently and incompletely reported in 300 randomized clinical trial publications". Journal of Clinical Epidemiology. 67 (10): 1059-1069.
↑ Madden, C. S., Easley, R. W., & Dunn, M. G. (1995). How journal editors view replication research. Journal of Advertising, 24(4), 77-87.
↑ Meyer, B. D. (1995). "Natural and quasi-experiments in economics". Journal of Business & Economic Statistics. 13 (2): 151-161.
↑ Gneezy, Uri; List, John A (2006). "Putting behavioral economics to work: Testing for gift exchange in labor markets using field experiments" (PDF). Econometrica. 74(5): 1365-1384.
↑ Mujcic, R., & Leibbrandt, A. (2018). Indirect reciprocity and prosocial behaviour: evidence from a natural field experiment. The Economic Journal, 128(611), 1683-1699.
↑ ^33.0 ^33.1 Dunning, Thad (2012). Natural Experiments in the Social Sciences: A Design-Based Approach. Cambridge University Press.
↑ ^34.0 ^34.1 Leatherdale, S. T. (2019). Natural experiment methodology for research: a review of how different methods can support real-world research. International Journal of Social Research Methodology, 22(1), 19-35.
↑ Wardle, D. A., Jonsson, M., Bansal, S., Bardgett, R. D., Gundale, M. J., & Metcalfe, D. B. (2012). Linking vegetation change, carbon sequestration and biodiversity: insights from island ecosystems in a long‐term natural experiment. Journal of ecology, 100(1), 16-30.
↑ Guagnano, G. A., Stern, P. C., & Dietz, T. (1995). Influences on attitude-behavior relationships: A natural experiment with curbside recycling. Environment and behavior, 27(5), 699-718.
↑ Cohen, Baruch C. "The Ethics of Using Medical Data From Nazi Experiments 互聯網檔案館嘅歸檔，歸檔日期2016年3月13號，.". Jewish Law: Articles.
↑ ^38.0 ^38.1 Douglas, Heather (2014). "The Moral Terrain of Science". Erkenntnis. 79 (S5): 961-979.
↑ El-Bizri, Nader (2005). "A Philosophical Perspective on Alhazen's Optics". Arabic Sciences and Philosophy (Cambridge University Press). 15 (2): 189-218.
↑ Durant, Will (2012). The story of philosophy : the lives and opinions of the great philosophers of the western world (2nd ed.). New York: Simon and Schuster. p. 101. 英文原文："There remains simple experience; which, if taken as it comes, is called accident, if sought for, experiment. The true method of experience first lights the candle [hypothesis], and then by means of the candle shows the way [arranges and delimits the experiment]; ... and from it deducing axioms [theories], and from established axioms again new experiments."

文獻

Dunning, Thad (2012). Natural experiments in the social sciences : a design-based approach. Cambridge: Cambridge University Press. ISBN 978-1107698000.
Shadish, William R.; Cook, Thomas D.; Campbell, Donald T. (2002). Experimental and quasi-experimental designs for generalized causal inference (Nachdr. ed.). Boston: Houghton Mifflin. ISBN 0-395-61556-9.
Jeremy, Teigen (2014). "Experimental Methods in Military and Veteran Studies". In Soeters, Joseph; Shields, Patricia; Rietjens, Sebastiaan (eds.). Routledge Handbook of Research Methods in Military Studies. New York: Routledge. pp. 228-238.

拎

（英文）物理學當中嘅實驗，史丹福哲學百科全書有篇文講物理學上嘅實驗。篇文提到嗰啲諗頭，多數係其他自然科學領域都會用得著嘅。

[5] 實際上物理學家仲要攞條式計吓，睇吓個原子鐘「慢咗幾多」係咪真係同時間膨脹條式預料嘅一致。

[12] 不過呢場實驗並冇否決「 $Y$ 可以引致 $X$ 」或者「有第三個變數可以同時引致 $X$ 同 $Y$ 」呢兩句假說。

[13] 喺廿一世紀初，「因果關係嘅定義係乜」仲有人拗緊，所以有啲思考者會唔認同「實驗可以確立因果關係」嘅睇法。

[32] 最簡單可以用 t 測試對比兩段時期之間嘅差異。亦都可以睇吓 ANOVA。

[54] 而由上面百貨公司廣告實驗個例子可見，實地實驗當中嘅操作可以係由研究者施加嘅。

[61] 唔同領域喺規則嘅具體細節上會有異。

[7] xperimental manipulation

[10] rrelation does not imply causation

[14] sample

[17] t sample t-test

[18] torial experiment

[21] ractional factorial design

[24] repeat measures design

[27] red sample t-test

[30] size fits all

[35] trolled

[36] unding variable

[41] randomization

[43] uble-blind

[46] replication

[48] xperiment

[49] ralizable

[53] tural experiment

[62] rmed consent

[63] Ibn al-Haytham / 阿拉伯文：ابن الهيثم

[65] Francis Bacon

[ryan2007-1] 1.0 ^1.1 ^1.2 Ryan, T. P., & Morgan, J. P. (2007). Modern experimental design^{[失咗效嘅鏈]} (PDF). Journal of Statistical Theory and Practice, 1(3-4), 501-506.

[2] Kirk, R. E. (2012). Experimental design: Procedures for the behavioral sciences. Sage Publications.

[3] Cooperstock, F. I. (2009). General relativistic dynamics: extending Einstein's legacy throughout the universe. Singapore: World Scientific.

[4] Griffith, W. T. (2001). The physics of everyday phenomena: a conceptual introduction to physics, 3rd Ed. Boston: McGraw-Hill. Page 3-4.

[6] Shadish, William R.; Cook, Thomas D.; Campbell, Donald T. (2002). Experimental and quasi-experimental designs for generalized causal inference (Nachdr. ed.). Boston: Houghton Mifflin.

[8] Sharma, B. K., Mishra, S., & Arora, L. (2018). Does social medium influence impulse buying of Indian buyers?. Journal of Management Research, 18(1), 27-36.

[9] Chen, J. V., Su, B. C., & Widjaja, A. E. (2016). Facebook C2C social commerce: A study of online impulse buying. Decision Support Systems, 83, 57-69.

[hinkelmann2008-11] 8.0 ^8.1 Hinkelmann, Klaus; Kempthorne, Oscar (2008). Design and Analysis of Experiments, Volume I: Introduction to Experimental Design (2nd ed.). Wiley.

[derrick2017-15] 9.0 ^9.1 ^9.2 Derrick, B; Toher, D; White, P (2017). "How to compare the means of two samples that include paired observations and independent observations: A companion to Derrick, Russ, Toher and White (2017)". The Quantitative Methods for Psychology. 13 (2): 120-126.

[Omahony1986-16] 10.0 ^10.1 O'Mahony, M. (1986). Sensory Evaluation of Food: Statistical Methods and Procedures. CRC Press. p. 487.

[19] Gelman, Andrew (February 2005). "Analysis of variance? why it is more important than ever". The Annals of Statistics. 33 (1): 1-53.

[20] Van Casteren, M., & Davis, M. H. (2007). Match: A program to assist in matching the conditions of factorial experiments (PDF). Behavior Research Methods, 39(4), 973-978.

[22] Box, G.E.; Hunter, J.S.; Hunter,W.G. (2005). Statistics for Experimenters: Design, Innovation, and Discovery, 2nd Ed. Wiley.

[23] Gunst, R. F., & Mason, R. L. (2009). Fractional factorial design. Wiley Interdisciplinary Reviews: Computational Statistics, 1(2), 234-244.

[25] Charness, G., Gneezy, U., & Kuhn, M. A. (2012). Experimental methods: Between-subject and within-subject design. Journal of economic behavior & organization, 81(1), 1-8.

[26] Pelham, W. E., Schnedler, R. W., Bologna, N. C., & Contreras, J. A. (1980). Behavioral and stimulant treatment of hyperactive children: A therapy study with methylphenidate probes in a within‐subject design. Journal of Applied Behavior Analysis, 13(2), 221-236.

[28] Xu, M., Fralick, D., Zheng, J. Z., Wang, B., Tu, X. M., & Feng, C. (2017). The differences and similarities between two-sample t-test and paired t-test. Shanghai archives of psychiatry, 29(3), 184.

[29] Lovie, A. D. (1981). On the early history of ANOVA in the analysis of repeated measure designs in psychology. British journal of mathematical and statistical psychology, 34(1), 1-15.

[Gabler2011-31] 19.0 ^19.1 Gabler, N. B., Duan, N., Vohra, S., & Kravitz, R. L. (2011). N-of-1 trials in the medical literature: a systematic review. Medical care, 761-768.

[33] Lillie, E. O., Patay, B., Diamant, J., Issell, B., Topol, E. J., & Schork, N. J. (2011). The n-of-1 clinical trial: the ultimate strategy for individualizing medicine?. Personalized medicine, 8(2), 161-173.

[34] Shaffer, J. A., Kronish, I. M., Falzon, L., Cheung, Y. K., & Davidson, K. W. (2018). N-of-1 randomized intervention trials in health psychology: a systematic review and methodology critique. Annals of Behavioral Medicine, 52(9), 731-742.

[37] Liberman, R. (1964). An experimental study of the placebo response under three different situations of pain. Journal of psychiatric research, 2(4), 233-246.

[38] Greenland, S., & Neutra, R. (1980). Control of confounding in the assessment of medical technology. International journal of epidemiology, 9(4), 361-367.

[39] Alp, E., Haverkate, D., & Voss, A. (2006). Hand hygiene among laboratory workers. Infection Control & Hospital Epidemiology, 27(9), 978-980.

[40] Bisen, P. S. (2014). Laboratory protocols in applied life sciences. CRC Press.

[42] Caliński, Tadeusz & Kageyama, Sanpei (2000). Block designs: A Randomization approach, Volume I: Analysis. Lecture Notes in Statistics. Vol. 150. New York: Springer-Verlag.

[44] Harrington, A. (Ed.). (1999). The placebo effect: An interdisciplinary exploration (Vol. 8). Harvard University Press.

[45] Bello, Segun; Moustgaard, Helene; Hróbjartsson, Asbjørn (October 2014). "The risk of unblinding was infrequently and incompletely reported in 300 randomized clinical trial publications". Journal of Clinical Epidemiology. 67 (10): 1059-1069.

[47] Madden, C. S., Easley, R. W., & Dunn, M. G. (1995). How journal editors view replication research. Journal of Advertising, 24(4), 77-87.

[50] Meyer, B. D. (1995). "Natural and quasi-experiments in economics". Journal of Business & Economic Statistics. 13 (2): 151-161.

[51] Gneezy, Uri; List, John A (2006). "Putting behavioral economics to work: Testing for gift exchange in labor markets using field experiments" (PDF). Econometrica. 74(5): 1365-1384.

[52] Mujcic, R., & Leibbrandt, A. (2018). Indirect reciprocity and prosocial behaviour: evidence from a natural field experiment. The Economic Journal, 128(611), 1683-1699.

[dunning2012-55] 33.0 ^33.1 Dunning, Thad (2012). Natural Experiments in the Social Sciences: A Design-Based Approach. Cambridge University Press.

[leatherdale2019-56] 34.0 ^34.1 Leatherdale, S. T. (2019). Natural experiment methodology for research: a review of how different methods can support real-world research. International Journal of Social Research Methodology, 22(1), 19-35.

[57] Wardle, D. A., Jonsson, M., Bansal, S., Bardgett, R. D., Gundale, M. J., & Metcalfe, D. B. (2012). Linking vegetation change, carbon sequestration and biodiversity: insights from island ecosystems in a long‐term natural experiment. Journal of ecology, 100(1), 16-30.

[58] Guagnano, G. A., Stern, P. C., & Dietz, T. (1995). Influences on attitude-behavior relationships: A natural experiment with curbside recycling. Environment and behavior, 27(5), 699-718.

[59] Cohen, Baruch C. "The Ethics of Using Medical Data From Nazi Experiments 互聯網檔案館嘅歸檔，歸檔日期2016年3月13號，.". Jewish Law: Articles.

[douglas2014-60] 38.0 ^38.1 Douglas, Heather (2014). "The Moral Terrain of Science". Erkenntnis. 79 (S5): 961-979.

[64] El-Bizri, Nader (2005). "A Philosophical Perspective on Alhazen's Optics". Arabic Sciences and Philosophy (Cambridge University Press). 15 (2): 189-218.

[66] Durant, Will (2012). The story of philosophy : the lives and opinions of the great philosophers of the western world (2nd ed.). New York: Simon and Schuster. p. 101. 英文原文："There remains simple experience; which, if taken as it comes, is called accident, if sought for, experiment. The true method of experience first lights the candle [hypothesis], and then by means of the candle shows the way [arranges and delimits the experiment]; ... and from it deducing axioms [theories], and from established axioms again new experiments."

[1]

[2]

[3]

[4]

[註 1]

[5]

[英 1]

[6]

[7]

[英 2]

[8]

[註 2]

[註 3]

[英 3]

[9]

[10]

[英 4]

[英 5]

[11]

[12]

[英 6]

[13]

[14]

[英 7]

[15]

[16]

[英 8]

[17]

[18]

[英 9]

[19]

[註 4]

[20]

[21]

[英 10]

[英 11]

[22]

[23]

[24]

[25]

[英 12]

[26]

[英 13]

[27]

[28]

[英 14]

[29]

[英 15]

[英 16]

[30]

[31]

[32]

[英 17]

[註 5]

[33]

[34]

[35]

[36]

[37]

[38]

[註 6]

[英 18]

[英 19]

[39]

[英 20]

[40]