什麼是觀察性研究｜健康文章

看到「研究證實某食物可以防癌」這類健康新聞標題時，先別急著相信，該追問的是：這是什麼研究設計？「有研究」和「研究已經證實」往往是差距很遠的兩件事。讀到「喝咖啡降低失智風險」「吃堅果延長壽命」，很多人會覺得好像有根據，但接觸更多營養流行病學文獻後就會清楚這層差距。

台灣媒體每天都在產出「研究證實」「科學發現」的健康標題。這些引用的通常都是真實存在的研究，沒有在造假。問題在於，研究有層級之分，有設計上的限制，而報導往往略去了這些背景。

在健康領域，錯誤解讀研究的代價，除了可能花錢買了不必要的保健食品，也會讓人對真正有科學支持的建議失去信心。

「有研究」不等於「已經證實」

大多數健康新聞引用的是觀察性研究（observational study），這類研究只能描述相關性，無法直接說明因果關係。「研究證實」這個措辭，常常是媒體幫研究者往前推進了一步——而那一步，本來不該被推進。

觀察性研究的做法，是研究者追蹤一群人的飲食習慣或生活方式，記錄他們後來的健康結果，但不主動改變任何一個變項。比方說，一項觀察性研究發現常吃魚的人罹患心臟病的比率較低。這是真實的觀察數據。但「常吃魚和較少心臟病有關聯」這個結論，包含了太多我們無法排除的可能性：這群人整體飲食習慣也許更好，也可能運動量更多，或者社經地位穩定、壓力較低、更願意定期健康檢查。研究看到的是現象的相關，不是機制的因果。

這跟隨機對照試驗（Randomized Controlled Trial，RCT）有本質上的差異。RCT 會把受試者隨機分成兩組，一組接受干預（如補充某種營養素），另一組給安慰劑，再比較結果。這個設計才能說：「這個干預本身，讓結果產生了改變。」

觀察性研究的貢獻是提供線索、生成假設，它在科學上不可或缺。問題在於，它的結論不應該被當作「已經證實」的最終答案來使用，更不應該直接翻譯成「你應該吃什麼」的日常建議。

研究設計有層級，不是每種都一樣可信

研究設計存在公認的層級。從較低到較高依序是：細胞與動物實驗、橫斷面研究、病例對照研究、世代追蹤研究、隨機對照試驗（RCT），頂層則是整合多項研究的系統性回顧（systematic review）與統合分析（meta-analysis）。層級越高的設計，越能排除偏差、控制干擾因素。

台灣媒體報導的健康新聞，大多引用觀察性研究（橫斷面、病例對照或世代追蹤），位於金字塔的中下層。這些研究有其貢獻，但確實不在層級的頂端。

問題是，報導通常不會寫「一項世代追蹤研究發現⋯」，而是直接說「研究發現」或「科學家發現」。讀者無法從標題判斷這是哪一種設計。

2013 年，統計學家 Jonathan Schoenfeld 與史丹佛大學醫學教授 John Ioannidis 發表了一篇令人印象深刻的論文，他們從一本普通食譜中隨機挑選 50 種食材，發現其中 80% 都有已發表的研究聲稱它們與癌症風險存在關聯，包括牛肉、豬肉、番茄、洋蔥、芹菜、奶油。研究結論幾乎可以說：任何食物都跟癌症有關係。食物本身沒有變得更危險，是觀察性研究天生容易找到相關性，同時又容易受到研究方法與偏差的影響。

媒體讓你誤解研究的三種方式

健康新聞有結構性的報導壓力：要吸引眼球、要簡化複雜訊息、要讓非專業讀者看懂。這些需求本身無可厚非，但確實製造了幾個系統性的誤解模式。

從相關性跳到因果建議。 「研究發現，每天喝兩杯咖啡的人認知功能衰退速度較慢」，這是觀察性數據，但標題常常變成「喝咖啡有助防失智」。讀者自然把它讀成「應該多喝咖啡」的建議。

混淆相對風險與絕對風險。 「某食物讓癌症風險增加 50%！」聽起來很嚇人。但如果基礎風險原本是 2%，增加 50% 是到 3%，意思是 100 個人裡從 2 人變成 3 人。這個差距在臨床上意義有限，但標題讓人以為是天翻地覆的發現。

只報導支持某個論點的研究。 一篇支持「維生素 D 補充有益」的研究被廣泛報導，但同期有三篇同等規模的研究發現效益不顯著，這些研究卻少見於新聞版面。這不是陰謀，是媒體的選擇性，也是「發表偏誤」（publication bias）的延伸效應——有正面發現的研究更容易被發表，被報導的機率也更高。

這些問題在短時間內很難改變。報導者有產出壓力，讀者有注意力限制，系統本身就會往簡化的方向走。所以，判斷能力只能靠自己建立。

P-hacking 為什麼讓研究結果更難讀懂

P-hacking 是指研究者在得不到顯著結果時，反覆調整分析方式或樣本選取，直到找到 p 值小於 0.05 的結果，才發表這個「正面發現」。

先說 p 值是什麼。p 值代表「假設這個假說是錯的，卻觀察到目前這組數據的機率」。p < 0.05 在科學界慣例上被視為「統計顯著」，意思是結果不太可能是純粹的巧合。

問題在於，如果一個研究做了 20 次不同的分析，其中一次達到 p < 0.05，可能只是機率上的巧合，不代表假說是真的。研究者往往只發表那一次「成功」的結果，讓外界看不到背後的 19 次失敗。這有點像從 20 張彩票裡只挑中獎的那張秀給你看。

Ioannidis 在 2018 年發表於《JAMA》的論文中指出，營養流行病學研究幾乎全都依賴觀察性數據，加上極大的分析自由度，讓研究結論的可重複性與因果推斷能力大打折扣。他的評估並非說這個領域沒有意義，重點在於提醒：研究發現需要謹慎解讀，不應被直接翻譯成公共健康建議。

這個問題在近年已受到重視，許多期刊開始要求研究者在收數據前先登記分析計畫（pre-registration），就是為了減少事後調整的空間。但在消費者這端，還沒有這個配套措施——判斷空間完全在讀者自己手上。

「標題寫著『研究證實』，背後往往只是一項觀察性研究在特定樣本下看到的相關性。搞清楚這兩句話的距離，是健康識能最基本的一步。」— 羅揚

你只需要問一個問題

消費者不需要成為統計學家，但有一個問題值得養成習慣：「這是什麼研究設計？」

如果是觀察性研究，結論裡帶著「可能」「有關聯」「有助於」的措辭，就用適當的保留態度看待。如果是隨機對照試驗或整合多項研究的系統性回顧，結論相對更站得住腳。

幾個實用的判斷習慣：

注意標題的措辭：「發現關聯」是觀察，「證實因果」是相對更強的結論；看清楚措辭差別
觀察樣本規模：幾十人的小型研究，很難外推到一般人群
是否有多項研究重複驗證：一項研究的結果站不穩，需要同方向的多項研究才能形成共識
留意研究資助來源：某食品公司資助的研究，結論為何特別有利於該公司的產品？

這些不需要每次都深入查證，只是讓自己在看到「驚人發現」時，給大腦多一秒鐘的緩衝。

健康識能除了知道哪些食物好、哪些習慣對，也包含判斷資訊可信度的能力。在「研究證實」每天都在更新的媒體環境裡，這個判斷能力，比任何一項研究結論都更值得投資。

閱讀健康研究報導時的實用步驟：

先確認研究設計：觀察性研究、RCT，還是系統性回顧？設計層級決定結論的說服力
再看樣本與族群：樣本多大？受試者是哪個族群？結論是否可外推？
查是否有多項重複驗證：孤立的單一研究結果，還沒辦法成為穩固的健康建議
注意資助來源與利益衝突：資助方是否與研究結論有直接商業利益？

常見問題

觀察性研究完全不可信嗎？

不是的。觀察性研究是科學發現假設、探索初步線索的重要工具，很多重要的醫學突破最初都來自觀察性研究的發現。重點在於，它的結論要用它應有的語言來描述：「有關聯」而不是「已證實因果」。問題在於解讀方式和報導措辭，而不在研究本身。

隨機對照試驗一定比觀察性研究更可信嗎？

在因果推斷上，RCT 確實更有說服力，但也有限制。很多長期飲食效果無法透過短期的 RCT 研究，而且 RCT 的受控環境有時難以反映真實的日常飲食情境。比較好的做法，是看多種設計的研究是否指向同一個方向——方向一致才有更強的說服力。

怎麼判斷一則健康新聞說的研究有沒有問題？

最直接的方法是找到原始研究（通常可在 PubMed 搜尋），對照研究者本身的結論和媒體報導是否一致。研究者通常在論文結語會說明「研究的局限性」，這段話往往是媒體最容易略去的部分。

為什麼健康建議常常改來改去？

因為科學本來就是累積性的過程。一項研究的結果，需要後續更多研究驗證、修正，甚至否定。早期觀察性研究發現某食物有益的關聯，隨後的 RCT 顯示效益很小甚至不存在，這是知識的正常演進，而非科學家在騙人。對消費者來說，這意味著不必急著追每個「最新研究」，而是等到一個建議被反覆驗證後，再認真納入日常習慣。

食品公司資助的研究可信嗎？

利益衝突不等於造假，但確實會影響研究設計的選擇、結果的詮釋方向與發表策略。有利益衝突的研究不是完全無效，但需要比獨立研究更多的批判性檢視。看研究前，注意論文的「Funding / Declaration of Interest」段落，那裡會列出資助來源與研究者的聲明。

引用來源（4 筆）

什麼是觀察性研究？讀懂「研究證實」的科學陷阱