多因素logistic迴歸分析怎麼操作

1樓：

logistic迴歸與多重線性迴歸一樣，在應用之前也是需要分析一下資料是否可以採用logistic迴歸模型。並不是說因變數是分類變數我就可以直接採用logistic迴歸，有些條件仍然是需要考慮的。

首要的條件應該是需要看一下自變數與因變數之間是什麼樣的一種關係。多重線性迴歸中，要求自變數與因變數符合線性關係。而logistic迴歸則不同，它要求的是自變數與logit（y）符合線性關係，所謂logit實際上就是ln（p/1-p）。

也就是說，自變數應與ln（p/1-p）呈線性關係。當然，這種情形主要針對多分類變數和連續變數。對於二分類變數就無所謂了，因為兩點永遠是一條直線。

這裡舉一個例子。某因素y與自變數x之間關係分析，y為二分類變數，x為四分類變數。如果x的四分類直接表示為1，2，3，4。

則分析結果為p=0.07，顯示對y的影響在0.05水準時無統計學意義，而如果將x作為虛擬變數，以1為參照，產生x2，x3，x4三個變數，重新分析，則結果顯示：

x2，x3，x4的p值分別為0.08，0.05和0.

03。也就是說，儘管2和1相比無統計學意義，但3和1相比，4和1相比，均有統計學意義。

為什麼會產生如此結果？實際上如果仔細分析一下，就可以發現，因為x與logit（y）並不是呈線性關係。而是呈如下圖的關係：

這就是導致上述差異的原因。從圖中來看，x的4與1相差最大，其次是2，3與1相差最小。實際分析結果也是如此，上述分析中，x2，x3，x4產生的危險度分別為3.

1，2.9，3.4。

因此，一開始x以1，2，3，4的形式直接與y進行分析，預設的是認為它們與logit（p）呈直線關係，而實際上並非如此，因此掩蓋了部分資訊，從而導致應有的差異沒有被檢驗出來。而一旦轉換為虛擬變數的形式，由於虛擬變數都是二分類的，我們不再需要考慮其與logit（p）的關係，因而顯示出了更為精確的結果。

最後強調一下，如果你對自變數x與y的關係不清楚，在樣本含量允許的條件下，最好轉換為虛擬變數的形式，這樣不至於出現太大的誤差。

如果你不清楚應該如何探索他們的關係，也可以採用虛擬變數的形式，比如上述x，如果轉換的虛擬變數x2，x3，x4他們的or值呈直線關係，那x基本上可以直接以1，2，3，4的形式直接與y進行分析。而我們剛才也看到了，x2，x3，x4的危險度分別為3.1，2.

9，3.4。並不呈直線關係，所以還是考慮以虛擬變數形式進行分析最好。

總之，虛擬變數在logistic迴歸分析中是非常有利的工具，善於利用可以幫助你探索出很多有用的資訊。

統計的分析策略是一個探索的過程，只要留心，你就會發現在探索資料關係的過程中充滿了樂趣，因為你能發現別人所發現不了的隱藏的資訊。希望大家多學點統計分析策略，把統計作為一種藝術，在分析探索中找到樂趣。

樣本量的估計可能是臨床最頭疼的一件事了，其實很多的臨床研究事前是從來不考慮樣本量的，至少我接觸的臨床研究大都如此。他們大都是想到就開始做，但是事後他們會尋求研究中樣本量的依據，尤其是在投文章被審稿人提問之後。可能很少有人想到研究之前還要考慮一下樣本夠不夠的問題。

其實這也難怪，臨床有臨床的特點，很多情況下是很難符合統計學要求的，尤其一些動物試驗，可能真的做不了很多。這種情況下確實是很為難的。

本篇文章僅是從統計學角度說明logistic迴歸所需的樣本量的大致估計，不涉及臨床特殊問題。

其實不僅logistic迴歸，所有的研究一般都需要對樣本量事前有一個估計，這樣做的目的是為了儘可能地得出陽性結果。比如，你事前沒有估計，假設你做了20例，發現是陰性結果。如果事前估計的話，可能會提示你需要30例或25例可能會得出陽性結果，那這時候你會不會後悔沒有事前估計？

當然，你可以補實驗，但是不管從哪方面角度來講，補做的實驗跟一開始做得實驗可能各種條件已經變化，如果你在雜誌中說你的實驗是補做的，那估計發表的可能性就不大了。

一般來說，簡單的研究，比如組間比較，包括兩組和多組比較，都有比較成熟的公式計算一下你到底需要多少例數。這些在多數的統計學教材和流行病學教材中都有提及。而對於較為複雜的研究，比如多重線性迴歸、logistic迴歸之類的，涉及多個因素。

這種方法理論上也是有計算公式的，但是目前來講，似乎尚無大家公認有效的公式，而且這些公式大都計算繁瑣，因此，現實中很少有人對logistic迴歸等這樣的分析方法採用計算的方法來估計樣本量。而更多地是採用經驗法。

其實關於logistic迴歸的樣本量在部分著作中也有提及，一般來講，比較有把握的說法是：每個結局至少需要10例樣品。這裡說得是每個結局。

例如，觀察胃癌的危險因素，那就是說，胃癌是結局，不是你的總的例數，而是胃癌的例數就需要這麼多，那總的例數當然更多。比如我有7個研究因素，那我就至少需要70例，如果你是1：1的研究，那總共就需要140例。

如果1：2甚至更高的，那就需要的更多了。

而且，樣本量的大小也不能光看這一個，如果你的研究因素中出現多重共線性等問題，那可能需要更多的樣本，如果你的因變數不是二分類，而是多分類，可能也需要更大的樣本來保證你的結果的可靠性。

理論上來講，logistic迴歸採用的是最大似然估計，這種估計方法有很多優點，然而，一個主要的缺點就是，必須有足夠的樣本才能保證它的優點，或者說，它的優點都是建立在大樣本的基礎上的。一般來講，logistic迴歸需要的樣本量要多於多重線性迴歸。

最後仍然需要說一句，目前確實沒有很好的、很權威的關於logistic迴歸樣本量的估計方法，更多的都是根據自己的經驗以及分析過程中的細節發現。如果你沒有太大的把握，就去請教統計老師吧，至少他能給你提出一些建議。