• <u id="h2sjh"></u>
      1. 
        
        1. <small id="h2sjh"></small>

          <sub id="h2sjh"></sub>
          <u id="h2sjh"></u>

        2. 經驗分享:如何有效地分析一份數據

          文章來源:“小白學統計”公眾號。
          如何有效地分析一份數據。這個題目很大,然而也正是很多非統計學專業(可能也包括一些統計學專業人員)不知如何下手的問題。當拿到一份數據,到底從哪兒入手開始分析。什么是第一步?有沒有固定步驟?或者說,數據分析到底有沒有什么寶典?我們就來談談這個問題。


          首先,數據分析絕對沒有一個固定的步驟,一定要先干什么,再干什么,等等。沒有這回事。具體在軟件操作上,我們可能并無差別,我會用SAS做t檢驗,你會用SPSS做t檢驗,本質上并無差異。真正差別的,不是軟件操作,而是軟件操作之前的思路。


          我下面要說的內容,只是個人的十多年分析經驗總結,但你千萬不要把它看做是一個放之四海而皆準的分析套路。所謂思路,那就是沒有什么固定套路,只是參考和借鑒。而且,我介紹的這些,肯定也不全,幾乎不可能一篇文章面面俱到,把所有的分析思路都介紹清楚。只希望能對各位朋友在不同角度上有所幫助。


          第一步要考慮的,我個人認為,一定是研究目的。


          所有的統計分析都是圍繞目的而執行,偏離了研究目的,分析的方法再高級,那也是南轅北轍。不同的目的,需要考慮不同的方法。


          例如,你要做兩組比較(例如,兩種藥物的血糖變化值有無差異),還是要做兩個變量有無關聯(比如血糖值和血壓值的關聯),或者想做綜合評價(如根據多個指標評價哪家醫院更好)。這都需要選擇不一樣的方法,組間比較可能最簡單的方差分析就可以,綜合評價可能需要用到主成分分析等更為復雜的方法。


          第二步,要考慮指標的類型。


          這里的指標包括分析指標因變量,也包括影響因素自變量。當然,并非所有分析都這么劃分為因變量和自變量。有的可能只有分析指標,而無影響因素。


          如果你有明確的結局,然后有一個或多個可能跟結局有關的指標,那就可以按因變量和自變量的方法來分析。大多數的這種情形都可以考慮廣義線性模型。它包含了幾乎絕大多數的有結局和影響因素的分析場景。例如,結局是連續資料,可以考慮線性回歸等;結局是分類資料,可以考慮logistics回歸等。


          可能有人會說,那t檢驗、卡方檢驗這些在哪兒呢?其實這些都可以看做是單因素分析而已。t檢驗,只是一個自變量是二分類、因變量是連續變量的回歸模型而已。比如比較男女之間身高有無差異,身高就是因變量(結局),性別就是自變量(因素),所謂比較男女之間有無差異,實際上就是說,性別對身高有無影響。其實一回事??ǚ綑z驗亦是如此。


          所以,幾乎所有的統計分析方法,都跟變量類型有關,都需要根據變量的類型來選擇不同的方法。比如,如果結局指標是連續變量,那可以考慮的方法包括(但不限于):t檢驗、方差分析、協方差分析、線性回歸、秩和檢驗、中位數回歸等等,根據自變量的類型、因變量是否服從正態分布等多個因素來考慮選擇。


          但是還有一些分析數據,是不區分所謂的因變量和自變量的,都是分析指標,比較常見的如主成分分析、聚類分析、相關分析、因子分析等等。這些分析方法不是為了研究某些因素對結局的影響,而只是針對分析指標根據不同目的進行一定的分析。
          例如,主成分分析通常是為了把多個分析指標綜合成較少的幾個指標;聚類分析通常是為了根據幾個指標把人群歸為幾類;因子分析通常是為了尋找支配表面指標的背后因素。這些方法一般稱為多元方法,“元”一般是指因變量,這些都是多因變量的方法。
          而前面說的線性回歸、logistics回歸等,通常都是單個因變量,多個自變量,因此算不上多元方法,更確切地說是多因素的分析方法。


          第三步,具體問題具體分析。


          可能你會說,這算什么步驟。然而,實際的情況是,真正到了數據分析過程中,往往就是具體問題具體分析。


          根據前面提到的目的和數據類型,你基本上可以確定一定范圍的幾種方法。有時可能就確定了某一種方法了。然而再利用這種方法進行分析的時候,仍需要一些思路的指導。


          根據我個人的分析領域和分析經驗,在醫學統計學中,大多數的分析方法(并非全部)可以歸為兩大類:一是有結局也有影響因素的;二是只有結局沒有影響因素的。這里面又以有結局有影響因素的更為常見。


          對于有結局有影響因素的這類數據,大多數的目的都是為了尋找結局主要受哪些因素影響。因此這里主要是基于這種目的再來說一下分析思路。


          想要說明某一自變量是否對結局有影響,至少需要回答三個問題:


          (1)是不是有影響?


          (2)有什么樣的影響?(線性影響,還是非線性的)


          (3)影響有多大?


          某一自變量是不是對結局有影響(例如,收縮壓的高低是不是對血糖值有影響),這是個定性問題,要回答這個問題,基本上P值可以說明一些問題。P值可以告訴我們,這種影響是不是偶然造成的,還是一種真實存在的現象。


          然而,僅回答“是不是有影響”,這是遠遠不夠的。比如,你可以說,吸煙有害健康,這是定性問題。然而,吸煙對健康的危害到底有多大,這是個定量問題。這才是大家更關心的。因此還需要考慮這種影響到底有多大。


          影響有多大,可以通過統計軟件中的“參數估計值”來說明。比如,我們常說的回歸系數、兩組比較的均值差值,這都是參數估計值,他們可以說明這種影響有多大。例如,體重對收縮壓的參數估計值是0.1,說明體重每增加一公斤,收縮壓增加0.1;男女的身高差值是0.2,說明性別從女到男之間的差異是0.2。這可以定量說明影響有多大。


          現在看來,似乎定性和定量都回答完了。事實上,很多人也就做到這一步就完了。然而,其實還有更重要的一個要回答的問題是:“有什么樣的影響”。


          回答影響因素的模型,大多數是回歸模型,而回歸模型中,大多數又都是基于這樣一個假設:自變量和因變量(或者因變量的變形)是線性關系。不得不說,很多人根本無視這個假設,從而導致很多分析結果其實都是錯誤的。畢竟,現實中有多少關系是線性的呢?其實很多可能都是非線性的。這就是要回答的重要問題“有什么樣的影響”,到底是線性的影響,還是非線性的影響。


          遺憾的是,關于這個至關重要的問題,卻只有少數人能回答。根據我個人的經歷,大多數人(包括很多統計學家)是不考慮這個問題的。也許,不是不考慮,而是沒有考慮到,或者,不知道該怎么考慮。


          關于“有什么樣的影響”,有些可以通過簡單的散點圖就可以發現,有的則更為復雜,一眼看不出來,可能需要像廣義可加模型、樣條回歸、核平滑等多種技術協助探索。這可能需要專業的統計學家才能完成。然而,這也是體現專業和非專業的非常關鍵的一點:能不能真正幫你找到數據規律。


          總的來說,要真正形成自己的分析體系,一定要先掌握各種方法,然后把這些方法之間的關系搞清楚,抽絲剝繭,提煉升華。這是一個由粗到細,再到粗的一個過程。只有細致深入,真正理解,才能把握重點,提煉出粗略的枝干。
          只有了解足夠多的方法,在考慮方法選擇的時候才能做到“胸有成竹”,從多種方法中選擇最合適的,否則你只會一種方法,就只能局限于這種方法,無法進行選擇。雖然可能最后的結果都一樣,都用了同一種方法,但是過程卻不同。你可能是不會別的方法,只能用這種;而我是考慮了多種方法后,認為這種最為合適,主動選擇了這種方法。
          蘇州華測
          美国三级电影,美国三级电影,美国成年性色生活片,最刺激的欧美三级