靴襻法,自助法簡(jiǎn)介
靴襻法,自助法由Bradley Efron于1979年在《Annals of Statistics》上發(fā)表。是以自助采樣(bootstrap sampling)為基礎(chǔ)。給定包含m個(gè)樣本的數(shù)據(jù)集D,我們對(duì)它進(jìn)行采樣產(chǎn)生數(shù)據(jù)集 D′:每次隨機(jī)從D中挑選出一個(gè)樣本,將其拷貝放入D′, 然后再將該樣本放回初始數(shù)據(jù)集D中,使得該樣本在下次采樣時(shí)仍有可能被采樣到;這個(gè)過程重復(fù)執(zhí)行m次后,我們就得到可包含m個(gè)樣本數(shù)據(jù)的數(shù)據(jù)集D′,這就是自助采樣的結(jié)果.樣本在m次采樣中始終不被采到到概率為
由此可知通過自助采樣,初始數(shù)據(jù)集D中約有36.8%的樣本未出現(xiàn)在采樣數(shù)據(jù)集D′中。于是我們可將D′ 用作訓(xùn)練集,D?D′用作測(cè)試集。
優(yōu)缺點(diǎn):自助法在數(shù)據(jù)集較小,難以有效劃分訓(xùn)練/測(cè)試集時(shí)很有用,但是,自助法改變了初始數(shù)據(jù)集的分布,這會(huì)引入估計(jì)偏差,所以在數(shù)據(jù)量足夠時(shí),一般采用留出法和交叉驗(yàn)證法。1
抽樣概述在統(tǒng)計(jì)學(xué)中,抽樣(Sampling)是一種推論統(tǒng)計(jì)方法,它是指從目標(biāo)總體(Population,或稱為母體)中抽取一部分個(gè)體作為樣本(Sample),通過觀察樣本的某一或某些屬性,依據(jù)所獲得的數(shù)據(jù)對(duì)總體的數(shù)量特征得出具有一定可靠性的估計(jì)判斷,從而達(dá)到對(duì)總體的認(rèn)識(shí)。
抽樣過程抽樣過程主要包括以下幾個(gè)階段:
定義總體(母體)
確定抽樣框
確定抽樣方法
決定樣本量
實(shí)施抽樣計(jì)劃
抽樣與數(shù)據(jù)收集
回顧抽樣過程
抽樣方法簡(jiǎn)單隨機(jī)抽樣(simple random sampling),也叫純隨機(jī)抽樣。從總體N個(gè)單位中隨機(jī)地抽取n個(gè)單位作為樣本,使得每一個(gè)容量為樣本都有相同的概率被抽中。特點(diǎn)是:每個(gè)樣本單位被抽中的概率相等,樣本的每個(gè)單位完全獨(dú)立,彼此間無(wú)一定的關(guān)聯(lián)性和排斥性。簡(jiǎn)單隨機(jī)抽樣是其它各種抽樣形式的基礎(chǔ)。通常只是在總體單位之間差異程度較小和數(shù)目較少時(shí),才采用這種方法。2
系統(tǒng)抽樣(systematic sampling),也稱等距抽樣。將總體中的所有單位按一定順序排列,在規(guī)定的范圍內(nèi)隨機(jī)地抽取一個(gè)單位作為初始單位,然后按事先規(guī)定好的規(guī)則確定其他樣本單位。先從數(shù)字1到k之間隨機(jī)抽取一個(gè)數(shù)字r作為初始單位,以后依次取r+k、r+2k……等單位。這種方法操作簡(jiǎn)便,可提高估計(jì)的精度。
分層抽樣(stratified sampling)。將抽樣單位按某種特征或某種規(guī)則劃分為不同的層,然后從不同的層中獨(dú)立、隨機(jī)地抽取樣本。從而保證樣本的結(jié)構(gòu)與總體的結(jié)構(gòu)比較相近,從而提高估計(jì)的精度。
整群抽樣(cluster sampling)。將總體中若干個(gè)單位合并為組,抽樣時(shí)直接抽取群,然后對(duì)中選群中的所有單位全部實(shí)施調(diào)查。抽樣時(shí)只需群的抽樣框,可簡(jiǎn)化工作量,缺點(diǎn)是估計(jì)的精度較差。3
自助法在藥物經(jīng)濟(jì)學(xué)評(píng)價(jià)中的應(yīng)用在藥物經(jīng)濟(jì)學(xué)研究中, 國(guó)外學(xué)者在利用可信區(qū)間法進(jìn)行敏感度分析時(shí),常用的方法有 Fieller 理論、 Taylor 公式和靴襻法(bootstrap method ) 分析。其中 Fieller 理論、Taylor 公式在計(jì)算成本 - 效果比的可信區(qū)間時(shí)要求成本和效果數(shù)據(jù)的分布滿足正態(tài)分布,而實(shí)際上臨床試驗(yàn)所得到的數(shù)據(jù)多數(shù)不服從正態(tài)分布,因此利用它們來計(jì)算增量成本 - 效果比的可信區(qū)間有一定的局限性。而 bootstrap 分析對(duì)數(shù)據(jù)的分布不作任何要求, 因而應(yīng)用范圍更廣 。
Bootstrap 分析下面以樣本均值方差的 bootstrap 分析來說明其基本思想:
首先假定 X ( ) 是樣本大小為 n 、來自于均值為μ且方差為
的同一樣本總體的一個(gè)抽樣。假如用F表達(dá)樣本總體的累積分布,則有 F ( x ) =Pr (
) ,這意味著每一
是一具有累積分布 F 的隨機(jī)變量,可簡(jiǎn)記為
~ F 。在實(shí)際中,經(jīng)常假定樣本總體服從高斯分布。此時(shí),其樣本均值的方差為:
當(dāng)未知時(shí),由統(tǒng)計(jì)理論可知,樣本方差的估計(jì)為
以上是對(duì)樣本總體服從正態(tài)分布而言的,對(duì)于服從其他分布的樣本總體,則很少有這樣的解析解。樣本均值方差估計(jì)的是具有同一總體分布 F 的各樣本間的均值的變化。對(duì)于理想的情況, 假設(shè)有許多來自于同一總體的 F 的樣本,則就不需要用如上所述的的估計(jì)式來估計(jì)方差, 因?yàn)榇藭r(shí)可以直接從這許多的樣本中求得均值, 然后由所得的均值求取方差。由于受到各種各樣因素的影響,很難得到許多來自于同一分布的樣本。然而,盡管不可能得到來自于同一分布 F 的總體的許多樣本,但可以從近似于分布 F 的總體中獲得樣本。這就是 bootstrap 方法的基本思想,它用一個(gè)可重復(fù)抽樣的分布 F 的估計(jì)代替未知的因而不能重復(fù)抽樣的分布 F 。
計(jì)算步驟在藥物經(jīng)濟(jì)學(xué)中, 將上述變量 “均值方差” 改為 “增量成本 - 效果比” 即可進(jìn)行敏感度分析。計(jì)算步驟如下:① 產(chǎn)生與每組記錄數(shù)相同個(gè)數(shù)的隨機(jī)數(shù), 按照隨機(jī)數(shù)對(duì)各組進(jìn)行有放回的隨機(jī)抽樣, 組成一個(gè) boots 樣本; ② 對(duì)該樣本進(jìn)行增量成本效果分析, 得到一個(gè)增量成本效果值;③ 重復(fù)產(chǎn)生 boots 樣本,并計(jì)算增量值,循環(huán) n 次( 一般 n>250 次) ;④對(duì) n 個(gè)增量成本值進(jìn)行排序,得到 5% 下限值和 95% 上限值。
應(yīng)用實(shí)例本研究運(yùn)用 bootstrap 分析對(duì)兩種三聯(lián)療法治療幽門螺桿菌( HP ) 感染的消化性潰瘍方案進(jìn)行藥物經(jīng)濟(jì)學(xué)評(píng)價(jià)。
4治療方案的選擇:根據(jù)我院臨床實(shí)際治療抗 HP 感染的消化性潰瘍情況,并參考有關(guān)文獻(xiàn), 分別選擇以膠體鉍( CBS )為基礎(chǔ)的方案( BMA 三聯(lián)療法)和以質(zhì)子泵抑制劑( PPI )為基礎(chǔ)的方案( LMC 三聯(lián)療法) 。
病例選擇: 選擇經(jīng)采用 Giemsa 染色法, 尿素酶試驗(yàn)、13 C 或 14 C- 尿素呼吸試驗(yàn)等檢測(cè)HP 陽(yáng)性的消化性潰瘍門診患者 186 例,其中十二指腸潰瘍 155 例, 胃潰瘍 31 例;年齡26~ 70 歲,平均 41 歲; 潰瘍直徑 5~ 20 mm ,數(shù)目 ≤2個(gè),1 周內(nèi)未接受鉍劑和抗生素治療,未服用非甾類抗炎藥或皮質(zhì)激素,排除復(fù)合性潰瘍、 幽門梗阻、 活動(dòng)性出血和心、 肺、 肝、 腎功能損害。186 例隨機(jī)分成兩組: A 組 96 例,男 70 例,女 26例,平均年齡( 42± 8 ) 歲;B 組 90 例, 男 62 例,女 28 例,平均年齡(40± 8 ) 歲。兩組患者臨床主要癥狀( 疼痛、 反酸、 燒心、 噯氣、 腹脹等) 比較差異無(wú)統(tǒng)計(jì)學(xué)意義。停藥 4 周后復(fù)查胃鏡,觀察潰瘍愈合情況, 重復(fù)檢查 HP 。
檢測(cè)方法及判斷:兩種方案在對(duì) HP 的檢測(cè)及判斷方面基本相同, 其檢測(cè)方法采用 Giemsa 染色法、尿素酶試驗(yàn)、13 C 或 14 C- 尿素呼吸試驗(yàn)等,幾種檢測(cè)方法均具有準(zhǔn)確性。在HP 陽(yáng)性及陰性的判斷上也以 2 項(xiàng)檢測(cè)方法具有相同的結(jié)果為準(zhǔn)。
治療方法: A 組( 采用 BMA 三聯(lián)療法) :枸櫞酸鉍鉀片( 德諾) 240 mg 、 阿莫西林片 500 mg 、 甲硝唑片 400 mg , 均每日2 次, 連用 2 周。 B 組( 采用 LMC 三聯(lián)療法) :蘭索拉唑 30 mg ,甲硝唑 400 mg ,克拉霉素 500 mg,均每日 2 次,連用 1 周。
成本確定:為使分析結(jié)果具有一定的參考意義, 所有費(fèi)用均按 2004 年我院的實(shí)際價(jià)格計(jì)算。檢驗(yàn)成本:Giemsa 染色法 20 元 / 次,快速尿素酶試驗(yàn) 20元 /次,H13 C 或 14 C- 尿素呼吸試驗(yàn)檢測(cè)130 元 / 次,每位受試者按實(shí)際檢測(cè)次數(shù)計(jì)算檢驗(yàn)成本。藥物成本:A 組單日成本 12.49 元,療程 14 d ;B 組單日成本 77.48 元,療程 7 d 。其他費(fèi)用: 按實(shí)際發(fā)生計(jì)算。
效果確定:潰瘍愈合標(biāo)準(zhǔn)按胃鏡常規(guī)評(píng)定標(biāo)準(zhǔn)判定,HP 根除以兩項(xiàng)檢查均為陰性為判斷標(biāo)準(zhǔn), 如潰瘍愈合、 HP根除則為有效,否則為無(wú)效。 A 組有效率為 87.5% ,B 組有效率為 92.2% 。
成本 - 效果比分析: 成本 - 效果比分析的目的在于通過分析尋找達(dá)到某一治療效果時(shí)成本最低的治療方案, 通常采用成本( C ) 與效果( E ) 比值法,其可將成本與效果兩者有機(jī)地聯(lián)系在一起, 它是采用單位效果所花費(fèi)的成本來表示的,一般比值越低, 該方案的實(shí)施就越有益。在對(duì)不同治療方案比較時(shí),有的方案可能花費(fèi)的費(fèi)用成本很多,而且產(chǎn)生的效果也很好( 但有時(shí)也會(huì)出現(xiàn)相反的結(jié)果) , 而增加效果則需要增加病人的支出, 因此就要考慮每增加一個(gè)效果單位所花費(fèi)的成本, 即增量成本 / 效果( △C/△E ) 比, 它代表一個(gè)方案成本 -效果與另一個(gè)方案比較而得到的結(jié)果, 以成本較低一組作為參照,另一方案與之對(duì)比而得到 △C/△E 。兩種根除 HP 治療方案的成本 - 效果分析見表。