MS EXCEL'de ortalamayı (dağılım biliniyor) tahmin etmek için güven aralığı. Kantitatif Analiz Yöntemleri: Güven Aralıklarını Tahmin Etme

"Katren-Style", tıbbi istatistikler üzerine Konstantin Kravchik'in bir döngüsünü yayınlamaya devam ediyor. Önceki iki makalede, yazar ve gibi kavramların açıklamasına değindi.

Konstantin Kravchik

Matematikçi-analist. Tıp ve beşeri bilimlerde istatistiksel araştırma alanında uzman

Moskova şehri

Klinik araştırmalarla ilgili makalelerde çok sık olarak gizemli bir ifade bulabilirsiniz: "güven aralığı" (%95 GA veya %95 GA - güven aralığı). Örneğin, bir makale şöyle diyebilir: "Farklılıkların önemini değerlendirmek için öğrenci t-testi kullanıldı, hesaplanan %95 güven aralığı ile."

"%95 güven aralığı"nın değeri nedir ve neden hesaplanır?

Güven aralığı nedir? - Bu, popülasyondaki gerçek ortalama değerlerin düştüğü aralıktır. Ve ne, "doğru olmayan" ortalamalar var mı? Bir anlamda, evet, yapıyorlar. İlgilenilen parametrenin tüm popülasyonda ölçülmesinin imkansız olduğunu, bu nedenle araştırmacıların sınırlı bir örneklemle yetindiğini açıkladık. Bu örnekte (örneğin, vücut ağırlığına göre), tüm genel popülasyondaki ortalama değeri yargıladığımız bir ortalama değer (belirli bir ağırlık) vardır. Bununla birlikte, örneklemdeki (özellikle küçük olan) ortalama ağırlığın, genel popülasyondaki ortalama ağırlıkla çakışması olası değildir. Bu nedenle, genel popülasyonun ortalama değer aralığını hesaplamak ve kullanmak daha doğrudur.

Örneğin, hemoglobin için %95 güven aralığının (%95 GA) 110 ile 122 g/L arasında olduğunu varsayalım. Bu, %95 olasılıkla, genel popülasyondaki hemoglobin için gerçek ortalama değerin 110 ila 122 g/l aralığında olacağı anlamına gelir. Yani genel popülasyondaki ortalama hemoglobini bilmiyoruz ama bu özellik için değer aralığını %95 olasılıkla belirtebiliriz.

Güven aralıkları, özellikle gruplar arasındaki ortalamalar arasındaki farkla veya etki büyüklüğü denen şeyle ilgilidir.

İki demir müstahzarının etkinliğini karşılaştırdığımızı varsayalım: uzun süredir piyasada olan ve yeni tescil edilmiş olan. Tedavi sürecinden sonra, çalışılan hasta gruplarındaki hemoglobin konsantrasyonu değerlendirildi ve bizim için hesaplanan istatistiksel program, iki grubun ortalama değerleri arasındaki farkın% 95 olasılıkla aralığında olduğunu hesapladı. 1,72 ila 14,36 g/l (Tablo 1).

Sekme. 1. Bağımsız numuneler için kriter
(gruplar hemoglobin düzeyine göre karşılaştırılır)

Bu şu şekilde yorumlanmalıdır: genel popülasyonda yeni bir ilaç alan hastaların bir kısmında hemoglobin, halihazırda bilinen bir ilacı alanlara göre ortalama 1.72-14.36 g/l daha yüksek olacaktır.

Yani genel popülasyonda %95 olasılıkla gruplardaki hemoglobin ortalama değerlerindeki fark bu sınırlar içindedir. Bunun çok mu yoksa az mı olduğuna karar vermek araştırmacıya kalmış olacaktır. Bütün bunların amacı, bir ortalama değerle değil, bir dizi değerle çalışmamızdır, bu nedenle, gruplar arasındaki bir parametredeki farkı daha güvenilir bir şekilde tahmin ederiz.

İstatistiksel paketlerde, araştırmacının takdirine bağlı olarak, güven aralığının sınırları bağımsız olarak daraltılabilir veya genişletilebilir. Güven aralığının olasılıklarını düşürerek, ortalama aralığını daraltırız. Örneğin, %90 GA'da, ortalamalar (veya ortalama farklar) aralığı, %95 GA'dan daha dar olacaktır.

Tersine, olasılığı %99'a çıkarmak, değer aralığını genişletir. Grupları karşılaştırırken, CI'nin alt sınırı sıfır işaretini geçebilir. Örneğin, güven aralığının sınırlarını %99'a genişletirsek, aralığın sınırları -1 ile 16 g/L arasında değişir. Bu, genel popülasyonda gruplar olduğu ve incelenen özellik için ortalamalar arasındaki farkın 0 (M=0) olduğu anlamına gelir.

İstatistiksel hipotezleri test etmek için güven aralıkları kullanılabilir. Güven aralığı sıfır değerini geçerse, grupların çalışılan parametrede farklılık göstermediğini varsayan boş hipotez doğrudur. Sınırları %99'a genişlettiğimizde yukarıda bir örnek açıklanmıştır. Genel popülasyonda bir yerde, hiçbir şekilde farklılık göstermeyen gruplar bulduk.

Hemoglobin farkının %95 güven aralığı, (g/l)


Şekil, iki grup arasındaki ortalama hemoglobin farkının %95 güven aralığını bir çizgi olarak göstermektedir. Doğru, sıfır işaretini geçer, bu nedenle, sıfıra eşit ortalamalar arasında bir fark vardır, bu da grupların farklı olmadığı sıfır hipotezini doğrular. Gruplar arasındaki fark -2 ila 5 g/l arasında değişir, bu da hemoglobinin 2 g/l azalabileceği veya 5 g/l artabileceği anlamına gelir.

Güven aralığı çok önemli bir göstergedir. Bu sayede, gruplardaki farklılıkların gerçekten ortalamalardaki farklılıktan mı yoksa büyük bir örneklemden mi kaynaklandığını görebilirsiniz, çünkü büyük bir örneklemde farklılık bulma şansı küçük bir örnekten daha fazladır.

Uygulamada, böyle görünebilir. 1000 kişiden bir örnek aldık, hemoglobin seviyesini ölçtük ve ortalamalar arasındaki farkın güven aralığının 1,2 ila 1,5 g/L arasında olduğunu bulduk. Bu durumda istatistiksel anlamlılık düzeyi p

Hemoglobin konsantrasyonunun arttığını görüyoruz, ancak neredeyse algılanamaz bir şekilde, bu nedenle istatistiksel anlamlılık tam olarak numune boyutundan dolayı ortaya çıktı.

Güven aralıkları sadece ortalamalar için değil, oranlar (ve risk oranları) için de hesaplanabilir. Örneğin, geliştirilen ilacı alırken remisyona ulaşan hastaların oranlarının güven aralığı ile ilgileniyoruz. Oranlar için, yani bu tür hastaların oranı için %95 GA'nın 0.60-0.80 aralığında olduğunu varsayın. Böylece ilacımızın vakaların %60 ila 80'inde tedavi edici bir etkiye sahip olduğunu söyleyebiliriz.

Güven aralığı

Güven aralığı- küçük bir örneklem boyutuyla tercih edilen, istatistiksel parametrelerin aralıklı (noktadan ziyade) tahmini için matematiksel istatistiklerde kullanılan bir terim. Güven aralığı, belirli bir güvenilirlikle bilinmeyen parametreyi kapsayan aralıktır.

Güven aralıkları yöntemi, İngiliz istatistikçi Ronald Fischer'in fikirlerine dayalı olarak Amerikalı istatistikçi Jerzy Neumann tarafından geliştirilmiştir.

Tanım

Güven aralığı parametresi θ rastgele değişken dağılımı X güven seviyesi 100 ile p%, örnek tarafından oluşturulan ( x 1 ,…,x n), sınırları olan bir aralık ( x 1 ,…,x n) ve ( x 1 ,…,x n) rastgele değişkenlerin gerçekleşmeleri olan L(X 1 ,…,X n) ve sen(X 1 ,…,X n) öyle ki

.

Güven aralığının sınır noktalarına denir. güven limitleri.

Güven aralığının sezgiye dayalı bir yorumu şöyle olacaktır: eğer p büyükse (0.95 veya 0.99 diyelim), o zaman güven aralığı neredeyse kesinlikle gerçek değeri içerir θ .

Güven aralığı kavramının başka bir yorumu: parametre değerleri aralığı olarak düşünülebilir. θ deneysel verilerle uyumludur ve bunlarla çelişmez.

Örnekler

  • Normal bir örneğin matematiksel beklentisi için güven aralığı;
  • Normal örnek varyansı için güven aralığı.

Bayes Güven Aralığı

Bayes istatistiklerinde, benzer ancak bazı önemli ayrıntılarda farklılık gösteren bir güven aralığı tanımı vardır. Burada, tahmin edilen parametrenin kendisi, bazılarının a priori dağılımı (en basit durumda tekdüze) ile rastgele bir değişken olarak kabul edilir ve örnek sabittir (klasik istatistikte, her şey tam tersidir). Bayes güven aralığı, sonsal olasılıkla parametre değerini kapsayan aralıktır:

.

Genel olarak, klasik ve Bayes güven aralıkları farklıdır. İngiliz dili literatüründe, Bayes güven aralığı genellikle terim olarak adlandırılır. güvenilir aralık, ve klasik güven aralığı.

Notlar

Kaynaklar

Wikimedia Vakfı. 2010 .

  • Bebek (film)
  • sömürgeci

Diğer sözlüklerde "Güven Aralığı"nın ne olduğunu görün:

    Güven aralığı- belirli bir olasılıkla (güven) tahmin edilen dağılım parametresinin bilinmeyen gerçek değerini kapsayan örnek verilerden hesaplanan aralık. Kaynak: GOST 20522 96: Topraklar. Sonuçların istatistiksel işleme yöntemleri ... Normatif ve teknik dokümantasyon terimlerinin sözlük referans kitabı

    güven aralığı- genel popülasyonun bir skaler parametresi için bu, büyük olasılıkla bu parametreyi içeren bir segmenttir. Bu ifade, daha fazla açıklama yapılmadan anlamsızdır. Güven aralığının sınırları örneklemden tahmin edildiğinden, ... ... Sosyolojik İstatistik Sözlüğü

    GÜVEN ARALIĞI nokta tahmininden farklı bir parametre tahmin yöntemidir. Bir örnek x1, .verilsin. . ., xn olasılık yoğunluğu f(x, α) olan bir dağılımdan ve a*=a*(x1, . . ., xn) tahmini α, g(a*, α) olasılık yoğunluğudur tahmin etmek. arıyoruz…… Jeolojik Ansiklopedi

    GÜVEN ARALIĞI- (güven aralığı) Bir örnek anketten elde edilen bir anakütle parametre değerinin güveninin, örneğin kendisinden dolayı %95 gibi belirli bir olasılık derecesine sahip olduğu aralık. Genişlik… … ekonomik sözlük

    güven aralığı- belirli bir güven olasılığı ile belirlenen miktarın gerçek değerinin bulunduğu aralıktır. Genel kimya: ders kitabı / A. V. Zholnin ... kimyasal terimler

    Güven aralığı CI- Güven aralığı, CI * davyaralny aralığı, CI * işaret değerinin güven aralığı aralığı, c.l için hesaplanmıştır. dağılım parametresi (örneğin bir özelliğin ortalama değeri) örnek üzerinde ve belirli bir olasılıkla (örneğin %95 için %95 ... Genetik. ansiklopedik sözlük

    GÜVEN ARALIĞI- parametre istatistiği tahmin edilirken ortaya çıkan kavram. değer aralığına göre dağılım. D. i. verilen katsayıya karşılık gelen q parametresi için. güven P, öyle bir aralığa (q1, q2) eşittir ki, eşitsizlik olasılığının herhangi bir dağılımı için ... ... Fiziksel Ansiklopedi

    güven aralığı- - Telekomünikasyon konuları, temel kavramlar EN güven aralığı... Teknik Çevirmenin El Kitabı

    güven aralığı- Pasikliovimo intervalas statüleri T sritis Standartizacija ve metrologija apibrėžtis Dydžio gerçek aralıklar, kuriame su pasirinktąja tikimybe yra matavimo rezultato verė. atitikmenys: tür. güven aralığı vok. Vertrauensbereich, m rus.… … Penkiakalbis aiskinamasis metrologijos terminų žodynas

    güven aralığı- Pasikliovimo intervalas statüleri T sritis chemija apibrėžtis Dydžio verčių intervalas, kuriame ve pasirinktąja tikimybe yra matavimo rezultatų vertė. atitikmenys: tür. güven aralığı rus. güven alanı; güven aralığı... Chemijos terminų aiskinamasis žodynas

Bazı özelliklerin normal dağılımına sahip çok sayıda öğemiz olduğunu varsayalım (örneğin, aynı türden, boyutu ve ağırlığı değişen tam bir sebze deposu). Tüm mal grubunun ortalama özelliklerini bilmek istiyorsunuz, ancak her bir sebzeyi ölçmek ve tartmak için ne zamanınız ne de eğiliminiz var. Bunun gerekli olmadığını anlıyorsunuz. Ancak rastgele inceleme için kaç parça almanız gerekir?

Bu durum için faydalı bazı formüller vermeden önce bazı notasyonları hatırlayalım.

İlk olarak, sebze deposunun tamamını ölçseydik (bu eleman grubuna genel nüfus denir), o zaman tüm partinin ağırlığının ortalama değerini elimizdeki tüm doğrulukla bilirdik. Buna ortalama diyelim X bkz. .g tr . - genel ortalama. Ortalama değeri ve sapması biliniyorsa, neyin tamamen belirlendiğini zaten biliyoruz. . Doğru, şimdiye kadar ne X ort. ne de s genel nüfusu tanımıyoruz. Sadece bir miktar numune alabilir, ihtiyacımız olan değerleri ölçebilir ve bu numune için hem numunedeki ortalama X sr değerini hem de standart sapma S sb'yi hesaplayabiliriz.

Özel kontrolümüz çok sayıda öğe içeriyorsa (genellikle n 30'dan büyüktür) ve bunların alındığı bilinmektedir. gerçekten rastgele, sonra genel nüfus neredeyse S'den farklı olmayacak ..

Ayrıca normal dağılım durumunda aşağıdaki formülleri kullanabiliriz:

%95 olasılıkla


%99 olasılıkla



Genel olarak, olasılıkla Р (t)


Güven aralığını bilmek istediğimiz t değeri ile P (t) olasılığının değeri arasındaki ilişki aşağıdaki tablodan alınabilir:


Böylece, genel popülasyon için ortalama değerin hangi aralıkta olduğunu (belirli bir olasılıkla) belirledik.

Yeterince büyük bir örneklemimiz olmadıkça, popülasyonun s = olduğunu iddia edemeyiz. S sel. Ayrıca bu durumda örneğin normal dağılıma yakınlığı sorunludur. Bu durumda, bunun yerine S sb'yi de kullanın. formülde s:




ancak sabit bir olasılık P(t) için t'nin değeri, n örneğindeki eleman sayısına bağlı olacaktır. n büyüdükçe, elde edilen güven aralığı formül (1) ile verilen değere daha yakın olacaktır. Bu durumdaki t değerleri, aşağıda sunduğumuz başka bir tablodan (Student's t-test) alınmıştır:

0.95 ve 0.99 olasılık için Student t testi değerleri


Örnek 3 Firma çalışanlarından rastgele 30 kişi seçilmiştir. Örneğe göre, ortalama maaşın (aylık) ortalama 5 bin ruble kare sapma ile 30 bin ruble olduğu ortaya çıktı. 0.99 olasılıkla firmadaki ortalama maaşı belirleyin.

Çözüm: Koşul olarak, n = 30'a sahibiz, X cf. =3000, S=5000, P=0.99. Güven aralığını bulmak için Öğrenci kriterine karşılık gelen formülü kullanırız. n \u003d 30 ve P \u003d 0.99 için tabloya göre t \u003d 2.756'yı buluyoruz, bu nedenle,


şunlar. istenen güven aralık 27484< Х ср.ген < 32516.

Dolayısıyla 0.99 olasılıkla aralığın (27484; 32516) şirketteki ortalama maaşı içerdiği söylenebilir.

Her seferinde yanınızda mutlaka bir elektronik tablo bulundurmanıza gerek kalmadan bu yöntemi kullanacağınızı umuyoruz. Hesaplamalar Excel'de otomatik olarak yapılabilir. Bir Excel dosyasındayken, üst menüdeki fx düğmesini tıklayın. Ardından, işlevler arasından "istatistiksel" tipini ve kutudaki önerilen listeden - STEUDRASP'ı seçin. Ardından, komut isteminde, imleci "olasılık" alanına yerleştirerek, karşılıklı olasılığın değerini yazın (yani, bizim durumumuzda, 0,95 olasılığı yerine, 0,05 olasılığını yazmanız gerekir). Görünüşe göre elektronik tablo, sonucun ne kadar yanlış olabileceğimiz sorusuna cevap verecek şekilde tasarlandı. Benzer şekilde, "serbestlik derecesi" alanına numuneniz için (n-1) değerini girin.

Güven aralığı bize istatistik alanından geldi. Bu, bilinmeyen bir parametreyi yüksek derecede güvenilirlikle tahmin etmeye hizmet eden tanımlanmış bir aralıktır. Bunu açıklamanın en kolay yolu bir örnekle.

Örneğin, bir istemci isteğine sunucunun yanıt verme hızı gibi bazı rasgele değişkenleri araştırmanız gerektiğini varsayalım. Bir kullanıcı belirli bir sitenin adresini her yazdığında, sunucu farklı bir hızda yanıt verir. Böylece, araştırılan yanıt süresi rastgele bir karaktere sahiptir. Böylece, güven aralığı bu parametrenin sınırlarını belirlemenize izin verir ve ardından sunucunun %95 olasılıkla hesapladığımız aralıkta olacağını söylemek mümkün olacaktır.

Veya şirketin markasını kaç kişinin bildiğini bulmanız gerekiyor. Güven aralığı hesaplandığında örneğin %95 olasılıkla bunu bilen tüketicilerin payının %27 ile %34 aralığında olduğunu söylemek mümkün olacaktır.

Bu terimle yakından ilgili, güven düzeyi gibi bir değerdir. İstenen parametrenin güven aralığına dahil edilme olasılığını temsil eder. Bu değer, istediğimiz aralığın ne kadar büyük olacağını belirler. Aldığı değer ne kadar büyük olursa, güven aralığı o kadar dar olur ve bunun tersi de geçerlidir. Genellikle %90, %95 veya %99 olarak ayarlanır. %95 değeri en popüler olanıdır.

Bu gösterge aynı zamanda gözlemlerin varyansından da etkilenir ve tanımı, incelenen özelliğin uyduğu varsayımına dayanır.Bu ifade Gauss Yasası olarak da bilinir. Ona göre, bir olasılık yoğunluğu ile tanımlanabilen sürekli bir rastgele değişkenin tüm olasılıklarının böyle bir dağılımına normal denir. Normal dağılım varsayımının yanlış olduğu ortaya çıkarsa, tahmin yanlış olabilir.

İlk olarak, burada iki durum mümkündür için güven aralığının nasıl hesaplanacağını bulalım. Dağılım (rastgele bir değişkenin yayılma derecesi) bilinebilir veya bilinmeyebilir. Biliniyorsa, güven aralığımız aşağıdaki formül kullanılarak hesaplanır:

xsr - t*σ / (sqrt(n))<= α <= хср + t*σ / (sqrt(n)), где

α - işareti,

t, Laplace dağıtım tablosundan bir parametredir,

σ, dağılımın kare köküdür.

Varyans bilinmiyorsa, istenen özelliğin tüm değerlerini biliyorsak hesaplanabilir. Bunun için aşağıdaki formül kullanılır:

σ2 = х2ср - (хр)2, burada

х2ср - incelenen özelliğin karelerinin ortalama değeri,

(xsr)2 bu özelliğin karesidir.

Bu durumda güven aralığının hesaplandığı formül biraz değişir:

xsr - t*s / (sqrt(n))<= α <= хср + t*s / (sqrt(n)), где

xsr - örnek ortalama,

α - işareti,

t, Öğrenci dağıtım tablosu t \u003d t (ɣ; n-1) kullanılarak bulunan bir parametredir,

sqrt(n) toplam örnek boyutunun karekökü,

s, varyansın kare köküdür.

Bu örneği düşünün. 7 ölçümün sonuçlarına dayanarak, incelenen özelliğin 30 ve örnek varyansının 36 olarak belirlendiğini varsayalım. %99 olasılıkla, gerçek değerini içeren bir güven aralığı bulmak gerekir. ölçülen parametre

İlk önce, t'nin neye eşit olduğunu belirleyelim: t \u003d t (0.99; 7-1) \u003d 3.71. Yukarıdaki formülü kullanarak şunu elde ederiz:

xsr - t*s / (sqrt(n))<= α <= хср + t*s / (sqrt(n))

30 - 3.71*36 / (sqrt(7))<= α <= 30 + 3.71*36 / (sqrt(7))

21.587 <= α <= 38.413

Varyans için güven aralığı, hem bilinen bir ortalama durumunda hem de matematiksel beklenti hakkında veri olmadığında hesaplanır ve sadece varyansın yansız nokta tahmininin değeri bilinir. Burada hesaplama formüllerini vermeyeceğiz, çünkü bunlar oldukça karmaşıktır ve istenirse her zaman internette bulunabilirler.

Yalnızca Excel programını veya buna adı verilen bir ağ hizmetini kullanarak güven aralığını belirlemenin uygun olduğunu not ediyoruz.