Dağıtım serisi. Verileri gruplama ve bir dağıtım serisi oluşturma

Gruplandırma- Bu, bir nüfusun bazı özelliklere göre homojen olan gruplara bölünmesidir.

Hizmetin amacı. Çevrimiçi hesap makinesini kullanarak şunları yapabilirsiniz:

  • bir varyasyon serisi oluşturun, bir histogram ve çokgen oluşturun;
  • varyasyon göstergelerini bulun (ortalama, mod (grafiksel dahil), medyan, varyasyon aralığı, çeyrekler, ondalıklar, çeyrek farklılaşma katsayısı, varyasyon katsayısı ve diğer göstergeler);

Talimatlar. Bir seriyi gruplandırmak için, elde edilen varyasyon serisinin türünü (ayrık veya aralıklı) seçmeli ve veri miktarını (satır sayısı) belirtmelisiniz. Ortaya çıkan çözüm bir Word dosyasına kaydedilir (istatistiksel verilerin gruplandırılması örneğine bakın).

Giriş verisi sayısı
",0);">

Gruplandırma zaten yapılmışsa ve ayrık varyasyon serisi veya aralık serisi, o zaman çevrimiçi hesaplayıcı Varyasyon Endekslerini kullanmanız gerekir. Dağıtım türüne ilişkin hipotezin test edilmesi Dağıtım formunun incelenmesi hizmeti kullanılarak gerçekleştirilir.

İstatistiksel gruplama türleri

Varyasyon serisi. Ayrık bir rastgele değişkenin gözlemlenmesi durumunda aynı değerle birkaç kez karşılaşılabilir. Rastgele bir değişkenin bu değerleri x i, n gözlemde kaç kez göründüğünü belirterek kaydedilir, bu, bu değerin frekansıdır.
Sürekli bir rastgele değişken olması durumunda pratikte gruplandırma kullanılır.
  1. Tipolojik gruplama- bu, incelenen niteliksel olarak heterojen nüfusun sınıflara, sosyo-ekonomik türlere, homojen birim gruplarına bölünmesidir. Bu gruplamayı oluşturmak için Ayrı varyasyon serisi parametresini kullanın.
  2. Bir gruplamaya yapısal denir Homojen bir popülasyonun, yapısını değişen bazı karakteristiklere göre karakterize eden gruplara bölündüğü. Bu gruplamayı oluşturmak için Aralık serisi parametresini kullanın.
  3. İncelenen fenomenler ile özellikleri arasındaki ilişkileri ortaya koyan bir gruplamaya denir. analitik grup(bkz. serilerin analitik gruplandırılması).

İstatistiksel gruplamaların oluşturulmasına ilişkin ilkeler

Artan sırada sıralanan bir dizi gözleme varyasyon serisi denir.. Gruplandırma özelliği bir popülasyonun ayrı gruplara bölünmesini sağlayan bir özelliktir. Grubun temeli denir. Gruplandırma hem niceliksel hem de niteliksel özelliklere dayanabilir.
Gruplamanın temeli belirlendikten sonra, incelenen popülasyonun kaç gruba bölünmesi gerektiği sorusuna karar verilmelidir.

İstatistiksel verileri işlemek için kişisel bilgisayarlar kullanıldığında, nesne birimlerinin gruplandırılması standart prosedürler kullanılarak gerçekleştirilir.
Böyle bir prosedür, optimum grup sayısını belirlemek için Sturgess formülünün kullanımına dayanmaktadır:

k = 1+3,322*log(N)

Burada k grup sayısı, N ise popülasyon birimi sayısıdır.

Kısmi aralıkların uzunluğu h=(x max -x min)/k olarak hesaplanır

Daha sonra bu aralıklara düşen gözlemlerin sayısı sayılır ve bunlar n i frekansları olarak alınır. Değerleri 5'ten küçük olan birkaç frekans (n ​​i< 5), следует объединить. в этом случае надо объединить и соответствующие интервалы.
x i =(c i-1 +c i)/2 aralıklarının orta değerleri yeni değerler olarak alınır.

Ayrık özellikler için ayrık bir varyasyon serisi oluşturulmuştur.

Ayrı bir varyasyon serisi oluşturmak için aşağıdaki adımları uygulamanız gerekir: 1) gözlem birimlerini, özelliğin incelenen değerine göre artan sırada düzenleyin,

2) x i niteliğinin tüm olası değerlerini belirleyin, bunları artan sırada düzenleyin,

özelliğin değeri, Ben .

özellik değerinin sıklığı ve belirtmek F Ben . Bir serinin tüm frekanslarının toplamı, incelenen popülasyondaki elementlerin sayısına eşittir.

örnek 1 .

Öğrencilerin sınavlarda aldığı notların listesi: 3; 4; 3; 5; 4; 2; 2; 4; 4; 3; 5; 2; 4; 5; 4; 3; 4; 3; 3; 4; 4; 2; 2; 5; 5; 4; 5; 2; 3; 4; 4; 3; 4; 5; 2; 5; 5; 4; 3; 3; 4; 2; 4; 4; 5; 4; 3; 5; 3; 5; 4; 4; 5; 4; 4; 5; 4; 5; 5; 5.

İşte numara X - seviyeayrık bir rastgele değişkendir ve sonuçta ortaya çıkan tahmin listesi şu şekildedir:istatistiksel (gözlenebilir) veriler .

    Gözlem birimlerini incelenen karakteristik değere göre artan sırada düzenleyin:

2; 2; 2; 2; 2; 2; 2; 2; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 3; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 4; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5; 5.

2) x i özelliğinin tüm olası değerlerini belirleyin, bunları artan sırada sıralayın:

Bu örnekte tüm tahminler aşağıdaki değerlere sahip dört gruba ayrılabilir: 2; 3; 4; 5.

Belirli bir gözlemlenen veri grubuna karşılık gelen rastgele değişkenin değerine denir. özelliğin değeri, seçenek (seçenek) ve x'i belirtin Ben .

Bir özelliğin karşılık gelen değerinin birkaç gözlemde kaç kez oluştuğunu gösteren sayıya denir. özellik değerinin sıklığı ve belirtmek F Ben .

Örneğimiz için

puan 2 oluşur - 8 kez,

puan 3 oluşur - 12 kez,

puan 4 oluşur - 23 kez,

puan 5 oluşur - 17 kez.

Toplamda 60 derecelendirme var.

4) alınan verileri iki satırdan (sütunlardan) oluşan bir tabloya yazın - x i ve f i.

Bu verilere dayanarak ayrı bir varyasyon serisi oluşturmak mümkündür.

Ayrık varyasyon serisi – incelenen özelliğin ortaya çıkan değerlerinin artan sırada bireysel değerler ve bunların frekansları olarak gösterildiği bir tablodur

  1. Bir aralık varyasyon serisinin oluşturulması

Ayrık varyasyon serilerine ek olarak, aralıklı varyasyon serileri gibi verileri gruplandırma yöntemine sıklıkla rastlanır.

Aşağıdaki durumlarda bir aralık serisi oluşturulur:

    burcun sürekli bir değişim doğası vardır;

    Çok sayıda ayrı değer vardı (10'dan fazla)

    ayrık değerlerin frekansları çok küçüktür (nispeten çok sayıda gözlem birimiyle 1-3'ü geçmeyin);

    bir özelliğin aynı frekanslara sahip birçok ayrık değeri.

Aralık varyasyon serisi, verileri iki sütunlu bir tablo biçiminde gruplamanın bir yoludur (bir değer aralığı biçimindeki karakteristik değerleri ve her aralığın sıklığı).

Ayrık bir serinin aksine, bir aralık serisinin karakteristiğinin değerleri, bireysel değerlerle değil, bir değer aralığıyla ("başlangıçtan -e") temsil edilir.

Seçilen her aralığa kaç gözlem biriminin düştüğünü gösteren sayıya ne denir? özellik değerinin sıklığı ve belirtmek F Ben . Bir serinin tüm frekanslarının toplamı, incelenen popülasyondaki öğelerin (gözlem birimleri) sayısına eşittir.

Bir birimin karakteristik değeri aralığın üst sınırına eşitse bir sonraki aralığa atanmalıdır.

Örneğin boyu 100 cm olan bir çocuk birinci aralığa değil 2. aralığa düşecektir; ve boyu 130 cm olan bir çocuk üçüncü aralığa değil son aralığa düşecektir.

Bu verilere dayanarak bir aralık değişim serisi oluşturulabilir.

Her aralığın bir alt sınırı (xn), bir üst sınırı (xw) ve bir aralık genişliği ( Ben).

Aralık sınırı, iki aralığın sınırında yer alan özelliğin değeridir.

çocukların boyu (cm)

çocukların boyu (cm)

çocuk miktarı

130'dan fazla

Bir aralığın bir üst ve alt sınırı varsa buna denir. kapalı aralık. Bir aralığın yalnızca alt veya yalnızca üst sınırı varsa, o zaman - açık aralık. Yalnızca en ilk veya en son aralık açık olabilir. Yukarıdaki örnekte son aralık açıktır.

Aralık genişliği (Ben) – üst ve alt limitler arasındaki fark.

Ben = x n - x içinde

Açık aralığın genişliğinin bitişik kapalı aralığın genişliğiyle aynı olduğu varsayılmaktadır.

çocukların boyu (cm)

çocuk miktarı

Aralık genişliği (i)

hesaplamalar için 130+20=150

20 (çünkü bitişik kapalı aralığın genişliği 20'dir)

Tüm aralık serileri, eşit aralıklı aralık serileri ve eşit olmayan aralıklı aralık serileri olarak ikiye ayrılır. . Eşit aralıklarla aralıklı sıralarda tüm aralıkların genişliği aynıdır. Aralıkları eşit olmayan aralık serilerinde aralıkların genişliği farklıdır.

Söz konusu örnekte - eşit olmayan aralıklara sahip bir aralık serisi.

Grup sayısı (aralıklar) Sturgess formülüyle yaklaşık olarak belirlenir:

m = 1 + 3,322 × log(n)

burada n, gözlem birimlerinin toplam sayısıdır (popülasyondaki toplam öğe sayısı vb.), log(n), n'nin ondalık logaritmasıdır.

Kabul edilmiş Sturgess formülüne göre değer genellikle en yakın tam sayıya yuvarlanır. sayılar, çünkü grupların sayısı kesirli sayı olamaz.

Bu kadar çok grup içeren bir aralık serisi bazı kriterler açısından tatmin edici değilse, yuvarlama yaparak başka bir aralık serisi oluşturabilirsiniz. M daha küçük bir tamsayıya dönüştürün ve iki sıradan daha uygun olanı seçin.

Grup sayısı 15'i geçmemelidir.

Ondalık logaritmayı hesaplamak hiç mümkün değilse aşağıdaki tabloyu da kullanabilirsiniz.

    Aralığın genişliğini belirleme

Aralık genişliği eşit aralıklara sahip bir aralık varyasyon serisi için aşağıdaki formülle belirlenir:

burada Xmax, xi değerlerinin maksimumudur, X min, xi değerlerinin minimumudur; m - grup sayısı (aralıklar).

Aralığın boyutu (Ben ) genellikle en yakın tam sayıya yuvarlanır, tek istisna, bir karakteristikteki en ufak dalgalanmaların incelendiği durumlardır (örneğin, parçaları bir milimetrenin kesirleri cinsinden ölçülen nominal değerden sapmaların boyutuna göre gruplandırırken).

Aşağıdaki kural sıklıkla kullanılır:

Ondalık basamak sayısı

Virgülden sonra bir dizi sembol

Formül kullanılarak aralık genişliği örneği

Hangi işarete yuvarlıyoruz?

Yuvarlatılmış aralık genişliği örneği

    Aralıkların sınırlarının belirlenmesi

Alt sınır ilk aralıközelliğin minimum değerine eşit olarak alınır (çoğunlukla ilk önce aralığın genişliğiyle aynı sıralamaya sahip daha küçük bir tam sayıya yuvarlanır). Örneğin x min = 15, i=130, birinci aralığın x n'si = 10.

x n1 ≈ x dk

Üst sınır ilk aralık değere karşılık gelir (Xmin + Ben).

İkinci aralığın alt sınırı her zaman birinci aralığın üst sınırına eşittir. Sonraki gruplar için sınırlar benzer şekilde belirlenir, yani aralık değeri art arda eklenir.

X V Ben = x N Ben +ben

X N Ben = x V i-1

    Aralıkların frekanslarını belirleyin.

Her aralığa kaç değerin düştüğünü sayıyoruz. Aynı zamanda, bir birimin aralığın üst sınırına eşit bir karakteristik değeri varsa, o zaman bir sonraki aralığa atanması gerektiğini hatırlıyoruz.

    Tablo şeklinde bir aralık serisi oluşturuyoruz.

    Aralıkların orta noktalarını belirleyin.

Aralık serisinin daha ayrıntılı analizi için her aralık için bir karakteristik değer seçmeniz gerekecektir. Bu nitelik değeri, bu aralığa giren tüm gözlem birimleri için ortak olacaktır. Onlar. bireysel öğeler bireysel nitelik değerlerini “kaybeder” ve onlara ortak bir nitelik değeri atanır. Bu genel anlam aralığın ortası, belirtilen X" Ben .

Çocukların büyümesi örneğini kullanarak eşit aralıklara sahip bir aralık serisinin nasıl oluşturulacağına bakalım.

İlk veriler mevcut.

90, 91, 92, 93, 94, 95, 96, 97, 98, 99 , 92, 93, 94, 95, 96, 98 , , 100, 101, 102, 103, 104, 105, 106, 107, 108, 109 , 100, 101, 102, 104 , 110, 112, 114, 116, 117, 120, 122, 123, 124, 129, 110, 111, 113, 115, 116, 117, 121, 125, 126, 127 , 110, 111, 112, 113, 114, 115, 116, 117, 118, 119, 120, 121, 122, 123, 124, 125, 126, 127, 128, 129 , 111, 113, 116, 127 , 123, 122, 130, 131, 132, 133, 134, 136, 137, 138, 139, 140, 141, 142, 143, 144, 145, 146, 147, 148, 149, 150 , 131, 133, 135, 136, 138, 139, 140, 141, 142, 143, 145, 146, 147, 148

Toplanan istatistiksel verilerin gruplandırılmasının sonuçları genellikle dağılım serileri şeklinde sunulur. Bir dağılım serisi, üzerinde çalışılan özelliğe göre popülasyon birimlerinin gruplara düzenli bir şekilde dağıtılmasıdır.

Dağılım serileri, gruplandırmanın temelini oluşturan özelliğe bağlı olarak, niteleyici ve değişken olarak ikiye ayrılır. Nitelik niteliksel ise, dağılım serisine niteliksel denir. Nitelik serisine bir örnek, işletmelerin ve kuruluşların mülkiyet türüne göre dağılımıdır (bkz. Tablo 3.1).

Dağılım serisinin oluşturulduğu karakteristik niceliksel ise bu seriye varyasyonel seri denir.

Bir dağılımın varyasyon serisi her zaman iki bölümden oluşur: bir değişken ve karşılık gelen frekanslar (veya frekanslar). Değişken, bir özelliğin popülasyon birimlerinde alabileceği değerdir; frekans ise, özelliğin belirli bir değerine sahip olan gözlem birimlerinin sayısıdır. Frekansların toplamı her zaman popülasyonun hacmine eşittir. Bazen frekanslar yerine frekanslar hesaplanır; bunlar ya bir birimin kesirleri (bu durumda tüm frekansların toplamı 1'e eşit olur) veya nüfus hacminin yüzdesi (frekansların toplamı) olarak ifade edilen frekanslardır. %100'e eşit olacaktır.

Varyasyon serileri ayrık ve aralıklıdır. Ayrık seriler için (Tablo 3.7), seçenekler belirli sayılarla, çoğunlukla da tam sayılarla ifade edilir.

Tablo 3.8. Sigorta şirketinde çalışanların çalışma sürelerine göre dağılımı
Şirkette çalışılan süre, tam yıl (seçenekler) Çalışan Sayısı
Adam (frekanslar) Toplamın yüzdesi olarak (frekans)
bir yıla kadar 15 11,6
1 17 13,2
2 19 14,7
3 26 20,2
4 10 7,8
5 18 13,9
6 24 18,6
Toplam 129 100,0

Aralık serilerinde (bkz. Tablo 3.2), gösterge değerleri aralıklar şeklinde belirtilir. Aralıkların iki sınırı vardır: alt ve üst. Aralıklar açık veya kapalı olabilir. Açık olanların kenarlıklarından biri yoktur, bu nedenle Tabloda. 3.2 İlk aralığın alt sınırı yoktur ve sonuncunun üst sınırı yoktur. Bir aralık serisi oluştururken, nitelik değerlerinin yayılmasının niteliğine bağlı olarak, hem eşit hem de eşit olmayan aralıklar kullanılır (Tablo 3.2, eşit aralıklara sahip bir varyasyon serisini göstermektedir).

Bir karakteristik sınırlı sayıda (genellikle 10'dan fazla olmayan) değer alıyorsa, ayrık dağılım serileri oluşturulur. Seçenek daha büyükse ayrık seriler netliğini kaybeder; bu durumda varyasyon serisinin aralık formunun kullanılması tavsiye edilir. Bir özelliğin sürekli değişmesiyle, belirli sınırlar içindeki değerleri birbirinden keyfi olarak küçük bir miktarda farklı olduğunda, bir aralık dağılım serisi de oluşturulur.

3.3.1. Ayrık varyasyon serilerinin oluşturulması

Bir örnek kullanarak ayrık varyasyon serileri oluşturma metodolojisini ele alalım.

Örnek 3.2. 60 ailenin niceliksel bileşimine ilişkin aşağıdaki veriler mevcuttur:

Ailelerin üye sayısına göre dağılımı hakkında fikir edinmek için bir varyasyon serisi oluşturulmalıdır. İşaret sınırlı sayıda tamsayı değeri aldığından, ayrık bir varyasyon serisi oluşturuyoruz. Bunu yapmak için, öncelikle özelliğin tüm değerlerini (ailedeki üye sayısı) artan sırada yazmanız önerilir (yani istatistiksel verileri sıralayın):

Daha sonra aynı bileşime sahip ailelerin sayısını saymanız gerekir. Aile üyelerinin sayısı (değişen bir özelliğin değeri) değişkenlerdir (bunları x ile göstereceğiz), aynı bileşime sahip ailelerin sayısı ise frekanslardır (bunları f ile göstereceğiz). Gruplandırma sonuçlarını aşağıdaki ayrık varyasyonel dağılım serisi biçiminde sunuyoruz:

Tablo 3.11.
Aile üyesi sayısı (x) Aile sayısı (y)
1 8
2 14
3 20
4 9
5 5
6 4
Toplam 60

3.3.2. Aralık varyasyon serisinin oluşturulması

Aşağıdaki örneği kullanarak aralık varyasyon dağılım serilerini oluşturmaya yönelik metodolojiyi gösterelim.

Örnek 3.3. İstatistiksel gözlem sonucunda 50 ticari bankanın ortalama faiz oranına (%) ilişkin aşağıdaki veriler elde edildi:

Tablo 3.12.
14,7 19,0 24,5 20,8 12,3 24,6 17,0 14,2 19,7 18,8
18,1 20,5 21,0 20,7 20,4 14,7 25,1 22,7 19,0 19,6
19,0 18,9 17,4 20,0 13,8 25,6 13,0 19,0 18,7 21,1
13,3 20,7 15,2 19,9 21,9 16,0 16,9 15,3 21,4 20,4
12,8 20,8 14,3 18,0 15,1 23,8 18,5 14,4 14,4 21,0

Gördüğümüz gibi, böyle bir veri dizisini görüntülemek son derece elverişsizdir, ayrıca göstergede hiçbir değişiklik modeli görülmez. Bir aralık dağılım serisi oluşturalım.

  1. Aralık sayısını belirleyelim.

    Uygulamadaki aralıkların sayısı genellikle her bir gözlemin hedeflerine göre araştırmacının kendisi tarafından belirlenir. Aynı zamanda Sturgess formülü kullanılarak matematiksel olarak da hesaplanabilmektedir.

    n = 1 + 3,322lgN,

    burada n, aralıkların sayısıdır;

    N, popülasyonun hacmidir (gözlem birimlerinin sayısı).

    Örneğimiz için şunu elde ederiz: n = 1 + 3,322lgN = 1 + 3,322lg50 = 6,6 "7.

  2. Formülü kullanarak aralıkların boyutunu (i) belirleyelim.

    burada xmax, özelliğin maksimum değeridir;

    x min - özelliğin minimum değeri.

    Örneğimiz için

    Bir varyasyon serisinin aralıkları, sınırları "yuvarlak" değerlere sahipse açıktır; bu nedenle aralığın değerini 1,9'dan 2'ye ve karakteristik özelliğin minimum değerini 12,3'ten 12,0'a yuvarlayalım.

  3. Aralıkların sınırlarını belirleyelim.

    Aralıklar, kural olarak, bir aralığın üst sınırı aynı zamanda bir sonraki aralığın alt sınırı olacak şekilde yazılır. Örneğimiz için şunu elde ediyoruz: 12.0-14.0; 14.0-16.0; 16.0-18.0; 18.0-20.0; 20.0-22.0; 22.0-24.0; 24.0-26.0.

    Böyle bir giriş, niteliğin sürekli olduğu anlamına gelir. Bir özelliğin varyantları, örneğin yalnızca tamsayılar gibi kesin olarak tanımlanmış değerler alıyorsa, ancak sayıları ayrı bir seri oluşturmak için çok büyükse, aralığın alt sınırının üst sınırla çakışmayacağı bir aralık serisi oluşturabilirsiniz. bir sonraki aralığın sınırı (bu, karakteristiğin ayrık olduğu anlamına gelir). Örneğin kurumsal çalışanların yaşa göre dağılımında şu yıl aralık gruplarını oluşturabilirsiniz: 18-25, 26-33, 34-41, 42-49, 50-57, 58-65, 66 ve üzeri.

    Ek olarak örneğimizde ilk ve son aralıkları açık hale getirebiliriz vb. yazma: 14,0'a kadar; 24.0 ve üzeri.

  4. İlk verilere dayanarak sıralanmış bir seri oluşturacağız. Bunun için işaretin aldığı değerleri artan sırayla yazıyoruz. Sonuçları tabloda sunuyoruz: Tablo 3.13. Ticari bankaların sıralanmış faiz oranları serisi
    Banka oranı % (seçenekler)
    12,3 17,0 19,9 23,8
    12,8 17,4 20,0 24,5
    13,0 18,0 20,0 24,6
    13,3 18,1 20,4 25,1
    13,8 18,5 20,4 25,6
    14,2 18,7 20,5
    14,3 18,8 20,7
    14,4 18,9 20,7
    14,7 19,0 20,8
    14,7 19,0 21,0
    15,1 19,0 21,0
    15,2 19,0 21,1
    15,3 19,0 21,4
    16,0 19,6 21,9
    16,9 19,7 22,7
  5. Frekansları sayalım.

    Frekansları sayarken, bir özelliğin değerinin belirli bir aralığın sınırına düştüğü bir durum ortaya çıkabilir. Bu durumda, kurala göre yönlendirilebilirsiniz: belirli bir birim, değerinin üst sınır olduğu aralığa atanır. Yani örneğimizdeki 16,0 değeri ikinci aralığı ifade edecektir.

Örneğimizde elde edilen gruplama sonuçları bir tabloda sunulacaktır.

Tablo 3.14. Ticari bankaların kredi faiz oranlarına göre dağılımı
Kısa oran, % Banka sayısı, birim (frekanslar) Birikmiş frekanslar
12,0-14,0 5 5
14,0-16,0 9 14
16,0-18,0 4 18
18,0-20,0 15 33
20,0-22,0 11 44
22,0-24,0 2 46
24,0-26,0 4 50
Toplam 50 -

Tablonun son sütunu, birinciden başlayarak frekansların sırayla toplanmasıyla elde edilen birikmiş frekansları sunar (örneğin, ilk aralık için - 5, ikinci aralık için 5 + 9 = 14, üçüncü aralık için 5 + 9 + 4 = 18 vb.). Birikmiş frekans, örneğin 33, 33 bankanın %20'yi (ilgili aralığın üst limiti) aşmayan bir kredi faiz oranına sahip olduğunu göstermektedir.

Varyasyon serileri oluşturulurken verilerin gruplandırılması sürecinde bazen eşit olmayan aralıklar kullanılır. Bu, bir özelliğin değerlerinin aritmetik veya geometrik ilerleme kuralına uyduğu veya Sturgess formülünün uygulanmasının tek bir gözlem birimi içermeyen "boş" aralık gruplarının ortaya çıkmasına yol açtığı durumlar için geçerlidir. Daha sonra aralıkların sınırları, araştırmacının kendisi tarafından, sağduyuya ve anketin hedeflerine dayanarak veya formüller kullanılarak keyfi olarak belirlenir. Yani aritmetik ilerlemede değişen veriler için aralıkların boyutu aşağıdaki gibi hesaplanır.

Laboratuvar çalışması No. 1. İstatistiksel verilerin birincil işlenmesi

Dağıtım serisinin inşaatı

Nüfus birimlerinin herhangi bir özelliğe göre gruplara düzenli dağılımına denir. yakın dağıtım . Bu durumda, karakteristik niceliksel olabilir, o zaman seriye denir varyasyonel ve niteliksel ise seri denir niteliksel . Dolayısıyla, örneğin bir şehrin nüfusu, bir varyasyon serisindeki yaş gruplarına göre veya bir nitelik serisindeki mesleki bağlılığa göre dağıtılabilir (tabii ki, dağıtım serisini oluşturmak için daha birçok niteliksel ve niceliksel özellik önerilebilir; karakteristik istatistiksel araştırma görevi tarafından belirlenir).

Herhangi bir dağıtım serisi iki unsurla karakterize edilir:

- seçenek(x ben) – bunlar örnek popülasyondaki birimlerin karakteristiğinin bireysel değerleridir. Varyasyon serileri için bu seçenek sayısal değerler alır; niteliksel seriler için ise niteliksel (örneğin, x = “memur”);

- sıklık(N Ben) – belirli bir nitelik değerinin kaç kez oluştuğunu gösteren bir sayı. Sıklık göreceli bir sayı olarak ifade edilirse (yani popülasyonun toplam hacmindeki seçeneklerin belirli bir değerine karşılık gelen popülasyondaki öğelerin oranı), o zaman buna denir. göreceli frekans veya sıklık.

Varyasyon serisi şunlar olabilir:

- ayrık, incelenen karakteristik belirli bir sayıyla (genellikle bir tam sayı) karakterize edildiğinde.

- aralık Sürekli değişen bir özellik için “başlangıç” ve “bitiş” sınırları tanımlandığında. Ayrı ayrı değişen bir özelliğin değer kümesi büyükse, bir aralık serisi de oluşturulur.

İstatistiksel çalışmanın koşulları gerektiriyorsa, hem eşit uzunlukta aralıklarla (eşit aralıklı seriler) hem de eşit olmayan aralıklarla bir aralık serisi oluşturulabilir. Örneğin aşağıdaki aralıklara sahip bir dizi gelir dağılımı düşünülebilir:<5тыс р., 5-10 тыс р., 10-20 тыс.р., 20-50 тыс р., и т.д. Если цель исследования не определяет способ построения интервального ряда, то строится равноинтервальный ряд, число интервалов в котором определяется по формуле Стерджесса:



burada k aralık sayısıdır, n ise örneklem büyüklüğüdür. (Elbette formül genellikle kesirli bir sayı verir ve aralık sayısı olarak ortaya çıkan sayıya en yakın tam sayı seçilir.) Bu durumda aralığın uzunluğu formülle belirlenir.

.

Grafiksel olarak varyasyon serileri şu şekilde sunulabilir: histogramlar(aralık serisinin her aralığının üstünde, bu aralıktaki frekansa karşılık gelen yükseklikte bir "sütun" oluşturulur), dağıtım poligonu(noktaları birleştiren kesik çizgi ( x ben;n ben) veya biriken(birikmiş frekanslar üzerine kuruludur, yani her bir özellik değeri için, verilenden daha düşük bir özellik değerine sahip bir dizi nesnede meydana gelme sıklığı alınır).

Excel'de çalışırken varyasyon serileri oluşturmak için aşağıdaki işlevler kullanılabilir:

KONTROL ETMEK( veri dizisi) – numune boyutunu belirlemek için. Bağımsız değişken, örnek verilerin bulunduğu hücre aralığıdır.

EĞERSAY( menzil; kriter) – bir nitelik veya değişken seri oluşturmak için kullanılabilir. Bağımsız değişkenler, niteliğin ve kriterin örnek değerleri dizisinin aralığıdır - niteliğin sayısal veya metin değeri veya içinde bulunduğu hücrenin sayısı. Sonuç, bu değerin numunede görülme sıklığıdır.

SIKLIK( veri dizisi; aralık dizisi) – bir varyasyon serisi oluşturmak için. Bağımsız değişkenler, örnek veri dizisinin aralığı ve aralık sütunudur. Ayrı bir seri oluşturmanız gerekiyorsa, seçeneklerin değerleri burada belirtilir; eğer bir aralık serisi ise, aralıkların üst sınırları (bunlara "cepler" de denir). Sonuç bir frekans sütunu olduğundan, CTRL+SHIFT+ENTER tuşlarına basarak işlev girişini tamamlamanız gerekir. Bir işlevi tanıtırken bir aralık dizisi belirlerken, içindeki son değeri belirtmeniz gerekmediğini unutmayın; önceki "ceplere" dahil olmayan tüm değerler, karşılık gelen "cebe" yerleştirilecektir. Bu bazen en büyük örnek değerini otomatik olarak son cebe yerleştirmeme hatasını önlemeye yardımcı olabilir.

Ayrıca karmaşık gruplamalar için (çeşitli özelliklere dayalı olarak) "pivot tablolar" aracını kullanın. Ayrıca nitelik ve varyasyon serileri oluşturmak için de kullanılabilirler ancak bu, görevi gereksiz yere karmaşık hale getirir. Ayrıca bir varyasyon serisi ve histogram oluşturmak için “Analiz Paketi” eklentisinden bir “histogram” prosedürü vardır (Excel'de eklentileri kullanmak için önce bunları indirmelisiniz; varsayılan olarak kurulmazlar)

Birincil veri işleme sürecini aşağıdaki örneklerle açıklayalım.

Örnek 1.1. 60 ailenin niceliksel bileşimine ilişkin veriler bulunmaktadır.

Bir varyasyon serisi ve dağıtım poligonu oluşturun

Çözüm.

Excel tablolarını açalım. Veri dizisini A1:L5 aralığına girelim. Elektronik biçimde (örneğin Word biçiminde) bir belge üzerinde çalışıyorsanız, bunu yapmak için, verilerin bulunduğu tabloyu seçip panoya kopyalamanız, ardından A1 hücresini seçip verileri yapıştırmanız yeterlidir; bunlar otomatik olarak uygun aralık. Örnek hacmini n - örnek veri sayısını hesaplayalım; bunu yapmak için B7 hücresine =COUNT(A1:L5) formülünü girin. İstenilen aralığı formüle girmek için klavyeden tanımının girilmesine gerek olmadığını, seçilmesinin yeterli olduğunu unutmayın. B8 hücresine =MIN(A1:L5) ve B9 hücresine =MAX(A1:L5) formülünü girerek örnekteki minimum ve maksimum değerleri belirleyelim.

Şekil 1.1 Örnek 1. Excel tablolarında istatistiksel verilerin birincil işlenmesi

Daha sonra aralık sütunu (varyant değerleri) ve frekans sütununun adlarını girerek bir varyasyon serisi oluşturmak için bir tablo hazırlayacağız. Aralık sütununa, B12:B17 aralığını kaplayan minimum (1) ile maksimum (6) arasındaki karakteristik değerleri girin. Frekans sütununu seçin, =FREKANS(A1:L5,B12:B17) formülünü girin ve CTRL+SHIFT+ENTER tuş kombinasyonuna basın

Şekil 1.2 Örnek 1. Bir varyasyon serisinin oluşturulması

Kontrol etmek için, SUM işlevini ("Ana Sayfa" sekmesindeki "Düzenleme" grubundaki S işlev simgesi) kullanarak frekansların toplamını hesaplayalım, hesaplanan toplam, B7 hücresinde önceden hesaplanan örnek hacmiyle örtüşmelidir.

Şimdi bir çokgen oluşturalım: Ortaya çıkan frekans aralığını seçtikten sonra "Ekle" sekmesinde "Grafik" komutunu seçin. Varsayılan olarak, yatay eksendeki değerler sıra sayıları olacaktır - bizim durumumuzda 1'den 6'ya kadar, bu da seçeneklerin değerleriyle (tarife kategorilerinin sayısı) örtüşür.

Grafik serisinin adı "seri 1", "Tasarım" sekmesindeki aynı "veri seç" seçeneği kullanılarak değiştirilebilir veya basitçe silinebilir.

Şekil 1.3. Örnek 1. Frekans poligonunun oluşturulması

Örnek 1.2. 50 kaynaktan gelen kirletici emisyonlarına ilişkin veriler bulunmaktadır:

10,4 18,6 10,3 26,0 45,0 18,2 17,3 19,2 25,8 18,7
28,2 25,2 18,4 17,5 41,8 14,6 10,0 37,8 10,5 16,0
18,1 16,8 38,5 37,7 17,9 29,0 10,1 28,0 12,0 14,0
14,2 20,8 13,5 42,4 15,5 17,9 19, 10,8 12,1 12,4
12,9 12,6 16,8 19,7 18,3 36,8 15,0 37,0 13,0 19,5

Eşit aralıklı bir seri oluşturun, histogram oluşturun

Çözüm

Veri dizisini bir Excel sayfasına girelim, A1:J5 aralığını kaplayacak. Bir önceki görevde olduğu gibi örnek boyutunu n, örnekteki minimum ve maksimum değerleri belirleyeceğiz. Artık ayrık bir seriye değil, aralıklı bir seriye ihtiyacımız olduğundan ve problemdeki aralık sayısı belirtilmediğinden, k aralık sayısını Sturgess formülünü kullanarak hesaplıyoruz. Bunu yapmak için B10 hücresine =1+3.322*LOG10(B7) formülünü girin.

Şekil 1.4. Örnek 2. Eşit aralıklı bir serinin oluşturulması

Ortaya çıkan değer bir tam sayı değil, yaklaşık 6,64'tür. k=7'de aralıkların uzunluğu tamsayı olarak ifade edileceğinden (k=6'dan farklı olarak), bu değeri C10 hücresine girerek k=7'yi seçeriz. =(B9-B8)/C10 formülünü girerek B11 hücresindeki d aralığının uzunluğunu hesaplıyoruz.

7 aralığın her biri için üst sınırı belirten bir aralık dizisi tanımlayalım. Bunu yapmak için E8 hücresine =B8+B11 formülünü girerek ilk aralığın üst sınırını hesaplıyoruz; E9 hücresine =E8+B11 formülünü girerek ikinci aralığın üst sınırını girin. Aralıkların üst sınırlarının kalan değerlerini hesaplamak için, girilen formüldeki B11 hücresinin sayısını $ işareti kullanarak sabitliyoruz, böylece E9 hücresindeki formül =E8+B$11 formunu alıyor ve kopyalıyoruz. E9 hücresinin içeriği E10-E14 hücrelerine. Elde edilen son değer, daha önce B9 hücresinde hesaplanan örnekteki maksimum değere eşittir.

Şekil 1.5. Örnek 2. Eşit aralıklı bir serinin oluşturulması


Şimdi örnek 1'de yapıldığı gibi FREQUENCY fonksiyonunu kullanarak "cepler" dizisini dolduralım.

Şekil 1.6. Örnek 2. Eşit aralıklı bir serinin oluşturulması

Ortaya çıkan varyasyon serisini kullanarak bir histogram oluşturacağız: frekans sütununu seçin ve "Ekle" sekmesinde "Histogram"ı seçin. Histogramı aldıktan sonra içindeki yatay eksenin etiketlerini aralık aralığındaki değerlere değiştirelim, bunun için “Tasarımcı” sekmesinin “Veri seç” seçeneğini seçin. Açılan pencerede “Yatay Eksen Etiketleri” bölümü için “Değiştir” komutunu seçin ve fareyle seçerek seçenekler için değer aralığını girin.

Şekil 1.7. Örnek 2. Histogram oluşturma

Şekil 1.8. Örnek 2. Histogram oluşturma