Algoritma untuk membina siri variasi selang dengan selang yang sama.

Hantar kerja baik anda di pangkalan pengetahuan adalah mudah. Gunakan borang di bawah

Pelajar, pelajar siswazah, saintis muda yang menggunakan pangkalan pengetahuan dalam pengajian dan kerja mereka akan sangat berterima kasih kepada anda.

Disiarkan pada http://www.allbest.ru/

TUGASAN1

Kami mempunyai data berikut mengenai gaji pekerja dalam perusahaan:

Jadual 1.1

Jumlah gaji dalam penukaran den. unit

Ia diperlukan untuk membina siri selang taburan untuk mencari;

1) gaji purata;

2) sisihan linear purata;

4) sisihan piawai;

5) julat variasi;

6) pekali ayunan;

7) pekali variasi linear;

8) pekali variasi mudah;

10) median;

11) pekali asimetri;

12) Indeks asimetri Pearson;

13) pekali kurtosis.

Keputusan

Seperti yang anda ketahui, pilihan (nilai yang diiktiraf) disusun dalam susunan menaik untuk membentuk siri variasi diskret. Dengan jumlah yang banyak varian (lebih daripada 10), walaupun dalam kes variasi diskret, siri selang dibina.

Jika siri selang disusun dengan selang genap, maka julat variasi dibahagikan dengan bilangan selang yang ditentukan. Dalam kes ini, jika nilai yang diperolehi adalah integer dan tidak jelas (yang jarang berlaku), maka panjang selang diambil sama dengan nombor ini. Dalam kes lain dihasilkan pembulatan semestinya dalam sebelah pembesaran, Jadi kepada angka terakhir yang tinggal ialah genap. Jelas sekali, dengan peningkatan dalam panjang selang, julat variasi dengan nilai yang sama dengan hasil darab bilangan selang: dengan perbezaan antara panjang yang dikira dan awal selang

a) Jika nilai pengembangan julat variasi adalah tidak ketara, maka ia sama ada ditambah kepada terbesar atau ditolak daripada nilai terkecil ciri;

b) Jika magnitud pengembangan julat variasi dapat dirasai, maka untuk mengelakkan pencampuran pusat julat, ia dibahagikan secara kasar kepada separuh, serentak menambah kepada yang terbesar dan menolak daripada nilai terkecil bagi atribut.

Jika siri selang disusun dengan selang yang tidak sama, maka prosesnya dipermudahkan, tetapi seperti sebelumnya, panjang selang mesti dinyatakan sebagai nombor dengan digit genap terakhir, yang sangat memudahkan pengiraan ciri berangka berikutnya.

30 - saiz sampel.

Mari kita karang siri pengedaran selang menggunakan formula Sturges:

K \u003d 1 + 3.32 * lg n,

K - bilangan kumpulan;

K \u003d 1 + 3.32 * lg 30 \u003d 5.91 \u003d 6

Kami mendapati julat tanda - gaji pekerja di perusahaan - (x) mengikut formula

R \u003d xmax - xmin dan bahagi dengan 6; R=195-112=83

Kemudian panjang selang akan menjadi l lorong=83:6=13.83

Permulaan selang pertama ialah 112. Menambah kepada 112 l ras=13.83, kita mendapat nilai akhir 125.83, yang juga merupakan permulaan selang kedua, dan seterusnya. penghujung selang kelima ialah 195.

Apabila mencari frekuensi, seseorang harus dipandu oleh peraturan: "jika nilai ciri bertepatan dengan sempadan selang dalaman, maka ia harus dirujuk kepada selang sebelumnya."

Kami memperoleh siri selang frekuensi dan frekuensi kumulatif.

Jadual 1.2

Oleh itu, 3 orang pekerja mempunyai gaji. bayaran daripada 112 kepada 125.83 unit konvensional. Gaji paling tinggi bayaran daripada 181.15 kepada 195 unit konvensional. hanya 6 pekerja.

Untuk mengira ciri berangka, kami menukar siri selang kepada satu diskret, mengambil bahagian tengah selang sebagai varian:

Jadual 1.3

14131,83

Mengikut formula min aritmetik berwajaran

cond.mon.un.

Sisihan linear purata:

dengan xi ialah nilai ciri yang dikaji dalam unit ke-i populasi,

Nilai purata sifat yang dikaji.

Disiarkan pada http://www.allbest.ru/

LDisiarkan pada http://www.allbest.ru/

Unit kewangan

Sisihan piawai:

Penyerakan:

Julat relatif variasi (pekali ayunan): c=R:,

Sisihan linear relatif: q = L:

Pekali variasi: V = y:

Pekali ayunan menunjukkan turun naik relatif bagi nilai ekstrem atribut di sekeliling min aritmetik, dan pekali variasi mencirikan tahap dan kehomogenan populasi.

c \u003d R: \u003d 83 / 159.485 * 100% \u003d 52.043%

Oleh itu, perbezaan antara nilai ekstrem ialah 5.16% (=94.84%-100%) kurang daripada purata gaji pekerja dalam perusahaan.

q \u003d L: \u003d 17.765 / 159.485 * 100% \u003d 11.139%

V \u003d y: \u003d 21.704 / 159.485 * 100% \u003d 13.609%

Pekali variasi adalah kurang daripada 33%, yang menunjukkan variasi yang lemah dalam gaji pekerja dalam perusahaan, i.e. bahawa purata adalah ciri tipikal gaji pekerja (agregat homogen).

Dalam siri pengedaran selang fesyen ditentukan oleh formula -

Kekerapan selang modal, iaitu selang yang mengandungi bilangan pilihan terbesar;

Kekerapan selang sebelum modal;

Kekerapan selang selepas modal;

Panjang selang modal;

Sempadan bawah selang modal.

Untuk menentukan median dalam siri selang, kami menggunakan formula

di manakah kekerapan terkumpul (kumulatif) selang sebelum median;

Had bawah selang median;

Kekerapan selang median;

Panjang selang median.

Selang Median- selang, kekerapan terkumpul yang (=3+3+5+7) melebihi separuh daripada jumlah frekuensi - (153.49; 167.32).

Mari kita hitung kecondongan dan kurtosis, yang mana kita akan menyusun lembaran kerja baharu:

Jadual 1.4

Data fakta

Data anggaran

Kira momen bagi susunan ketiga

Oleh itu, asimetri adalah

Sejak 0.3553 0.25, asimetri diiktiraf sebagai signifikan.

Hitung momen bagi susunan keempat

Oleh itu, kurtosis adalah

Sebagai< 0, то эксцесс является плосковершинным.

Tahap pencongan boleh ditentukan menggunakan pekali pencongan Pearson (As): perolehan kos sampel ayunan

di manakah min aritmetik bagi siri taburan; -- fesyen; -- sisihan piawai.

Dengan taburan simetri (normal) = Mo, oleh itu, pekali asimetri ialah sifar. Jika Аs > 0, maka terdapat lebih banyak mod, oleh itu, terdapat asimetri sebelah kanan.

Jika As< 0, то меньше моды, следовательно, имеется левосторонняя асимметрия. Коэффициент асимметрии может изменяться от -3 до +3.

Taburannya tidak simetri, tetapi mempunyai asimetri sebelah kiri.

TUGASAN 2

Apakah saiz sampel yang sepatutnya supaya terdapat kebarangkalian 0.954 bahawa ralat pensampelan tidak melebihi 0.04 jika varians diketahui daripada tinjauan terdahulu ialah 0.24?

Keputusan

Saiz sampel untuk pensampelan tidak berulang dikira dengan formula:

t - pekali keyakinan (dengan kebarangkalian 0.954 ia bersamaan dengan 2.0; ditentukan daripada jadual kamiran kebarangkalian),

y2=0.24 - sisihan piawai;

10000 orang - saiz sampel;

Dx =0.04 - ralat marginal bagi min sampel.

Dengan kebarangkalian 95.4%, boleh dikatakan bahawa saiz sampel, memberikan ralat relatif tidak lebih daripada 0.04, hendaklah sekurang-kurangnya 566 keluarga.

TUGASAN3

Data berikut tersedia mengenai pendapatan daripada aktiviti utama perusahaan, juta rubel.

Untuk menganalisis satu siri dinamik, tentukan penunjuk berikut:

1) rantai dan asas:

Keuntungan mutlak;

Kadar pertumbuhan;

Kadar pertumbuhan;

2) sederhana

Tahap julat dinamik;

Pertumbuhan mutlak;

Kadar pertumbuhan;

Kadar kenaikan;

3) nilai mutlak pertumbuhan 1%.

Keputusan

1. Pertumbuhan mutlak (Dy)- ini ialah perbezaan antara tahap seterusnya siri dan sebelumnya (atau asas):

rantai: Du \u003d yi - yi-1,

asas: Du \u003d yi - y0,

yi - peringkat baris,

i - nombor peringkat baris,

y0 - peringkat tahun asas.

2. Kadar pertumbuhan (Tu) ialah nisbah tahap seterusnya siri dan yang sebelumnya (atau tahun asas 2001):

rantai: Tu = ;

asas: Tu =

3. Kadar pertumbuhan (TD) - ini ialah nisbah pertumbuhan mutlak kepada tahap sebelumnya, dinyatakan dalam%.

rantai: Tu = ;

asas: Tu =

4. Nilai mutlak peningkatan 1% (A)- ialah nisbah pertumbuhan mutlak rantaian kepada kadar pertumbuhan, dinyatakan dalam%.

TAPI =

Tahap baris tengah dikira menggunakan formula min aritmetik.

Tahap purata pendapatan daripada aktiviti teras selama 4 tahun:

Purata pertumbuhan mutlak dikira dengan formula:

di mana n ialah bilangan aras dalam baris.

Secara purata, untuk tahun ini, pendapatan daripada aktiviti teras meningkat sebanyak 3.333 juta rubel.

Kadar pertumbuhan tahunan purata dikira dengan formula min geometri:

уn - tahap akhir siri ini,

y0 - tahap awal siri.

Tu \u003d 100% \u003d 102.174%

Kadar pertumbuhan tahunan purata dikira dengan formula:

T? \u003d Tu - 100% \u003d 102.74% - 100% \u003d 2.74%.

Oleh itu, secara purata, untuk tahun ini, pendapatan daripada aktiviti utama perusahaan meningkat sebanyak 2.74%.

TUGASANTAPI4

Kira:

1. Indeks harga individu;

2. Indeks pusing ganti am;

3. Indeks harga agregat;

4. Indeks agregat volum fizikal jualan barang;

5. Peningkatan mutlak dalam nilai pusing ganti dan terurai oleh faktor (disebabkan oleh perubahan harga dan bilangan barang yang dijual);

6. Buat kesimpulan ringkas tentang semua indikator yang diperolehi.

Keputusan

1. Mengikut syarat, indeks harga individu untuk produk A, B, C berjumlah -

ipA=1.20; ipB=1.15; iрВ=1.00.

2. Jumlah indeks pusing ganti dikira dengan formula:

Saya w \u003d \u003d 1470/1045 * 100% \u003d 140.67%

Jumlah dagangan meningkat sebanyak 40.67% (140.67% -100%).

Secara purata, harga komoditi meningkat sebanyak 10.24%.

Jumlah kos tambahan untuk pembeli daripada kenaikan harga:

w(p) = ? p1q1-? p0q1 \u003d 1470 - 1333.478 \u003d 136.522 juta rubel.

Akibat kenaikan harga, pembeli terpaksa membelanjakan tambahan 136.522 juta rubel.

4. Indeks am volum fizikal perdagangan:

Jumlah dagangan fizikal meningkat sebanyak 27.61%.

5. Mari kita tentukan jumlah perubahan dalam perolehan dalam tempoh kedua berbanding dengan tempoh pertama:

w \u003d 1470- 1045 \u003d 425 juta rubel.

disebabkan perubahan harga:

W(p) \u003d 1470 - 1333.478 \u003d 136.522 juta rubel.

dengan menukar volum fizikal:

w(q) \u003d 1333.478 - 1045 \u003d 288.478 juta rubel.

Perolehan barangan meningkat sebanyak 40.67%. Harga secara purata untuk 3 barangan meningkat sebanyak 10.24%. Jumlah dagangan fizikal meningkat sebanyak 27.61%.

Secara umum, jumlah jualan meningkat sebanyak 425 juta rubel, termasuk disebabkan oleh kenaikan harga, ia meningkat sebanyak 136.522 juta rubel, dan disebabkan peningkatan jumlah jualan - sebanyak 288.478 juta rubel.

TUGASAN5

Untuk 10 loji dalam satu industri, data berikut tersedia.

Kilang No.

Keluaran, seribu keping (X)

Berdasarkan data yang diberikan:

I) untuk mengesahkan peruntukan analisis logik tentang kehadiran hubungan korelasi linear antara tanda faktor (isipadu output) dan tanda terhasil (penggunaan elektrik), plotkan data awal pada graf medan korelasi dan buat kesimpulan tentang bentuk hubungan, nyatakan formulanya;

2) tentukan parameter persamaan sambungan dan plot garis teori yang terhasil pada graf medan korelasi;

3) hitung pekali korelasi linear,

4) terangkan nilai penunjuk yang diperolehi dalam perenggan 2) dan 3);

5) menggunakan model yang diperoleh, buat ramalan tentang kemungkinan penggunaan elektrik di loji dengan jumlah pengeluaran 4.5 ribu unit.

Keputusan

Data aksara - jumlah keluaran (faktor), dilambangkan dengan хi; tanda - penggunaan elektrik (hasil) melalui ui; titik dengan koordinat (x, y) diplot pada medan korelasi OXY.

Titik medan korelasi terletak di sepanjang beberapa garis lurus. Oleh itu, sambungannya adalah linear, kita akan mencari persamaan regresi dalam bentuk garis lurus Yx=ax+b. Untuk mencarinya, kami menggunakan sistem persamaan normal:

Mari buat hamparan.

Berdasarkan purata yang ditemui, kami menyusun sistem dan menyelesaikannya berkenaan dengan parameter a dan b:

Jadi, kita mendapat persamaan regresi untuk y pada x: \u003d 3.57692 x + 3.19231

Kami membina garis regresi pada medan korelasi.

Menggantikan nilai x dari lajur 2 ke dalam persamaan regresi, kami memperoleh yang dikira (lajur 7) dan membandingkannya dengan data y, yang ditunjukkan dalam lajur 8. Dengan cara ini, ketepatan pengiraan juga disahkan secara kebetulan nilai purata y dan.

Pekalikorelasi linear menilai ketepatan hubungan antara ciri x dan y dan dikira oleh formula

Pekali sudut regresi langsung a (pada x) mencirikan arah yang dikenal pastikebergantungantanda: untuk a>0 mereka adalah sama, untuk a<0- противоположны. mutlaknya nilai - ukuran perubahan dalam tanda paduan apabila tanda faktorial berubah setiap unit ukuran.

Ahli bebas regresi langsung mendedahkan arah, dan nilai mutlaknya - ukuran kuantitatif pengaruh pada tanda berkesan semua faktor lain.

Sekiranya< 0, maka sumber atribut faktor objek individu digunakan dengan kurang, dan bila>0 denganprestasi yang lebih tinggi daripada purata untuk keseluruhan set objek.

Mari buat analisis pasca regresi.

Pekali pada x regresi langsung ialah 3.57692 > 0, oleh itu, dengan peningkatan (penurunan) dalam output, penggunaan elektrik meningkat (jatuh). Peningkatan output sebanyak 1 ribu keping. memberikan purata peningkatan penggunaan elektrik sebanyak 3.57692 ribu kWj.

2. Jangka bebas regresi langsung adalah bersamaan dengan 3.19231, oleh itu, pengaruh faktor lain meningkatkan kesan keluaran ke atas penggunaan elektrik secara mutlak sebanyak 3.19231 ribu kWj.

3. Pekali korelasi 0.8235 menunjukkan pergantungan yang sangat rapat penggunaan elektrik pada output.

Mudah untuk membuat ramalan menggunakan persamaan model regresi. Untuk melakukan ini, nilai x daripada isipadu keluaran digantikan ke dalam persamaan regresi dan penggunaan elektrik diramalkan. Dalam kes ini, nilai x boleh diambil bukan sahaja dalam julat tertentu, tetapi juga di luarnya.

Mari kita buat ramalan tentang kemungkinan penggunaan elektrik di loji dengan jumlah pengeluaran sebanyak 4.5 ribu unit.

3.57692*4.5 + 3.19231= 19.288 45 ribu kWj.

SENARAI SUMBER TERGUNA

1. Zakharenkov S.N. Statistik sosio-ekonomi: Panduan belajar. - Minsk: BSEU, 2002.

2. Efimova M.R., Petrova E.V., Rumyantsev V.N. Teori umum statistik. - M.: INFRA - M., 2000.

3. Eliseeva I.I. Perangkaan. - M.: Prospekt, 2002.

4. Teori am statistik / Ed. ed. O.E. Bashina, A.A. Spirin. - M.: Kewangan dan statistik, 2000.

5. Perangkaan sosio-ekonomi: Buku teks.-amalan. elaun / Zakharenkov S.N. dsb. - Minsk: YSU, 2004.

6. Perangkaan sosio-ekonomi: Proc. elaun. / Ed. Nesterovich S.R. - Minsk: BSEU, 2003.

7. Teslyuk I.E., Tarlovskaya V.A., Terlizhenko N. Statistik. - Minsk, 2000.

8. Kharchenko L.P. Perangkaan. - M.: INFRA - M, 2002.

9. Kharchenko L.P., Dolzhenkova V.G., Ionin V.G. Perangkaan. - M.: INFRA - M, 1999.

10. Perangkaan ekonomi / Ed. Yu.N. Ivanova - M., 2000.

Dihoskan di Allbest.ru

...

Dokumen Serupa

    Pengiraan min aritmetik untuk siri taburan selang. Penentuan indeks umum volum fizikal perdagangan. Analisis perubahan mutlak dalam jumlah kos pengeluaran akibat perubahan volum fizikal. Pengiraan pekali variasi.

    ujian, ditambah 07/19/2010

    Intipati perdagangan borong, runcit dan awam. Formula untuk mengira individu, indeks pusing ganti agregat. Pengiraan ciri siri taburan selang - min aritmetik, mod dan median, pekali variasi.

    kertas penggal, ditambah 05/10/2013

    Pengiraan jumlah jualan yang dirancang dan sebenar, peratusan pelan, perubahan mutlak dalam perolehan. Penentuan pertumbuhan mutlak, kadar pertumbuhan purata dan pertumbuhan dalam pendapatan tunai. Pengiraan purata struktur: mod, median, kuartil.

    ujian, ditambah 02/24/2012

    Siri selang pengagihan bank mengikut volum keuntungan. Mencari mod dan median siri taburan selang yang diperoleh dengan kaedah grafik dan pengiraan. Pengiraan ciri-ciri siri taburan selang. Pengiraan min aritmetik.

    ujian, ditambah 12/15/2010

    Formula untuk menentukan nilai purata siri selang - mod, median, varians. Pengiraan penunjuk analisis siri masa mengikut rantaian dan skim asas, kadar pertumbuhan dan pertumbuhan. Konsep indeks komposit kos, harga, kos dan perolehan.

    kertas penggal, ditambah 27/02/2011

    Konsep dan tujuan, susunan dan peraturan untuk membina siri variasi. Analisis kehomogenan data dalam kumpulan. Penunjuk variasi (turun naik) sesuatu sifat. Penentuan min sisihan linear dan kuasa dua, pekali ayunan dan variasi.

    ujian, ditambah 04/26/2010

    Konsep mod dan median sebagai ciri tipikal, susunan dan kriteria untuk penentuannya. Mencari mod dan median dalam siri variasi diskret dan selang. Kuartil dan desil sebagai ciri tambahan bagi siri statistik variasi.

    ujian, ditambah 09/11/2010

    Pembinaan siri selang pengedaran berdasarkan kumpulan. Pencirian sisihan taburan kekerapan daripada bentuk simetri, pengiraan penunjuk kurtosis dan asimetri. Analisis penunjuk kunci kira-kira atau penyata pendapatan.

    kerja kawalan, ditambah 19/10/2014

    Transformasi siri empirikal kepada diskret dan selang. Penentuan nilai purata ke atas siri diskret menggunakan sifatnya. Pengiraan pada siri diskret mod, median, penunjuk variasi (serakan, sisihan, pekali ayunan).

    ujian, ditambah 04/17/2011

    Pembinaan siri statistik pengedaran organisasi. Takrif grafik nilai mod dan median. Keketatan korelasi dengan penggunaan pekali penentuan. Penentuan ralat pensampelan purata bilangan pekerja.

Makmal #1

Mengikut statistik matematik

Topik: Pemprosesan utama data eksperimen

3. Penilaian dalam mata. satu

5. Soalan keselamatan.. 2

6. Metodologi untuk melaksanakan kerja makmal.. 3

Objektif

Pemerolehan kemahiran pemprosesan primer data empirikal dengan kaedah statistik matematik.

Berdasarkan satu set data percubaan, laksanakan tugas berikut:

Latihan 1. Bina satu siri variasi selang taburan.

Tugasan 2. Bina histogram bagi frekuensi siri variasi selang.

Tugasan 3. Karang fungsi taburan empirikal dan plot.

a) mod dan median;

b) momen permulaan bersyarat;

c) min sampel;

d) varians sampel, varians populasi diperbetulkan, sisihan piawai diperbetulkan;

e) pekali variasi;

e) tidak simetri;

g) kurtosis;

Tugasan 5. Tentukan sempadan nilai sebenar ciri berangka pembolehubah rawak yang dikaji dengan kebolehpercayaan yang diberikan.

Tugasan 6. Tafsiran bermakna hasil pemprosesan primer mengikut keadaan masalah.

Skor dalam mata

Tugasan 1-56 mata

Tugasan 62 mata

Perlindungan Makmal(temu bual lisan mengenai soalan kawalan dan kerja makmal) - 2 mata

Hasil kerja diserahkan secara bertulis pada helaian A4 dan termasuk:

1) Muka surat tajuk (Lampiran 1)

2) Data awal.

3) Persembahan hasil kerja mengikut sampel yang ditetapkan.

4) Keputusan pengiraan (dilakukan secara manual dan/atau menggunakan MS Excel) dalam susunan yang ditentukan.

5) Kesimpulan - tafsiran bermakna hasil pemprosesan primer mengikut keadaan masalah.

6) Temu bual lisan mengenai kerja dan soalan kawalan.



5. Soalan keselamatan


Kaedah untuk melaksanakan kerja makmal

Tugasan 1. Bina satu siri variasi selang taburan

Untuk mempersembahkan data statistik dalam bentuk siri variasi dengan variasi jarak yang sama, adalah perlu:

1. Dalam jadual data asal, cari nilai terkecil dan terbesar.

2. Tentukan julat variasi :

3. Tentukan panjang selang h, jika terdapat sehingga 1000 data dalam sampel, gunakan formula: , di mana n - saiz sampel - jumlah data dalam sampel; lgn diambil untuk pengiraan).

Nisbah yang dikira dibundarkan kepada nilai integer yang mudah .

4. Untuk menentukan permulaan selang pertama bagi bilangan selang genap, adalah disyorkan untuk mengambil nilai ; dan untuk bilangan selang ganjil .

5. Catatkan selang kumpulan dan susunkannya dalam susunan sempadan menaik

, ,………., ,

di mana adalah sempadan bawah selang pertama. Nombor mudah diambil untuk tidak lebih daripada , had atas selang terakhir mestilah tidak kurang daripada . Adalah disyorkan bahawa selang mengandungi nilai awal pembolehubah rawak dan diasingkan daripada 5 hingga 20 selang waktu.

6. Tulis data awal pada selang kumpulan, i.e. hitung daripada jadual asal bilangan nilai pembolehubah rawak yang berada dalam selang waktu yang ditentukan. Jika beberapa nilai bertepatan dengan sempadan selang, maka ia dikaitkan sama ada hanya kepada yang sebelumnya atau hanya kepada selang yang berikutnya.

Catatan 1. Selang tidak perlu diambil sama panjangnya. Di kawasan di mana nilainya lebih padat, lebih mudah untuk mengambil selang pendek yang lebih kecil, dan di mana kurang kerap - yang lebih besar.

Catatan 2.Jika untuk beberapa nilai "sifar" atau nilai frekuensi kecil diperolehi, maka perlu untuk mengumpulkan semula data, membesarkan selang (meningkatkan langkah ).

Mempunyai data pemerhatian statistik yang mencirikan fenomena ini atau itu, pertama sekali adalah perlu untuk menyelaraskannya, i.e. buat sistematik

ahli statistik Inggeris. UjReichman secara kiasan berkata tentang agregat tidak tersusun bahawa untuk menghadapi jisim data yang tidak umum adalah sama dengan situasi apabila seseorang dibuang ke dalam belukar hutan tanpa kompas. Apakah sistematisasi data statistik dalam bentuk siri pengedaran?

Siri taburan statistik ialah populasi statistik tersusun (Jadual 17). Jenis siri pengedaran statistik yang paling mudah ialah siri berperingkat, i.e. satu siri nombor dalam susunan menaik atau menurun tanda yang berbeza-beza. Siri sedemikian tidak membenarkan kami menilai corak yang wujud dalam data yang diedarkan: nilai manakah yang mempunyai majoriti penunjuk dikumpulkan, apakah sisihan daripada nilai ini; sebagai corak pengedaran umum. Untuk tujuan ini, data dikumpulkan, menunjukkan kekerapan pemerhatian individu berlaku dalam jumlah bilangan mereka (Skim 1a 1).

. Jadual 17

. Pandangan umum siri pengedaran statistik

. Skim 1. Skim statistik pangkat pengedaran

Taburan unit populasi mengikut ciri-ciri yang tidak mempunyai ungkapan kuantitatif dipanggil siri atribut(contohnya, pengagihan perusahaan mengikut barisan pengeluaran mereka)

Siri taburan unit populasi mengikut ciri, mempunyai ungkapan kuantitatif, dipanggil siri variasi. Dalam siri sedemikian, nilai ciri (pilihan) adalah dalam tertib menaik atau menurun

Dalam siri variasi pengedaran, dua elemen dibezakan: varian dan kekerapan . Pilihan- ini ialah nilai berasingan bagi ciri kumpulan kekerapan- nombor yang menunjukkan bilangan kali setiap pilihan berlaku

Dalam statistik matematik, satu lagi elemen siri variasi dikira - separa. Yang terakhir ditakrifkan sebagai nisbah kekerapan kes selang tertentu kepada jumlah jumlah frekuensi, bahagian itu ditentukan dalam pecahan unit, peratus (%) dalam ppm (% o)

Oleh itu, siri pengedaran variasi ialah satu siri di mana pilihan disusun dalam tertib menaik atau menurun, frekuensi atau frekuensinya ditunjukkan. Siri variasi adalah diskret (pererivny) dan selang lain (berterusan).

. Siri variasi diskret- ini adalah siri pengedaran di mana varian sebagai nilai sifat kuantitatif hanya boleh mengambil nilai tertentu. Varian berbeza antara satu sama lain dengan satu atau lebih unit

Jadi, bilangan bahagian yang dihasilkan setiap syif oleh pekerja tertentu boleh dinyatakan hanya dengan satu nombor tertentu (6, 10, 12, dsb.). Contoh siri variasi diskret boleh menjadi pengagihan pekerja mengikut bilangan bahagian yang dihasilkan (Jadual 18-18).

. Jadual 18

. Julat pengedaran diskret _

. Siri variasi selang (berterusan).- siri pengedaran sedemikian di mana nilai pilihan diberikan sebagai selang, i.e. nilai ciri boleh berbeza antara satu sama lain dengan jumlah yang kecil secara sewenang-wenangnya. Apabila membina siri variasi DEB, adalah mustahil untuk menentukan setiap nilai varian, jadi set diedarkan mengikut selang waktu. Yang terakhir mungkin sama atau tidak. Bagi setiap daripadanya, frekuensi atau frekuensi ditunjukkan (Jadual 1 9 19).

Dalam siri taburan selang dengan selang yang tidak sama, ciri-ciri matematik seperti ketumpatan taburan dan ketumpatan taburan relatif dalam selang tertentu dikira. Ciri pertama ditentukan oleh nisbah kekerapan kepada nilai selang yang sama, yang kedua - dengan nisbah kekerapan kepada nilai selang yang sama. Untuk contoh di atas, ketumpatan taburan dalam selang pertama ialah 3: 5 = 0.6, dan ketumpatan relatif dalam selang ini ialah 7.5: 5 = 1.55%.

. Jadual 19

. Siri pengedaran selang _

perangkaan matematik- cabang matematik yang menumpukan kepada kaedah matematik pemprosesan, sistematisasi dan penggunaan data statistik untuk kesimpulan saintifik dan praktikal.

3.1. KONSEP ASAS STATISTIK MATEMATIK

Dalam masalah bioperubatan, selalunya perlu untuk menyiasat taburan satu atau ciri lain untuk sebilangan besar individu. Bagi individu yang berbeza, ciri ini mempunyai makna yang berbeza, jadi ia adalah pembolehubah rawak. Sebagai contoh, mana-mana ubat terapeutik mempunyai keberkesanan yang berbeza apabila digunakan untuk pesakit yang berbeza. Walau bagaimanapun, untuk mendapatkan idea tentang keberkesanan ubat ini, tidak perlu menggunakannya semua orang sakit. Adalah mungkin untuk mengesan keputusan menggunakan ubat kepada kumpulan pesakit yang agak kecil dan, berdasarkan data yang diperoleh, untuk mengenal pasti ciri-ciri penting (keberkesanan, kontraindikasi) proses rawatan.

Penduduk- satu set elemen homogen untuk dikaji, dicirikan oleh beberapa ciri. Tanda ini ialah berterusan pembolehubah rawak dengan ketumpatan taburan f(x).

Sebagai contoh, jika kita berminat dengan kelaziman penyakit di wilayah tertentu, maka populasi umum adalah keseluruhan penduduk wilayah tersebut. Sekiranya kita ingin mengetahui kecenderungan kepada penyakit lelaki dan wanita ini secara berasingan, maka dua populasi umum harus dipertimbangkan.

Untuk mengkaji sifat populasi umum, bahagian tertentu elemennya dipilih.

Sampel- sebahagian daripada populasi umum yang dipilih untuk pemeriksaan (rawatan).

Jika ini tidak menyebabkan kekeliruan, maka sampel dipanggil sebagai koleksi objek dipilih untuk peperiksaan, dan keseluruhan

nilai sifat yang dikaji, yang diperoleh semasa peperiksaan. Nilai-nilai ini boleh diwakili dalam beberapa cara.

Siri statistik mudah - nilai sifat yang dikaji, direkodkan mengikut susunan yang diperolehi.

Contoh siri statistik mudah yang diperoleh dengan mengukur halaju gelombang permukaan (m/s) dalam kulit dahi 20 pesakit ditunjukkan dalam Jadual. 3.1.

Jadual 3.1.Siri Statistik Mudah

Siri statistik ringkas ialah cara utama dan paling lengkap untuk merekodkan hasil tinjauan. Ia boleh mengandungi ratusan elemen. Sangat sukar untuk melihat agregat sedemikian sekilas pandang. Oleh itu, sampel yang besar biasanya dibahagikan kepada kumpulan. Untuk melakukan ini, kawasan perubahan atribut dibahagikan kepada beberapa (N) selang waktu dengan lebar yang sama dan hitung frekuensi relatif (n/n) bagi ciri yang jatuh ke dalam selang ini. Lebar setiap selang ialah:

Sempadan selang mempunyai makna berikut:

Jika mana-mana elemen sampel adalah sempadan antara dua selang bersebelahan, maka ia dirujuk sebagai ditinggalkan selang waktu. Data dikumpulkan dengan cara ini dipanggil siri statistik selang.

- ini ialah jadual yang menunjukkan selang nilai sifat dan frekuensi relatif sifat yang jatuh ke dalam selang ini.

Dalam kes kita, kita boleh membentuk, sebagai contoh, siri statistik selang (N = 5, d= 4), tab. 3.2.

Jadual 3.2.Siri statistik selang

Di sini, dua nilai bersamaan dengan 28 diberikan kepada selang 28-32 (Jadual 3.1), dan nilai 32, 33, 34 dan 35 diberikan kepada selang 32-36.

Siri statistik selang boleh diwakili secara grafik. Untuk melakukan ini, selang nilai ciri diplot di sepanjang paksi abscissa, dan pada setiap daripada mereka, sebagai asas, segi empat tepat dibina dengan ketinggian yang sama dengan frekuensi relatif. Carta bar yang terhasil dipanggil histogram.

nasi. 3.1. graf bar

Pada histogram, corak statistik taburan ciri dilihat dengan jelas.

Dengan saiz sampel yang besar (beberapa ribu) dan lebar lajur yang kecil, bentuk histogram adalah hampir dengan bentuk graf ketumpatan pengedaran tanda.

Bilangan lajur histogram boleh dipilih menggunakan formula berikut:

Membina histogram secara manual adalah proses yang panjang. Oleh itu, program komputer telah dibangunkan untuk pembinaan automatik mereka.

3.2. CIRI-CIRI NUMERIK SIRI STATISTIK

Banyak prosedur statistik menggunakan anggaran sampel untuk min dan varians (atau sisihan piawai) populasi.

min sampel(X) ialah min aritmetik bagi semua unsur siri statistik mudah:

Untuk contoh kita X= 37.05 (m/s).

Min sampel ialahyang terbaikanggaran purata amM.

Varians sampel s 2 adalah sama dengan jumlah sisihan kuasa dua unsur daripada min sampel, dibahagikan dengan n- 1:

Dalam contoh kami, s 2 \u003d 25.2 (m / s) 2.

Sila ambil perhatian bahawa apabila mengira varians sampel, penyebut formula bukanlah saiz sampel n, tetapi n-1. Ini disebabkan oleh fakta bahawa apabila mengira sisihan dalam formula (3.3), bukannya jangkaan matematik yang tidak diketahui, anggarannya digunakan - min sampel.

Varians sampel ialah yang terbaik anggaran varians am (σ 2).

Sisihan piawai sampel(s) ialah punca kuasa dua varians sampel:

Untuk contoh kita s= 5.02 (m/s).

selektif rms sisihan ialah anggaran terbaik bagi RMSE am (σ).

Dengan peningkatan tanpa had dalam saiz sampel, semua ciri sampel cenderung kepada ciri yang sepadan dengan populasi umum.

Untuk mengira ciri sampel, formula komputer digunakan. Dalam Excel, pengiraan ini melaksanakan fungsi statistik AVERAGE, VARR. STDEV.

3.3. ANGGARAN SELANG

Semua ciri sampel adalah pembolehubah rawak. Ini bermakna untuk sampel lain yang sama saiz, nilai ciri sampel akan berbeza. Oleh itu, selektif

ciri-ciri sahaja anggaran ciri-ciri relevan populasi umum.

Ia mengimbangi kelemahan penilaian terpilih anggaran selang, mewakili selang nombor, di dalamnya dengan kebarangkalian yang diberikan R d nilai sebenar parameter anggaran ditemui.

Biarkan U r - beberapa parameter populasi umum (min am, varians am, dll.).

anggaran selang parameter U r dipanggil selang (U 1 , U 2), memenuhi syarat:

P(U < Ur < U2) = Рд. (3.5)

Kebarangkalian R d dipanggil kebarangkalian keyakinan.

Kebarangkalian keyakinan Pd - kebarangkalian bahawa nilai sebenar kuantiti anggaran ialah dalam selang yang ditentukan.

Pada masa yang sama, selang (U 1 , U 2) dipanggil selang keyakinan untuk parameter anggaran.

Selalunya, bukannya kebarangkalian keyakinan, nilai yang berkaitan α = 1 - R d, yang dipanggil aras keertian.

Tahap keertian ialah kebarangkalian bahawa nilai sebenar parameter anggaran ialah luar selang keyakinan.

Kadangkala α dan R d dinyatakan sebagai peratusan, contohnya, 5% bukannya 0.05 dan 95% bukannya 0.95.

Dalam anggaran selang, mula-mula pilih yang sesuai tahap keyakinan(biasanya 0.95 atau 0.99), dan kemudian cari selang nilai yang sepadan bagi parameter anggaran.

Kami perhatikan beberapa sifat umum anggaran selang.

1. Semakin rendah tahap keertian (semakin banyak R d), semakin luas anggaran selang. Jadi, jika pada tahap keertian 0.05 anggaran selang min am ialah 34.7< M< 39,4, то для уровня 0,01 она будет гораздо шире: 33,85 < M< 40,25.

2. Semakin besar saiz sampel n, semakin sempit anggaran selang dengan tahap kepentingan yang dipilih. Biarkan, sebagai contoh, 5 ialah anggaran peratusan purata am (β=0.05) yang diperoleh daripada sampel 20 item, kemudian 34.7< M< 39,4.

Dengan meningkatkan saiz sampel kepada 80, kita akan mendapat anggaran yang lebih tepat pada tahap keertian yang sama: 35.5< M< 38,6.

Dalam kes umum, pembinaan anggaran keyakinan yang boleh dipercayai memerlukan pengetahuan tentang undang-undang yang mengikutnya anggaran ciri rawak diedarkan dalam populasi umum. Pertimbangkan bagaimana anggaran selang dibina purata am sifat, yang diedarkan dalam populasi umum mengikut biasa undang-undang.

3.4. ANGGARAN SELANG MIN AM BAGI UNDANG-UNDANG AGIHAN BIASA

Pembinaan anggaran selang bagi min am M untuk populasi umum dengan undang-undang taburan normal adalah berdasarkan sifat berikut. Untuk pensampelan volum n sikap

mematuhi taburan Pelajar dengan bilangan darjah kebebasan ν = n- 1.

Di sini X ialah min sampel, dan s- sisihan piawai terpilih.

Menggunakan jadual pengedaran Pelajar atau analog komputer mereka, seseorang boleh mencari nilai sempadan sedemikian yang dengan kebarangkalian keyakinan yang diberikan ketidaksamaan berikut dipenuhi:

Ketaksamaan ini sepadan dengan ketaksamaan untuk M:

di mana ε ialah separuh lebar selang keyakinan.

Oleh itu, pembinaan selang keyakinan untuk M dijalankan dalam urutan berikut.

1. Pilih kebarangkalian keyakinan P d (biasanya 0.95 atau 0.99) dan untuk itu, mengikut jadual taburan Pelajar, parameter t ditemui

2. Kira separuh lebar selang keyakinan ε:

3. Anggaran selang purata am diperolehi dengan kebarangkalian keyakinan yang dipilih:

Secara ringkasnya ditulis begini:

Prosedur komputer telah dibangunkan untuk mencari anggaran selang.

Mari kita terangkan cara menggunakan jadual pengedaran Pelajar. Jadual ini mempunyai dua "pintu masuk": lajur kiri, dipanggil bilangan darjah kebebasan ν = n- 1, dan baris atas ialah aras keertian α. Di persimpangan baris dan lajur yang sepadan, pekali Pelajar ditemui t.

Mari gunakan kaedah ini untuk sampel kami. Serpihan jadual taburan Pelajar dibentangkan di bawah.

Jadual 3.3. Serpihan jadual agihan Pelajar

Siri statistik mudah untuk sampel 20 orang (n= 20, ν =19) dibentangkan dalam Jadual. 3.1. Untuk siri ini, pengiraan menggunakan formula (3.1-3.3) memberikan: X= 37,05; s= 5,02.

Jom pilih α = 0.05 (P d = 0.95). Di persimpangan baris "19" dan lajur "0.05" kami dapati t= 2,09.

Mari kita mengira ketepatan anggaran dengan formula (3.6): ε = 2.09?5.02/λ /20 = 2.34.

Mari kita bina anggaran selang: dengan kebarangkalian 95%, min am yang tidak diketahui memenuhi ketaksamaan:

37,05 - 2,34 < M< 37,05 + 2,34, или M= 37.05 ± 2.34 (m/s), Р d = 0.95.

3.5. KAEDAH UNTUK PENGESAHAN HIPOTESIS STATISTIK

Hipotesis statistik

Sebelum merumuskan apa itu hipotesis statistik, pertimbangkan contoh berikut.

Untuk membandingkan dua kaedah merawat penyakit tertentu, dua kumpulan pesakit masing-masing 20 orang dipilih, rawatan yang dijalankan mengikut kaedah ini. Bagi setiap pesakit, a bilangan prosedur diikuti dengan kesan positif. Menurut data ini, bagi setiap kumpulan, kami mendapati sampel min (X), varians sampel (s 2) dan sampel RMS (s).

Keputusan dibentangkan dalam jadual. 3.4.

Jadual 3.4

Bilangan prosedur yang diperlukan untuk mendapatkan kesan positif ialah pembolehubah rawak, semua maklumat mengenainya kini terkandung dalam sampel di atas.

Daripada Jadual. 3.4 menunjukkan min sampel dalam kumpulan pertama adalah kurang daripada kumpulan kedua. Adakah ini bermakna nisbah yang sama berlaku untuk purata am: M 1< М 2 ? Достаточно ли статистических данных для такого вывода? Ответы на эти вопросы и дает ujian statistik hipotesis.

Hipotesis statistik- ia adalah satu andaian tentang sifat-sifat populasi.

Kami akan mempertimbangkan hipotesis tentang sifat dua populasi umum.

Jika populasi mempunyai diketahui, sama pengagihan nilai yang dianggarkan, dan andaian berkenaan kuantiti beberapa parameter taburan ini, maka hipotesis dipanggil parametrik. Sebagai contoh, sampel diambil daripada populasi dengan undang-undang biasa taburan dan varians yang sama. Ia diperlukan untuk mengetahui sama purata am bagi populasi ini.

Jika tiada apa yang diketahui tentang undang-undang taburan populasi umum, maka hipotesis tentang sifat mereka dipanggil bukan parametrik. Sebagai contoh, sama undang-undang taburan populasi dari mana sampel diambil.

Hipotesis nol dan alternatif.

Tugas menguji hipotesis. Tahap keertian

Mari kita berkenalan dengan istilah yang digunakan dalam ujian hipotesis.

H 0 - hipotesis nol (hipotesis skeptik) - ini adalah hipotesis tentang tiada perbezaan antara sampel yang dibandingkan. Yang skeptik percaya bahawa perbezaan antara anggaran sampel yang diperoleh daripada hasil penyelidikan adalah rawak;

H 1- hipotesis alternatif (hipotesis optimis) ialah hipotesis tentang kehadiran perbezaan antara sampel yang dibandingkan. Orang optimis percaya bahawa perbezaan antara anggaran sampel disebabkan oleh sebab objektif dan sepadan dengan perbezaan dalam populasi umum.

Pengujian hipotesis statistik hanya boleh dilaksanakan apabila unsur-unsur sampel yang dibandingkan boleh digunakan untuk mengarang beberapa nilai(kriteria), undang-undang pengagihannya dalam hal keadilan H 0 diketahui. Kemudian, untuk kuantiti ini, seseorang boleh menentukan selang keyakinan, ke dalamnya dengan kebarangkalian yang diberikan R d mendapat nilainya. Selang ini dipanggil kawasan kritikal. Jika nilai kriteria jatuh ke dalam kawasan kritikal, maka hipotesis diterima H 0 . Jika tidak, hipotesis H 1 diterima.

Dalam penyelidikan perubatan, P d = 0.95 atau P d = 0.99 digunakan. Nilai-nilai ini sepadan aras keertianα = 0.05 atau α = 0.01.

Apabila menguji hipotesis statistikaras keertian(α) ialah kebarangkalian untuk menolak hipotesis nol apabila ia benar.

Ambil perhatian bahawa, pada terasnya, prosedur ujian hipotesis ditujukan kepada pengesanan perbezaan, bukan untuk mengesahkan ketidakhadiran mereka. Apabila nilai kriteria melangkaui kawasan kritikal, kita boleh mengatakan "skeptis" dengan hati yang murni - baik, apa lagi yang anda mahukan ?! Jika tiada perbezaan, maka dengan kebarangkalian 95% (atau 99%) nilai yang dikira akan berada dalam had yang ditentukan. Jadi tidak!..

Nah, jika nilai kriteria jatuh ke dalam kawasan kritikal, maka tidak ada sebab untuk mempercayai bahawa hipotesis H 0 adalah betul. Ini kemungkinan besar menunjukkan salah satu daripada dua kemungkinan penyebab.

1. Saiz sampel tidak cukup besar untuk mengesan perbezaan. Berkemungkinan percubaan berterusan akan membawa kejayaan.

2. Terdapat perbezaan. Tetapi mereka sangat kecil sehingga mereka tidak mempunyai kepentingan praktikal. Dalam kes ini, kesinambungan eksperimen tidak masuk akal.

Mari kita teruskan untuk mempertimbangkan beberapa hipotesis statistik yang digunakan dalam penyelidikan perubatan.

3.6. PENGUJIAN HIPOTESIS MENGENAI KESAMAAN VARIANS, KRITERION FISHER

Dalam beberapa kajian klinikal, kesan positif dibuktikan tidak begitu banyak oleh magnitud parameter yang dikaji, berapa banyak penstabilan, mengurangkan turun naiknya. Dalam kes ini, persoalan timbul untuk membandingkan dua varians umum berdasarkan keputusan tinjauan sampel. Tugasan ini boleh diselesaikan menggunakan Kriteria Fisher.

Perumusan masalah

undang-undang biasa pengedaran. Saiz sampel -

n 1 dan n2, a varians sampel sama rata s 1 dan s 2 2 varians umum.

Hipotesis yang diuji:

H 0- varians umum sama;

H 1- varians umum berbeza.

Ditunjukkan jika sampel diambil daripada populasi dengan undang-undang biasa pengedaran, maka jika hipotesis itu benar H 0 nisbah varians sampel mematuhi taburan Fisher. Oleh itu, sebagai kriteria untuk menguji kesahihan H 0 nilai diambil F, dikira dengan formula:

di mana s 1 dan s 2 - varians sampel.

Nisbah ini mematuhi taburan Fisher dengan bilangan darjah kebebasan pengangka ν 1 = n 1- 1 dan bilangan darjah kebebasan penyebut ν 2 = n 2 - 1. Sempadan kawasan kritikal ditemui mengikut jadual taburan Fisher atau menggunakan fungsi komputer BRASPOBR.

Untuk contoh yang dibentangkan dalam Jadual. 3.4, kita dapat: ν 1 \u003d ν 2 \u003d 20 - 1 \u003d 19; F= 2.16/4.05 = 0.53. Pada α = 0.05, sempadan kawasan kritikal adalah sama, masing-masing: = 0.40, = 2.53.

Nilai kriteria jatuh ke dalam kawasan kritikal, jadi hipotesis diterima H 0: varians sampel am sama.

3.7. PENGUJIAN HIPOTESIS MENGENAI KESAMAAN PURATA, ujian-t MURID

Masalah perbandingan sederhana dua populasi umum timbul apabila ia adalah magnitud sifat yang dikaji. Sebagai contoh, apabila membandingkan tempoh rawatan dengan dua kaedah yang berbeza atau bilangan komplikasi yang timbul daripada penggunaannya. Dalam kes ini, ujian-t Pelajar boleh digunakan.

Perumusan masalah

Dua sampel (X 1 ) dan (X 2 ) diperoleh daripada populasi dengan undang-undang biasa pengedaran dan serakan yang sama. Saiz sampel - n 1 dan n 2 , sampel bermakna adalah sama dengan X 1 dan X 2, dan varians sampel- s 1 2 dan s 2 2 masing-masing. Perlu dibandingkan purata am.

Hipotesis yang diuji:

H 0- purata am sama;

H 1- purata am berbeza.

Ia ditunjukkan bahawa jika hipotesis adalah benar H 0 nilai t, dikira dengan formula:

diedarkan mengikut undang-undang Pelajar dengan bilangan darjah kebebasan ν = ν 1 + + ν2 - 2.

Di sini di mana ν 1 = n 1 - 1 - bilangan darjah kebebasan untuk sampel pertama; v2 = n 2 - 1 - bilangan darjah kebebasan untuk sampel kedua.

Sempadan kawasan kritikal didapati daripada jadual taburan-t atau menggunakan fungsi komputer STUDRASP. Taburan Pelajar adalah simetri kira-kira sifar, jadi sempadan kiri dan kanan kawasan kritikal adalah sama dalam nilai mutlak dan bertentangan dalam tanda: -dan

Untuk contoh yang dibentangkan dalam Jadual. 3.4, kita dapat:

v 1 \u003d v 2 \u003d 20 - 1 \u003d 19; v = 38, t= -2.51. Dengan α = 0.05 = 2.02.

Nilai kriteria melangkaui sempadan kiri kawasan kritikal, jadi kami menerima hipotesis H 1: purata am berbeza. Pada masa yang sama, purata populasi umum sampel pertama LEBIH KECIL.

Kebolehgunaan ujian-t Pelajar

Ujian-t pelajar hanya terpakai kepada sampel daripada biasa agregat dengan varians umum yang sama. Sekiranya sekurang-kurangnya salah satu syarat dilanggar, maka kebolehgunaan kriteria tersebut diragui. Keperluan kenormalan populasi umum biasanya diabaikan, merujuk kepada teorem had pusat. Sesungguhnya, perbezaan dalam sampel bermakna, yang terdapat dalam pengangka (3.10), boleh dianggap diedarkan secara normal untuk ν > 30. Tetapi persoalan kesamaan varians tidak tertakluk kepada pengesahan, dan merujuk kepada fakta bahawa Fisher ujian tidak mengesan perbezaan tidak boleh diambil kira. Namun begitu, ujian-t digunakan secara meluas untuk mengesan perbezaan min populasi, walaupun tanpa bukti yang mencukupi.

Di bawah dipertimbangkan kriteria bukan parametrik, yang berjaya digunakan untuk tujuan yang sama dan yang tidak memerlukan apa-apa kenormalan, tidak juga kesamaan varians.

3.8. PERBANDINGAN BUKAN PARAMETRI DUA SAMPEL: UJIAN MANN-WHITNEY

Kriteria bukan parametrik direka untuk mengesan perbezaan dalam undang-undang taburan dua populasi umum. Kriteria yang sensitif kepada perbezaan secara umum sederhana, dipanggil kriteria syif. Kriteria yang sensitif kepada perbezaan secara umum penyebaran, dipanggil kriteria skala. Ujian Mann-Whitney merujuk kepada kriteria ricih dan digunakan untuk mengesan perbezaan dalam cara dua populasi, sampel daripadanya dibentangkan dalam skala ranking. Tanda-tanda yang diukur terletak pada skala ini dalam tertib menaik, dan kemudian dinomborkan dengan integer 1, 2 ... Nombor ini dipanggil pangkat. Nilai yang sama diberikan pangkat yang sama. Bukan nilai atribut itu sendiri yang penting, tetapi hanya tempat ordinal, yang didudukinya antara nilai-nilai lain.

Dalam jadual. 3.5. kumpulan pertama dari jadual 3.4 dibentangkan dalam bentuk diperluas (baris 1), tertakluk kepada kedudukan (baris 2), dan kemudian pangkat nilai yang sama digantikan dengan nilai min aritmetik. Sebagai contoh, elemen 4 dan 4 dalam baris pertama diberi kedudukan 2 dan 3, yang kemudiannya digantikan dengan nilai yang sama iaitu 2.5.

Jadual 3.5

Perumusan masalah

Sampel bebas (X 1) dan (X 2) diekstrak daripada populasi dengan undang-undang pengedaran yang tidak diketahui. Saiz sampel n 1 dan n 2 masing-masing. Nilai unsur-unsur sampel dibentangkan dalam skala ranking. Ia dikehendaki menyemak sama ada populasi umum ini berbeza antara satu sama lain?

Hipotesis yang diuji:

H 0- sampel tergolong dalam populasi umum yang sama; H 1- sampel tergolong dalam populasi umum yang berbeza.

Untuk menguji hipotesis tersebut, ujian (/-Mann-Whitney digunakan.

Pertama, sampel gabungan (X) dibuat daripada dua sampel, yang unsur-unsurnya disenaraikan. Kemudian jumlah pangkat yang sepadan dengan unsur-unsur sampel pertama ditemui. Jumlah ini adalah kriteria untuk menguji hipotesis.

U= Jumlah pangkat sampel pertama. (3.11)

Untuk sampel bebas yang lebih besar daripada 20, nilainya U mematuhi taburan normal, jangkaan matematik dan sisihan piawainya adalah sama dengan:

Oleh itu, sempadan kawasan kritikal didapati mengikut jadual taburan normal.

Untuk contoh yang dibentangkan dalam Jadual. 3.4, kita dapat: ν 1 \u003d ν 2 \u003d 20 - 1 \u003d 19, U= 339, μ = 410, σ = 37. Untuk α = 0.05 kita dapat: kedua-dua kiri = 338 dan kanan = 482.

Nilai kriteria melangkaui sempadan kiri kawasan kritikal, jadi hipotesis H 1 diterima: populasi umum mempunyai undang-undang pengedaran yang berbeza. Pada masa yang sama, purata populasi umum sampel pertama LEBIH KECIL.

Apabila memproses sejumlah besar maklumat, yang sangat penting apabila menjalankan perkembangan saintifik moden, penyelidik menghadapi tugas serius untuk mengumpulkan data awal dengan betul. Jika data adalah diskret, maka, seperti yang telah kita lihat, tidak ada masalah - anda hanya perlu mengira kekerapan setiap ciri. Jika sifat yang dikaji mempunyai berterusan watak (yang lebih biasa dalam amalan), maka pilihan bilangan selang optimum untuk mengelompokkan ciri bukanlah satu tugas yang remeh.

Untuk mengumpulkan pembolehubah rawak berterusan, keseluruhan julat variasi ciri dibahagikan kepada beberapa selang tertentu kepada.

Selang berkumpulan (berterusan) siri variasi dipanggil selang yang disusun mengikut nilai ciri (), di mana ditunjukkan bersama-sama dengan frekuensi yang sepadan () bilangan cerapan yang jatuh ke dalam selang ke-r ", atau frekuensi relatif ():

Selang nilai ciri

kekerapan mi

graf bar dan terkumpul (ogiva), telah dibincangkan secara terperinci oleh kami, adalah alat visualisasi data yang sangat baik yang membolehkan anda mendapatkan pemahaman utama tentang struktur data. Graf sedemikian (Rajah 1.15) dibina untuk data berterusan dengan cara yang sama seperti untuk data diskret, hanya mengambil kira fakta bahawa data berterusan mengisi sepenuhnya kawasan nilai yang mungkin, mengambil sebarang nilai.

nasi. 1.15.

Jadi lajur pada histogram dan terkumpul mestilah bersentuhan, tidak mempunyai kawasan di mana nilai atribut tidak termasuk dalam semua kemungkinan(iaitu, histogram dan terkumpul tidak sepatutnya mempunyai "lubang" di sepanjang paksi absis, di mana nilai pembolehubah yang dikaji tidak jatuh, seperti dalam Rajah 1.16). Ketinggian bar sepadan dengan kekerapan - bilangan cerapan yang jatuh ke dalam selang yang diberikan, atau kekerapan relatif - perkadaran cerapan. Selang masa tidak boleh menyeberang dan selalunya sama lebarnya.

nasi. 1.16.

Histogram dan poligon adalah penghampiran lengkung ketumpatan kebarangkalian (fungsi pembezaan) f(x) taburan teori, dipertimbangkan dalam perjalanan teori kebarangkalian. Oleh itu, pembinaan mereka adalah begitu penting dalam pemprosesan statistik utama data berterusan kuantitatif - dengan tingkatan satu mereka boleh menilai undang-undang pengedaran hipotesis.

Kumulasikan - lengkung frekuensi terkumpul (frekuensi) siri variasi selang. Graf fungsi taburan kamiran dibandingkan dengan terkumpul F(x), juga dipertimbangkan dalam perjalanan teori kebarangkalian.

Pada asasnya, konsep histogram dan terkumpul dikaitkan dengan tepat dengan data berterusan dan siri variasi selangnya, kerana graf mereka masing-masing adalah anggaran empirikal bagi fungsi ketumpatan kebarangkalian dan fungsi taburan.

Pembinaan siri variasi selang bermula dengan menentukan bilangan selang k. Dan tugas ini mungkin yang paling sukar, penting dan kontroversi dalam isu yang dikaji.

Bilangan selang tidak boleh terlalu kecil, kerana histogram akan menjadi terlalu licin ( terlalu licin), kehilangan semua ciri kebolehubahan data awal - dalam Rajah. 1.17 anda boleh melihat bagaimana data yang sama di mana graf Rajah. 1.15 digunakan untuk membina histogram dengan bilangan selang yang lebih kecil (graf kiri).

Pada masa yang sama, bilangan selang tidak boleh terlalu besar - jika tidak, kami tidak akan dapat menganggarkan ketumpatan taburan data yang dikaji sepanjang paksi berangka: histogram akan menjadi kurang lancar (kurang lancar) dengan selang tidak terisi, tidak sekata (lihat Rajah 1.17, graf kanan).

nasi. 1.17.

Bagaimana untuk menentukan bilangan selang yang paling disukai?

Kembali pada tahun 1926, Herbert Sturges mencadangkan formula untuk mengira bilangan selang yang diperlukan untuk membahagikan set nilai awal atribut yang dikaji. Formula ini benar-benar menjadi sangat popular - kebanyakan buku teks statistik menawarkannya, dan banyak pakej statistik menggunakannya secara lalai. Sama ada ini wajar dan dalam semua kes adalah persoalan yang sangat serius.

Jadi, apakah formula Sturges berdasarkan?

Pertimbangkan taburan binomial )