Sample variance là gì

     

Khi ban đầu học môn Quant, có một trong những phần tôi luôn luôn thắc mắc khi nói đến Sample (mẫu) với Population (tạm dịch là tổng thể). Trong phương pháp tính Mean thì cả sample mean (thường được ký hiệu $ar x$ ) và population mean (thường được cam kết hiệu μ) đều được chia cho n (với giả sử n là số lượng quan gần kề trong sample hoặc vào population).Bạn vẫn xem: Sample variance là gì

Còn với standard deviation thì không phải như vậy, chủng loại số của sample sd là (n-1) còn của population sd là n. Tại sao lại gồm phân biệt đối xử như vậy? 




Bạn đang xem: Sample variance là gì

*

Ok, tôi so sánh công thức tính độ lệch chuẩn (standard deviation – sd) của một population:

$$ sigma = sqrtfracsum_i=1^N left(X_i – mu_X ight)^2N $$

và độ lệch chuẩn của một sample :

$$ s = sqrtfracsum_i=1^n left(X_i – ar X ight)^2n – 1 $$

Hmm, rất có thể nhận ra tức thì điểm khác biệt rõ rệt đó là mẫu số: với population là N, và với sample là (n-1). Vào trong ngày thi, khi áp lực nặng nề là cực kì lớn, 2 công thức này hoàn toàn có thể rất dễ dẫn đến lẫn lộn. Và tất nhiên là, vào 3 đáp án những ông rất có thể khoanh sẽ bao gồm cả lời giải sai – đáp án thực hiện n thay vì (n-1) (hoặc tựa như thế).Bạn đang xem: Sample variance là gì

Vậy bởi vì sao là n cùng (n-1) ?

Để nắm rõ hơn, tôi cho những ông ví dụ như sau nhé:

Giả sử gồm 3 lá bài xích với những giá trị 0, 2, 4.

Xem thêm: Trái Khế Có Tác Dụng Gì ? Cách Chế Biến Quả Khế Những Đối Tượng Nào Không Nên Ăn Khế


Xem thêm: Tổng Hợp Sau Will Là Gì - Sau Will Be Là Loại Từ Gì


Như vậy:

$ Population mean = frac(0+2+4)3 = 2 $$ Population variance = frac(0-2)^2 + (2-2)^2 + (4-2)^23 = frac83 $

Bây tiếng tôi xét toàn bộ những biện pháp lấy những mẫu-có-2-phần-tử. Gồm 9 phương pháp như vậy, với tôi tất cả bảng sau:

MẫuTrung bình mẫuPhương sai – mẫu mã số (n-1)Phương sai – mẫu số (n)
(0,0)000
(0,2)121
(0,4)284
(2,0)121
(2,2)200
(2,4)321
(4,0)284
(4,2)321
(4,4)400

Có thể thấy:

Với chủng loại số (n-1), trung bình của những phương không nên của toàn bộ mẫu-2-phần-tử có thể là: (0+2+8+2+0+2+8+2+0)/9 = 24/9 = 8/3, bằng với phương không đúng của population.

Và kia là lý do tại sao phải áp dụng (n-1) thay bởi vì n lúc tính phương sai/độ lệch chuẩn chỉnh cho sample. Ý tưởng là để kiểm soát và điều chỉnh cho đông đảo “thiên vị” (bias) khi chọn mẫu. Nếu như tôi rước 1 sample bao gồm 30 quan lại sát, rồi tính mean cho sample đó; tiếp đến lấy tiếp 30 quan gần kề khác, thì chỉ có 29 quan gần kề được phép từ do biến đổi nếu như mong sample mean ko đổi. Nói cách khác, sau khi lấy bỗng nhiên 29 quan giáp đầu tiên, chỉ có duy nhất 1 giá bán trị mang lại quan liền kề thứ 30 đưa lại cực hiếm sample mean như cũ. Như vậy, tôi đã mất 1 bậc trường đoản cú do (1 degree of freedom). Số 1 này chính là điều chỉnh tự n thành (n-1).

(Nguồn tham khảo: http://nebula.deanza.edu/~bloom/math10/m10divideby_nminus1.pdf )