



Study with the several resources on Docsity
Earn points by helping other students or get them with a premium plan
Prepare for your exams
Study with the several resources on Docsity
Earn points to download
Earn points by helping other students or get them with a premium plan
Community
Ask the community for help and clear up your study doubts
Discover the best universities in your country according to Docsity users
Free resources
Download our free guides on studying techniques, anxiety management strategies, and thesis advice from Docsity tutors
sem 1 - 2024, 2025 - subject probability
Typology: Schemes and Mind Maps
1 / 6
This page cannot be seen from the preview
Don't miss anything!
Thống kê suy luận
Tuần gần nhất, chúng ta đã học về thống kê mô tả (descriptive statistics) bao gồm các bước mô tả
(describe) và tóm tắt (summerize) dữ liệu quan sát (observed data) trong thực tế. Nội dung sắp tới chúng
ta sẽ học về thống kê suy luận/ suy luận thống kê (inferential statistics/ statistical inference).
Thống kê suy luận (inferential statistics) là quá trình suy luận và nhận định về các đặc điểm (properties)
của tổng thể thống kê (statistical population) từ dữ liệu quan sát. Dữ liệu quan sát được gọi là một mẫu (a
sample) thu thập từ tổng thể thống kê. Tại sao việc này cần thiết?
Trong hầu hết các trường hợp trong thực tế, người nghiên cứu không thể thu thập được toàn bộ tổng thể
thống kê. Ví dụ, khi điều tra về dữ liệu sinh học, như chiều cao hoặc cân nặng, cho tổng thể gần 100 triệu
dân Việt Nam là không khả thi, bởi lý do tài chính và quy mô. Nhà nghiên cứu chỉ có thể thu thập một
mẫu nhất định, từ vài nghìn đến vài chục nghìn người, và từ đó suy luận về toàn bộ dân số.
Tương tự, trong một dây chuyền sản xuất đồ uống đóng chai, người vận hành muốn kiểm tra xem lượng
đồ uống trong chai có đúng như thể tích định sẵn (ví dụ 250ml với sai số 2%). Việc kiểm tra toàn bộ chai
trên dây chuyền là bất khả thi; thay vào đó, họ chỉ có thể chọn một mẫu ngẫu nhiên nhất định để kiểm tra,
đảm bảo cân bằng giữa tài chính và yêu cầu kiểm soát chất lượng.
Phương pháp thống kê suy luận
Thống kê suy luận bắt đầu bằng việc trừu tượng hóa dữ liệu quan sát thông qua lý thuyết xác suất. Sự trừu
tượng hóa này giúp chúng ta có thể liên kết được từ dữ liệu quan sát tới tổng thể cần nghiên cứu.
Giả sử chúng ta có một mẫu quan sát chiều cao nam thanh niên Việt Nam có cỡ mẫu là n = 5. Cỡ mẫu này
yêu cầu chúng ta thiệt lập một mẫu ngẫu nhiên (a random sample) mang tính trừu tượng bao gồm 5 biến
ngẫu nhiên (five random variables):
1
2
3
4
5
Năm biến ngẫu nhiên được giả định là độc lập và đồng nhất phân phối (five variables are assumed to be
independent and identical distributed - IID). Giả định đồng nhất phân phối nhằm đảm bảo 5 biến
i
( i = 1 , 2 … 5 ) ĐỀU đến từ phân phối của tổng thể, ví dụ như phân phối chuẩn N ( μ , σ
2
.
Giả định độc lập phân phối nhằm đảm bảo (một phần) tính ngẫu nhiên của mẫu. Tính ngẫu nhiên có nghĩa
là các biến ngẫu nhiên này không thuộc vào một nhóm con nhất định của tổng thể, chẳng hạn như nhóm
người người chơi bóng rổ hay nhóm người chậm phát triển sinh học. Đây còn gọi là mẫu đại diện
(representative) cho tổng thể. Về mặt toán học, xác suất xảy ra từng số đo chiều cao của
1
không liên
quan đến xác suất xảy từng số đo chiều cao của
2
mang ý nghĩa là
1
và
2
không hề có mối quan hệ
nào, nên không thuộc cùng một nhóm con nào trong tổng thể.
Với cỡ mẫu n = 5 , chúng ta có thể thể hiện về mặt toán học cho mẫu ngẫu nhiên gồm 5 biến ngẫu nhiên
IID như sau:
i
μ , σ
2
,i = 1 , 2 … 5
1
2
3
4
5
độc lậptừng đôimột
Ở đây,
2
là phân phối của tổng thể. Hai tham số μ và
σ
2
là những đặc điểm không biết (ẩn số)
(unknown parameters of the population distribution) mà chúng ta cần đi điều tra từ dữ liệu quan sát. Cần
chú ý, năm biến ngẫu nhiên
1
2
3
4
5
là các đối tượng thuần toán học, KHÔNG PHẢI là dữ
liệu quan sát. Vậy dữ liệu quan sát là gì?
Giả sử chúng ta quan sát được 5 chiều cao bao gồm 170cm, 165cm, 177cm, 161cm và 168cm. Đây được
gọi là hiện thực hóa (realization) hoặc giá trị quan sát (observed data/observed values) của 5 biến ngẫu
nhiên
1
2
3
4
5
. Tại sao lại như vậy?
Hãy nhớ rằng biến ngẫu nhiên (cùng với phân phối xác suất của nó) là một hàm số ánh xạ, bao gồm các
giá trị có thể xảy ra và các giá trị xác suất tương ứng. Cụ thể,
1
2
có thể xảy ra các giá trị từ
− ∞ cho đến + ∞ , xác suất theo hàm PDF f ( x )
. Các con số cụ thể, như 170cm, không phải là một biến
ngẫu nhiên mà chỉ là các giá trị quan sát từ biến ngẫu nhiên. Các bạn có thể xem 170cm là kết quả (an
outcome) của một phép thử ngẫu nhiên (a random trial) từ biến ngẫu nhiên
1
μ , σ
2
tung đồng xu có hàm phân phối binomial và được kết quả head/tail). Con số 170cm càng gần giá trị kì
vọng (expected value) μ của phân phối tổng thể thì xác suất của nó càng cao.
Chúng ta cũng hiểu ngầm rằng, theo lý thuyết xác suất và thống kê, việc thu thập mẫu có thể thực hiện rất
nhiều lần, và mỗi lần chúng ta sẽ nhận được một kết quả riêng biệt. Giả định nếu thu thập 5 mẫu quan sát
thì chúng ta có các kết quả như bảng dưới. Nhưng hiện tại, do thu thập có 1 lần nên chỉ có duy nhất một
mẫu dữ liệu
x
1
:
Biến ngẫu nhiên của mẫu
ngẫu nhiên ( n = 5 ) →
1
2
3
4
5
Ghi chú
Mẫu quan sát 1
(Thu thập tại ĐHQT lần 1)
Hiện thực hóa số 1 của mẫu ngẫu
nhiên bao gồm
1
2
3
4
5
Mẫu quan sát 2
(Thu thập tại ĐHQT lần 2)
Hiện thực hóa số 2 của mẫu ngẫu
nhiên bao gồm
1
2
3
4
5
Mẫu quan sát 3
(Điền form online)
Hiện thực hóa số 3 của mẫu ngẫu
nhiên bao gồm
1
2
3
4
5
Mẫu quan sát 4
(Thu thập tại phòng gym)
Hiện thực hóa số 4 của mẫu ngẫu
nhiên bao gồm X
1
2
3
4
5
Mẫu quan sát 5
(Thu thập tại bệnh viện)
Hiện thực hóa số 5 của mẫu ngẫu
nhiên bao gồm X
1
2
3
4
5
… … … … … … …
Ươc lượng tham số của tổng thể từ giá trị quan sát của mẫu ngẫu nhiên?
Bước tiếp trong phương pháp thống kê suy luận là xác định phương pháp ước lượng tham số tối ưu
(optimal point estimator) từ dữ liệu quan sát. Cần chú ý rằng, trong quan điểm của lý thuyết xác suất và
thống kê, mọi kết quả - cho dù hy hữu nhất - đều có thể xảy ra. Sự khác biệt nằm ở giá trị xác suất khác
nhau cho từng khác biệt. Do đó, không tồn tại giá trị ước lượng chính xác tuyệt đối cho tham số của tổng
thể. Mà chúng ta chỉ có thể đi tìm giá trị ước lượng “gần nhất có thể” cho tham số của tổng thể.
Chúng ta có thể nghĩ rằng ước lượng điểm trong thống kê suy luận giống như đang tìm một phương pháp
bắn cung mà kết quả hồng tâm nhất qua nhiều lần bắn. Không chệch nghĩa phương pháp bắn “Trung bình
mẫu” có xu hướng bắn trúng hồng tâm. Còn sai số nhỏ nhất là phương pháp bắn “Trung bình mẫu” sẽ
mang lại tổng độ lệch nhỏ nhất. Từng dữ liệu quan sát tương ứng với từng kết quả bắn cung.
Sử dụng số liệu cụ thể, chúng ta tính được
x =
. Con số x =168,
là một giá trị quan sát (hiện thức hóa) của biến ngẫu nhiên X , và nó KHÔNG PHẢI là kết quả tính toán
chính xác tham số μ , mà chỉ là MỘT GIÁ TRỊ ƯỚC LƯỢNG dựa trên mẫu quan sát. Giá trị này này có
đúng với tham số μ của tổng thể hay không, chúng ta sẽ không bao giờ biết được. Bởi vì, ngay từ đầu
tổng thể đã KHÔNG THỂ QUAN SÁT. Tuy nhiên, tính chất tối ưu mang lại cho chúng ta một ước lượng
mà giá trị xoay quanh mục tiêu với sai số nhỏ nhất có thể khi lập đi lập lại nhiều lần.
Tổng kết ngắn
Ghi chú này giải thích ngắn gọn cách tiếp cận ước lượng điểm (point estimation) cho tham số của phân
phối tổng thể (như μ và σ
2
mà nhà nghiên cứu trực tiếp không quan sát được. Phương pháp ước lượng
điểm coi dữ liệu quan sát (observed values) như là hiện thực hóa của một mẫu ngẫu nhiên (a random
sample) thuần toán học. Với cỡ mẫu n , mẫu ngẫu nhiên này bao gồm n biến ngẫu nhiên (random
variables), thường được giả định độc lập và đồng nhất phân phối (IID). Giả định IID giúp đơn giản hóa
việc chọn phương pháp ước lượng tối ưu (optimal estimator). Ví dụ, để ước lượng μ , chúng ta sử dụng
trung bình mẫu
n
∑
i
. Từng mẫu quan sát/ dữ liệu quan sát khác nhau sẽ cho các giá trị ước lượng
khác nhau. Giá trị ước lượng trung bình mẫu đạt hai tính chất quan trọng: không chệch (unbiased) và sai
số nhỏ nhất có thể (possibly smallest variances).
Các bạn có thể xem hình bên dưới để thấy được quá trình tư duy đi đến phương pháp tối ưu về mặt toán
học ở cột bên phải màu xanh. Cách tính toán từ mẫu quan sát dựa vào phương pháp ước lượng điểm tối đa
được thể hiện ở cột bên phải. Lưu ý, ước lượng tối ưu cho σ
2
là phương sai mẫu
2
n − 1
∑
i
2
.
(a) Không chệch và sai số
nhỏ
(b) Không chệch nhưng sai
số lớn
(c) Chệch và sai số nhỏ