Docsity
Docsity

Prepare for your exams
Prepare for your exams

Study with the several resources on Docsity


Earn points to download
Earn points to download

Earn points by helping other students or get them with a premium plan


Guidelines and tips
Guidelines and tips

Note for probability, Schemes and Mind Maps of Mathematical finance

sem 1 - 2024, 2025 - subject probability

Typology: Schemes and Mind Maps

2023/2024

Uploaded on 11/24/2024

ho-thanh-tuyen
ho-thanh-tuyen 🇻🇳

1 document

1 / 6

Toggle sidebar

This page cannot be seen from the preview

Don't miss anything!

bg1
NOTE 2
Thống kê suy luận
Tuần gần nhất, chúng ta đã học về thống tả (descriptive statistics) bao gồm các bước tả
(describe) và tóm tắt (summerize) dữ liệu quan sát (observed data) trong thực tế. Nội dung sắp tới chúng
ta sẽ học về thống kê suy luận/ suy luận thống kê (inferential statistics/ statistical inference).
Thống kê suy luận (inferential statistics) là quá trình suy luận và nhận định về các đặc điểm (properties)
của tổng thể thống kê (statistical population) từ dữ liệu quan sát. Dữ liệu quan sát được gọi là một mẫu (a
sample) thu thập từ tổng thể thống kê. Tại sao việc này cần thiết?
Trong hầu hết các trường hợp trong thực tế, người nghiên cứu không thể thu thập được toàn bộ tổng thể
thống kê. Ví dụ, khi điều tra về dữ liệu sinh học, như chiều cao hoặc cân nặng, cho tổng thể gần 100 triệu
dân Việt Nam là không khả thi, bởi lý do tài chính và quy mô. Nhà nghiên cứu chỉ có thể thu thập một
mẫu nhất định, từ vài nghìn đến vài chục nghìn người, và từ đó suy luận về toàn bộ dân số.
Tương tự, trong một dây chuyền sản xuất đồ uống đóng chai, người vận hành muốn kiểm tra xem lượng
đồ uống trong chai có đúng như thể tích định sẵn (ví dụ 250ml với sai số 2%). Việc kiểm tra toàn bộ chai
trên dây chuyền là bất khả thi; thay vào đó, họ chỉ có thể chọn một mẫu ngẫu nhiên nhất định để kiểm tra,
đảm bảo cân bằng giữa tài chính và yêu cầu kiểm soát chất lượng.
Phương pháp thống kê suy luận
Thống kê suy luận bắt đầu bằng việc trừu tượng hóa dữ liệu quan sát thông qua lý thuyết xác suất. Sự trừu
tượng hóa này giúp chúng ta có thể liên kết được từ dữ liệu quan sát tới tổng thể cần nghiên cứu.
Giả sử chúng ta có một mẫu quan sát chiều cao nam thanh niên Việt Nam có cỡ mẫu là
n=5
. Cỡ mẫu này
yêu cầu chúng ta thiệt lập một mẫu ngẫu nhiên (a random sample) mang tính trừu tượng bao gồm 5 biến
ngẫu nhiên (five random variables):
X1, X2, X 3, X 4, X5
Năm biến ngẫu nhiên được giả định là độc lập và đồng nhất phân phối (five variables are assumed to be
independent and identical distributed - IID). Giả định đồng nhất phân phối nhằm đảm bảo 5 biến
Xi(i=1,25)
ĐỀU đến từ phân phối của tổng thể, ví dụ như phân phối chuẩn
N(μ , σ 2)
.
Giả định độc lập phân phối nhằm đảm bảo (một phần) tính ngẫu nhiên của mẫu. Tính ngẫu nhiên có nghĩa
là các biến ngẫu nhiên này không thuộc vào một nhóm con nhất định của tổng thể, chẳng hạn như nhóm
người người chơi bóng rổ hay nhóm người chậm phát triển sinh học. Đây còn gọi mẫu đại diện
(representative) cho tổng thể. Về mặt toán học, xác suất xảy ra từng số đo chiều cao của
X1
không liên
quan đến xác suất xảy từng số đo chiều cao của
X2,
mang ý nghĩa
X1
không hề có mối quan hệ
nào, nên không thuộc cùng một nhóm con nào trong tổng thể.
Với cỡ mẫu
n=5
, chúng ta có thể thể hiện về mặt toán học cho mẫu ngẫu nhiên gồm 5 biến ngẫu nhiên
IID như sau:
XiN
(
μ , σ 2
)
,i=1,25
X1, X2, X 3, X 4, X5độclập từng đôi một
Ở đây,
N
(
μ , σ2
)
phân phối của tổng thể. Hai tham số
μ
σ2
những đặc điểm không biết (ẩn số)
(unknown parameters of the population distribution) mà chúng ta cần đi điều tra từ dữ liệu quan sát. Cần
pf3
pf4
pf5

Partial preview of the text

Download Note for probability and more Schemes and Mind Maps Mathematical finance in PDF only on Docsity!

NOTE 2

Thống kê suy luận

Tuần gần nhất, chúng ta đã học về thống kê mô tả (descriptive statistics) bao gồm các bước mô tả

(describe) và tóm tắt (summerize) dữ liệu quan sát (observed data) trong thực tế. Nội dung sắp tới chúng

ta sẽ học về thống kê suy luận/ suy luận thống kê (inferential statistics/ statistical inference).

Thống kê suy luận (inferential statistics) là quá trình suy luận và nhận định về các đặc điểm (properties)

của tổng thể thống kê (statistical population) từ dữ liệu quan sát. Dữ liệu quan sát được gọi là một mẫu (a

sample) thu thập từ tổng thể thống kê. Tại sao việc này cần thiết?

Trong hầu hết các trường hợp trong thực tế, người nghiên cứu không thể thu thập được toàn bộ tổng thể

thống kê. Ví dụ, khi điều tra về dữ liệu sinh học, như chiều cao hoặc cân nặng, cho tổng thể gần 100 triệu

dân Việt Nam là không khả thi, bởi lý do tài chính và quy mô. Nhà nghiên cứu chỉ có thể thu thập một

mẫu nhất định, từ vài nghìn đến vài chục nghìn người, và từ đó suy luận về toàn bộ dân số.

Tương tự, trong một dây chuyền sản xuất đồ uống đóng chai, người vận hành muốn kiểm tra xem lượng

đồ uống trong chai có đúng như thể tích định sẵn (ví dụ 250ml với sai số 2%). Việc kiểm tra toàn bộ chai

trên dây chuyền là bất khả thi; thay vào đó, họ chỉ có thể chọn một mẫu ngẫu nhiên nhất định để kiểm tra,

đảm bảo cân bằng giữa tài chính và yêu cầu kiểm soát chất lượng.

Phương pháp thống kê suy luận

Thống kê suy luận bắt đầu bằng việc trừu tượng hóa dữ liệu quan sát thông qua lý thuyết xác suất. Sự trừu

tượng hóa này giúp chúng ta có thể liên kết được từ dữ liệu quan sát tới tổng thể cần nghiên cứu.

Giả sử chúng ta có một mẫu quan sát chiều cao nam thanh niên Việt Nam có cỡ mẫu là n = 5. Cỡ mẫu này

yêu cầu chúng ta thiệt lập một mẫu ngẫu nhiên (a random sample) mang tính trừu tượng bao gồm 5 biến

ngẫu nhiên (five random variables):

X

1

, X

2

, X

3

, X

4

, X

5

Năm biến ngẫu nhiên được giả định là độc lập và đồng nhất phân phối (five variables are assumed to be

independent and identical distributed - IID). Giả định đồng nhất phân phối nhằm đảm bảo 5 biến

X

i

( i = 1 , 2 5 ) ĐỀU đến từ phân phối của tổng thể, ví dụ như phân phối chuẩn N ( μ , σ

2

.

Giả định độc lập phân phối nhằm đảm bảo (một phần) tính ngẫu nhiên của mẫu. Tính ngẫu nhiên có nghĩa

là các biến ngẫu nhiên này không thuộc vào một nhóm con nhất định của tổng thể, chẳng hạn như nhóm

người người chơi bóng rổ hay nhóm người chậm phát triển sinh học. Đây còn gọi là mẫu đại diện

(representative) cho tổng thể. Về mặt toán học, xác suất xảy ra từng số đo chiều cao của

X

1

không liên

quan đến xác suất xảy từng số đo chiều cao của

X

2

mang ý nghĩa là

X

1

X

2

không hề có mối quan hệ

nào, nên không thuộc cùng một nhóm con nào trong tổng thể.

Với cỡ mẫu n = 5 , chúng ta có thể thể hiện về mặt toán học cho mẫu ngẫu nhiên gồm 5 biến ngẫu nhiên

IID như sau:

X

i

N

μ , σ

2

,i = 1 , 2 5

X

1

, X

2

, X

3

, X

4

, X

5

độc lậptừng đôimột

Ở đây,

N ( μ , σ

2

là phân phối của tổng thể. Hai tham số μ

σ

2

là những đặc điểm không biết (ẩn số)

(unknown parameters of the population distribution) mà chúng ta cần đi điều tra từ dữ liệu quan sát. Cần

chú ý, năm biến ngẫu nhiên

X

1

, X

2

, X

3

, X

4

, X

5

là các đối tượng thuần toán học, KHÔNG PHẢI là dữ

liệu quan sát. Vậy dữ liệu quan sát là gì?

Giả sử chúng ta quan sát được 5 chiều cao bao gồm 170cm, 165cm, 177cm, 161cm và 168cm. Đây được

gọi là hiện thực hóa (realization) hoặc giá trị quan sát (observed data/observed values) của 5 biến ngẫu

nhiên

X

1

, X

2

, X

3

, X

4

, X

5

. Tại sao lại như vậy?

Hãy nhớ rằng biến ngẫu nhiên (cùng với phân phối xác suất của nó) là một hàm số ánh xạ, bao gồm các

giá trị có thể xảy ra và các giá trị xác suất tương ứng. Cụ thể,

X

1

N ( μ , σ

2

có thể xảy ra các giá trị từ

− ∞ cho đến + , xác suất theo hàm PDF f ( x )

. Các con số cụ thể, như 170cm, không phải là một biến

ngẫu nhiên mà chỉ là các giá trị quan sát từ biến ngẫu nhiên. Các bạn có thể xem 170cm là kết quả (an

outcome) của một phép thử ngẫu nhiên (a random trial) từ biến ngẫu nhiên

X

1

N

μ , σ

2

) (nó giống như

tung đồng xu có hàm phân phối binomial và được kết quả head/tail). Con số 170cm càng gần giá trị kì

vọng (expected value) μ của phân phối tổng thể thì xác suất của nó càng cao.

Chúng ta cũng hiểu ngầm rằng, theo lý thuyết xác suất và thống kê, việc thu thập mẫu có thể thực hiện rất

nhiều lần, và mỗi lần chúng ta sẽ nhận được một kết quả riêng biệt. Giả định nếu thu thập 5 mẫu quan sát

thì chúng ta có các kết quả như bảng dưới. Nhưng hiện tại, do thu thập có 1 lần nên chỉ có duy nhất một

mẫu dữ liệu

x

1

:

Biến ngẫu nhiên của mẫu

ngẫu nhiên ( n = 5 )

X

1

X

2

X

3

X

4

X

5

Ghi chú

Mẫu quan sát 1

(Thu thập tại ĐHQT lần 1)

Hiện thực hóa số 1 của mẫu ngẫu

nhiên bao gồm

X

1

, X

2

, X

3

, X

4

, X

5

Mẫu quan sát 2

(Thu thập tại ĐHQT lần 2)

Hiện thực hóa số 2 của mẫu ngẫu

nhiên bao gồm

X

1

, X

2

, X

3

, X

4

, X

5

Mẫu quan sát 3

(Điền form online)

Hiện thực hóa số 3 của mẫu ngẫu

nhiên bao gồm

X

1

, X

2

, X

3

, X

4

, X

5

Mẫu quan sát 4

(Thu thập tại phòng gym)

Hiện thực hóa số 4 của mẫu ngẫu

nhiên bao gồm X

1

, X

2

, X

3

, X

4

, X

5

Mẫu quan sát 5

(Thu thập tại bệnh viện)

Hiện thực hóa số 5 của mẫu ngẫu

nhiên bao gồm X

1

, X

2

, X

3

, X

4

, X

5

… … … … … … …

Ươc lượng tham số của tổng thể từ giá trị quan sát của mẫu ngẫu nhiên?

Bước tiếp trong phương pháp thống kê suy luận là xác định phương pháp ước lượng tham số tối ưu

(optimal point estimator) từ dữ liệu quan sát. Cần chú ý rằng, trong quan điểm của lý thuyết xác suất và

thống kê, mọi kết quả - cho dù hy hữu nhất - đều có thể xảy ra. Sự khác biệt nằm ở giá trị xác suất khác

nhau cho từng khác biệt. Do đó, không tồn tại giá trị ước lượng chính xác tuyệt đối cho tham số của tổng

thể. Mà chúng ta chỉ có thể đi tìm giá trị ước lượng “gần nhất có thể” cho tham số của tổng thể.

Chúng ta có thể nghĩ rằng ước lượng điểm trong thống kê suy luận giống như đang tìm một phương pháp

bắn cung mà kết quả hồng tâm nhất qua nhiều lần bắn. Không chệch nghĩa phương pháp bắn “Trung bình

mẫu” có xu hướng bắn trúng hồng tâm. Còn sai số nhỏ nhất là phương pháp bắn “Trung bình mẫu” sẽ

mang lại tổng độ lệch nhỏ nhất. Từng dữ liệu quan sát tương ứng với từng kết quả bắn cung.

Sử dụng số liệu cụ thể, chúng ta tính được

x =

. Con số x =168,

là một giá trị quan sát (hiện thức hóa) của biến ngẫu nhiên X , và nó KHÔNG PHẢI là kết quả tính toán

chính xác tham số μ , mà chỉ là MỘT GIÁ TRỊ ƯỚC LƯỢNG dựa trên mẫu quan sát. Giá trị này này có

đúng với tham số μ của tổng thể hay không, chúng ta sẽ không bao giờ biết được. Bởi vì, ngay từ đầu

tổng thể đã KHÔNG THỂ QUAN SÁT. Tuy nhiên, tính chất tối ưu mang lại cho chúng ta một ước lượng

mà giá trị xoay quanh mục tiêu với sai số nhỏ nhất có thể khi lập đi lập lại nhiều lần.

Tổng kết ngắn

Ghi chú này giải thích ngắn gọn cách tiếp cận ước lượng điểm (point estimation) cho tham số của phân

phối tổng thể (như μσ

2

mà nhà nghiên cứu trực tiếp không quan sát được. Phương pháp ước lượng

điểm coi dữ liệu quan sát (observed values) như là hiện thực hóa của một mẫu ngẫu nhiên (a random

sample) thuần toán học. Với cỡ mẫu n , mẫu ngẫu nhiên này bao gồm n biến ngẫu nhiên (random

variables), thường được giả định độc lập và đồng nhất phân phối (IID). Giả định IID giúp đơn giản hóa

việc chọn phương pháp ước lượng tối ưu (optimal estimator). Ví dụ, để ước lượng μ , chúng ta sử dụng

trung bình mẫu

X =

n

X

i

. Từng mẫu quan sát/ dữ liệu quan sát khác nhau sẽ cho các giá trị ước lượng

khác nhau. Giá trị ước lượng trung bình mẫu đạt hai tính chất quan trọng: không chệch (unbiased) và sai

số nhỏ nhất có thể (possibly smallest variances).

Các bạn có thể xem hình bên dưới để thấy được quá trình tư duy đi đến phương pháp tối ưu về mặt toán

học ở cột bên phải màu xanh. Cách tính toán từ mẫu quan sát dựa vào phương pháp ước lượng điểm tối đa

được thể hiện ở cột bên phải. Lưu ý, ước lượng tối ưu cho σ

2

là phương sai mẫu

S

2

n − 1

X

i

− X

2

.

(a) Không chệch và sai số

nhỏ

(b) Không chệch nhưng sai

số lớn

(c) Chệch và sai số nhỏ