



































Study with the several resources on Docsity
Earn points by helping other students or get them with a premium plan
Prepare for your exams
Study with the several resources on Docsity
Earn points to download
Earn points by helping other students or get them with a premium plan
Community
Ask the community for help and clear up your study doubts
Discover the best universities in your country according to Docsity users
Free resources
Download our free guides on studying techniques, anxiety management strategies, and thesis advice from Docsity tutors
Bài tập lớn môn xác suất thống kê của khoa giao thông
Typology: Study Guides, Projects, Research
1 / 43
This page cannot be seen from the preview
Don't miss anything!
Chủ đề: Phân tích tần suất chuyến bay của các hãng hàng không
Môn: Xác suất thống kê
Xác suất thống kê là một lĩnh vực quan trọng trong toán học, có ứng dụng rộng rãi trong
nhiều lĩnh vực khác nhau như kinh tế, y học, kỹ thuật và khoa học xã hội. Việc hiểu và áp dụng
các nguyên lý của xác suất thống kê không chỉ giúp chúng ta phân tích và dự đoán các hiện
tượng ngẫu nhiên mà còn hỗ trợ trong việc ra quyết định dựa trên dữ liệu. Chủ đề “Phân tích
tần suất chuyến bay của các hãng hàng không” của nhóm GT04 thực hiện sau đây là một dẫn
chứng cụ thể về việc áp dụng các lý thuyết thống kê vào đời sống. Việc tìm hiểu và nghiên cứu
giải quyết đề tài một phần củng cố kiến thức lý thuyết về các mãng như anova, kiểm định, ước
lượng.... Ngoài ra, giải quyết vấn đề này đã khiến nhóm có góc nhìn khác về môn học, không
khô khan như phần lý thuyết mà chúng mình đã cùng nhau tìm hiểu để áp dụng lý thuyết vào
phân tích một vấn đề thực tế cụ thể là “tần suất chuyến bay”. Thông qua việc áp dụng các
phương pháp thống kê, chúng ta có thể xác định được những yếu tố ảnh hưởng đến tần suất
chuyến bay, từ đó đưa ra các chiến lược kinh doanh hiệu quả hơn. Chẳng hạn, việc phân tích
dữ liệu tần suất chuyến bay có thể giúp các hãng hàng không tối ưu hóa lịch trình bay, cải thiện
dịch vụ khách hàng, và nâng cao hiệu quả vận hành. Hy vọng rằng, nghiên cứu này sẽ mang lại
những kết quả đáng tin cậy và hữu ích, đóng góp vào sự phát triển bền vững của ngành hàng
không.
1. 1 Tổng quan sơ bộ về dữ liệu
Tệp tin ‘ Air_Traffic_Passenger_Statistics.csv ’chứa thông tin về số liệu thống
kê hành khách lưu thông hàng không của hãng hàng không. Bộ dữ liệu bao gồm thông
tin về các hãng hàng không, sân bay và khu vực mà các chuyến bay khởi hành và đến.
Bộ dữ liệu cũng bao gồm thông tin về loại hoạt động, hạng giá, nhà ga, khu vực lên máy
bay và số lượng hành khách.
1.2 Cá c biến chính trong bộ dữ liệu:
Tên biến Mô tả
Activity Period Thời gian hoạt động của các chuyến bay
Operating Airline Hãng hàng không khai thác chuyến bay
Operating Airline IATA
Code
Mã IATA của hãng hàng không khai thác chuyến bay
Published Airline Hãng hàng không đã công bố giá vé cho chuyến bay
Published Airline IATA
Code
Mã IATA của hãng hàng không đã công bố giá vé cho
chuyến bay
GEO Summary Tính chất của chuyến bay (nội địa, quốc tế)
GEO Region Khu vực hoạt động của chuyến bay
Activity Type Code Loại hoạt động
Price Category Code Loại giá của giá vé
Terminal Các sân bay
Boarding Area Khu vực lên máy bay của chuyến bay
Passenger Count Số lượng hành khách trên chuyến bay
Adjusted Activity Type
Code
Loại hoạt động được điều chỉnh cho dữ liệu bị thiếu
Adjusted Passenger Count
Số lượng hành khách trên chuyến bay được điều chỉnh cho dữ
liệu bị thiếu
Year Năm hoạt động của chuyến bay
Month Tháng hoạt động của chuyến bay
Tổng bình phương chênh lệch Bậc tự do
Phương sai
(Trung bình BPCL)
Tiêu chuẩn
kiểm định F
(SSTr)
k - 1
N - k
Miền bác bỏ:
Kết luận
Khi bác bỏ H 0
, yếu tố đang xét xem như có ảnh hưởng đến bnn X .
Hệ số xác đ ịnh:
Hệ số xác định R
2
của mô hình Phân tích phương sai được sử dụng để đo mức độ ảnh
hưởng của yếu tố được xem xét trong mô hình đối với sự biến động của các giá trị của
biến ngẫu nhiên X quanh giá trị trung bình của nó. R
2
càng lớn thì mô hình càng gọi là
thích hợp.
2. 3 Hồi quy tuyến tính
Trong thống kê, “hồi quy tuyến tính” là phương pháp dùng để mô hình hóa và nghiên cứu
mối liên hệ giữa một biến - biến phụ thuộc vào một hoặc nhiều biến khác - biến độc lập.
Hình 1
Định nghĩa : Hàm hồi quy của Y theo X chính là kỳ vọng có điều kiện của Y đối với X
tức là E(Y/X)
Hàm hồi quy tuyến tính đơn có dạng: f y
=β 0
Mô hình hồi quy tuyến tính đơn: Giả định của mô hình hồi quy tuyến tính đơn: Ta có
các tham số β 0
, β 1
và σ
2
sao cho với mỗi giá trị x của biến độc lập, biến Y phụ thuộc vào x theo
phương trình Y = β 0
x + ε
ε: Sai số ngẫu nhiên có phân phối chuẩn N (μ, φ
2
Hệ số tương quan và phương trình hồi quy tuyến tính mẫu:
Hệ số tương quan mẫu:
1
2 2
1 1
( )( )
( ) ( )
n
i i
i
n n
i i
i i
x x y y
r
x x y y
=
= =
− −
=
− −
Mô hình hồi quy tuyến tính bội
Mô hình này được sử dụng khi chúng ta muốn dự đoán một giá trị của một biến phản hồi
dựa trên giá trị của hai hoặc nhiều biến giải thích. Biến phản hồi – biến phụ thuộc là biến mà
chúng ta muốn dự đoạn. Biến giải thích là các biến mà chúng ta sử dụng để dự đoán các giá trị
của biến phản hồi.
Dạng tổng quát của mô hình hồi quy tuyến tính:
1 1 2 2
...
k k
Y = + X + X + + X + u
Trong đó:
Y: Biến phụ thuộc (Biến phản hồi)
1
X : Biến độc lập
: Hệ số hồi quy riêng
k
: Hệ số tự do
Hàm hồi quy tổng thể (PRF- Population Regression Function)
= 0. Trung bình tổng thể sai số là bằng 0. Điều
này có nghĩa là một số giá trị sai số mang dấu dương và một số giá trị sai số mang dấu
âm. Do hàm xem như là đường trung bình nên có thể giả định rằng các sai số ngẫu
nhiên trên sẽ bị loại trừ nhau, ở mức trung bình, trong tổng thể.
cùng phương sai σ
2
, sao cho
2 2
ar( ) ( )
i i
V u = E u = .
thực hiện kiểm định giả thuyết trong những phạm vi mẫu nhỏ. Tuy nhiên đối với các
phạm vi mẫu lớn, việc này không quá quan trọng.
2.4 Ước lượng bằng khoảng tin cậy
Định nghĩa: chính là tìm ra khoảng ước lượng (G 1
2
) cho tham số 𝜃 trong tổng thể sao cho
ứng với độ tin cậy (confidence) bằng 𝛾 cho trước, P (G 1
2
Ưu điểm:
Phương pháp ước lượng bằng khoảng tin cậy có ưu thế hơn phương pháp ước lượng điểm vì nó
làm tăng độ chính xác của ước lượng và còn đánh giá được mức độ tin cậy của ước lượng.
Khả năng mắc sai lầm của phương pháp là 𝛼 = 1 - 𝛾.
Trong thống kê, người ta dùng ký hiệu 𝛼 để biểu diễn cho giá trị xác suất nhỏ. Vì vậy, kí hiệu
1 - 𝛼 còn được dùng để biểu diễn độ tin cậy của khoảng ước lượng.
Phương pháp tìm kho ảng tin cậy cho tham số 𝜽 với độ tin cậy 𝜶 = 1 - 𝜸 cho trước:
Trước tiên, tìm hàm ước lượng G = f(X 1
2
n
, 𝜃) sao cho quy luật phân phối xác suất của
G hoàn toàn xác định, không phụ thuộc vào các đối số.
Chọn cặp số 𝛼
1
2
≥ 0 sao cho 𝛼
1
2
= 𝛼 và tìm G𝛼
1
2
mà P( G < G𝛼
1
1
2
2
; suy ra P(G𝛼
1
2
Biến đổi để tìm được các giá trị G1 , G2 sao cho P(G 1
2
) = 1 - 𝛼. Khi đó khoảng (G 1
2
) chính là một trong các khoảng tin cậy (confidence interval) cần tìm.
Theo nguyên lý xác suất lớn thì với độ tin cậy (1 - 𝛼) đủ lớn, hầu như chắc chắn biến cố (G 1
2
) sẽ xảy ra trong một phép thử. Vì vậy trong thực tế chỉ cần thực hiện phép thử để có
được một mẫu cụ thể W = (x 1
, x 2
, .., x n
) rồi tính giá trị của G 1
và G 2
ứng với mẫu đã cho sẽ
cho ta một khoảng ước lượng thỏa yêu cầu.
b) Kiểm định thống kê
Một số khái niệm
Giả thiết không H 0
: (Null Hypothesis) là giả thiết về yếu tố cần kiểm định của tổng thể ở trạng
thái bình thường, không chịu tác động của các hiện tượng liên quan. Yếu tố trong H 0
phải được
xác định cụ thể.
Giả thiết đối H 1
(Alternative Hypothesis) là một mệnh đề mâu thuẫn với H 0
1
thể hiện xu
hướng cần kiểm định.
Tiêu chuẩn kiểm định là hàm thống kê G = G( X 1
2
n
0
), xây dựng trên mẫu ngẫu
nhiên W= ( X 1
2
n
) và tham số 𝜃
0
liên quan đến H0 ; Điều kiện đặt ra với thống kê G là
nếu H 0
đúng thì quy luật phân phối xác suất của G phải hoàn toàn xác định.
Miền bác bỏ giả thiết RR = 𝜶. 𝜶
Miền bác bỏ giả thiết RR ( Rejection region) là miền số thực thỏa P(G RR /H0 đúng).
𝛂. 𝛂 là một số khá bé, thường không quá 10% và được gọi là mức ý nghĩa của kiểm định. Một
ký hiệu khác của miền bác bỏ được dùng trong bài: W
α
Miền chấp nhận AR : phần bù của miền bác bỏ trong R.
Quy tắc kiểm định : Từ mẫu thực nghiệm, ta tính được một giá trị cụ thể của tiêu chuẩn kiểm
định, gọi là giá trị kiểm định thống kê:
gqs = G( X 1
2
n
0
Theo nguyên lý xác suất bé, biến cố G ∈ RR có xác suất nhỏ nên với 1 mẫu thực nghiệm
ngẫu nhiên, nó không thể xảy ra.
Kết quả:
3.2 Làm sạch dữ liệu
Lọc dữ liệu theo khu vực Europe.
Code R:
Hàm subset(...): Được sử dụng để tạo một bộ dữ liệu con từ bộ dữ liệu gốc dựa trên điều
kiện đã chỉ định.
Tạo biến Europe_data chỉ chứa các dòng từ dữ liệu Passenger_data mà có giá trị trong
cột “GEO Region" là “Europe”
Kết quả:
Tạo tệp dữ liệu mới chứa các biến quan trọng.
Code R:
Sử dụng gói lệnh tidyverse từ library() để sử dụng hàm select.
Tạo ra biến dữ liệu mới tên là New_Europe_data chứa các biến chính mà đề bài quan tâm
trích từ dữ liệu Europe_data.
Lệnh head(Europe_data) trích phần đầu của biến dữ liệu mới.
New_Europe_data chỉ có các quan sát là International đối với Europe.
4.1 Kiểm tra dữ liệu khuyết
Code R:
is.na(New_Europe_data) : tạo 1 ma trận nhận các giá trị khuyết trong biến
New_Europe_data. Trong đó mỗi phần tử là TRUE nếu tương ứng với phần tử của
New_Europe_data là NA và FALSE nếu không.
2 : cho biết hàm sẽ được áp dụng theo cột.
sum: Hàm mà bạn muốn áp dụng lên mỗi cột của is.na(New_Europe_data). Trong trường
hợp này, sum sẽ tính tổng số lượng giá trị TRUE trong mỗi cột, vì TRUE được coi là 1
và FALSE là 0 khi thực hiện phép cộng.
Kết quả:
Lập bảng thống kê tần số cho các biến trong New_Europe_data.
Code R:
Hàm table() để lập bảng thống kê tần số của các biến “Operating.Airline.IATA.Code”,
“Activity.Type.Code”, “Price.Category.Code”,” Boarding.Area”.
Kết quả:
b) Vẽ đồ thị phân phối số lượng hành khách bằng biểu đồ Histogram
Code R:
Hàm hist() dùng để vẽ biểu đồ histogram, breaks chỉ số lượng cột được chia ra trong
biểu đồ, labels = T (True) để hiển thị số lượng của từng cột tương ứng.
Kết quả:
Hình 2 Đồ thị histogram của số lượng hành khách của Europe.
Nhận xét:
● Phân bố không đồng đều: Số lượng hành khách không phân bố đều trên các khoảng giá
trị. Có một số khoảng có tần số rất cao (ví dụ: khoảng 0-20.000 hành khách), trong khi
đó có những khoảng có tần số rất thấp (ví dụ: khoảng 30.000-50.000 hành khách).
● Độ lệch phải: Đường cong mật độ xác suất có hình dạng lệch phải, khẳng định lại nhận
xét trước đó về sự lệch phải của dữ liệu. Điều này có nghĩa là phần lớn các chuyến bay
có số lượng hành khách thấp hoặc trung bình, nhưng có một số ít các chuyến bay có số
lượng hành khách rất cao.
xảy ra cao nhất, tức là số lượng hành khách phổ biến nhất trên các chuyến bay
c) Vẽ đồ thị phân tán của số lượng hành khách so với các biến phân loại.
Code R:
Hàm par(mfrow=c(1,2)) để tạo một ma trận có 1 hàng 2 cột để biểu diễn 2 biểu đồ phân
tán.
Kết quả:
Hình 4 Biểu đồ phân tán của số lượng hành khách theo từng tháng năm
Nhận xét: từ biểu đồ trên ta thấy hai biến không có tính tuyến tính, số lượng hành khách đều
theo từng tháng, từng năm.
Sự biến động theo tháng:
● Biến động lớn: Số lượng hành khách có sự biến động khá lớn theo từng tháng. Điều
này cho thấy có những tháng cao điểm và những tháng thấp điểm trong năm.
● Xu hướng không rõ ràng: Từ biểu đồ, không thể xác định rõ một xu hướng tăng hoặc
giảm rõ ràng theo từng tháng.
Sự biến động theo năm:
● Xu hướng tăng: Nhìn chung, số lượng hành khách có xu hướng tăng dần qua các năm.
Điều này cho thấy nhu cầu đi lại bằng đường hàng không đang tăng lên.
● Biến động theo năm: Tuy nhiên, sự tăng trưởng này không đều đặn, có những năm
tăng trưởng mạnh và những năm tăng trưởng chậm hơn.
d)Vẽ đồ thị plotbox thể hiện số lượng hành khách theo các phân loại
Code R:
Sử dụng hàm plotbox để vẽ biểu đồ hộp biểu diễn số lượng hành khách theo mã IATA của các
chuyến bay.
Kết quả: