Download Huong dan SPSS MBA. BASIC and more Lecture notes Educational Mathematics in PDF only on Docsity!
HƯỚNG DẪN SỬ DỤNG SPSS
TRONG NGHIÊN CỨU MARKETING
ỨNG DỤNG TIN HỌC VÀO PHÂN TÍCH DỮ LIỆU TRONG NGHIÊN CỨU
MARKETING
Ngày nay, việc ứng dụng tin học để phân tích dữ liệu trong nghiên cứu marketing là hết sức phổ
biến. Có một số phần mềm được sử dụng để phân tích dữ liệu trong nghiên nghiến marketing,
mỗi loại đều có những ưu nhược điểm nhất định. Do vậy, cần xác định phần mềm nào được sử
dụng trong quá trình phân tích để đạt được hiệu quả cao nhất.
Trong khuôn khổ học phần này, chúng tôi sẽ giới thiệu phần mềm SPSS FOR WINDOWS
(Statistical Package for Social Sciences) để phân tích dữ liệu. Ưu điểm của phân mềm này là tính
đa năng và mềm dẻo trong việc lập các bảng phân tích, sử dụng các mô hình phân tích đồng thời
loại bỏ một số công đoạn (bước) không cần thiết mà một số phân mềm khác gặp phải.
Để đạt được kết quả như mong muốn, cần phải:
- Nắm vững mục tiêu nghiên cứu dự án
- Nắm vững và tuân thủ những cam kết của dự án về thời gian, chi phí, nguồn nhân lực...
Trên cơ sở xác định bảng câu hỏi và mô hình phân tích (kế hoạch phân tích dữ liệu), quá trình
nhập liệu và phân tích có thể thông qua một số công đoạn như sau:
NHẬP LIỆU:
Giao diện nhập liệu
Kích hoạt SPSS, chúng ta thấy giao diện của SPSS như sau:
hoặc:
Sắp xếp bảng ghi
- Nhấn Sort Case
- Sắp xếp theo biến tại Sort by với chiều tăng (Ascending) hoặc giảm (Descending)
Biến một biến thành một bảng ghi
- Nhấn Data/Transpose
- Variable(s) là những biến cần thay đổi
Kiểm tra giá trị nhập
- Nhãn toàn bộ giá trị: Nhấn View/ Value Labels
- Kiểm tra một biến nào đó: Utilities/Variables
- Kiểm tra bộ mã hoá Utilities/File Info , với bộ mã hoá này, ta có thể kiểm tra lại một lần nữa
công việc định nghĩa các biến hoặc cũng có thể làm danh bạ cho việc nhập số liệu sau này.
Tạo biến mới không hoặc có ràng buộc một điều kiện
Trong quá trình nhập liệu, để có thể rút ngắn thời gian nhập liệu hoặc để phục vụ mục đích phân
tích, chúng ta còn có thể tạo ra biến mới từ các dữ kiện và cấu trúc của biến đã nhập.
- Tạo biến mới không điều kiện: Giả sử theo số liệu thống kê như trên, để biết được số năm
công tác còn lại trước khi nghỉ hưu là bao nhiêu năm nữa (giả sử mỗi lao động được nghỉ hưu
sau 25 năm công tác). Như vậy ta thành lập một biến mới nghihuu sẽ bằng 25-nam
+ Nhấn Transform/Compute
+ Trong ô Target Variable nhập biến mới ( nghihuu ), trong đó chúng ta cần phải định nghĩa
Type&Label để tiện cho việc quản lí và so sánh các giá trị sau này.
+ Trong ô Numeric Expression nhập giá trị cần gán cho biến mới từ biến đích cho trước.
Chú ý: Khi gặp các biến thuộc kiểu chuỗi, ngày tháng... chúng ta cần phải tìm một hàm tương
ứng để quy các giá trị này về giá trị tương đồng mà chúng ta có thể so sánh được (sử dụng
hàm Function)
- Tạo biến mới có điều kiện: Cũng như ví dụ trên nhưng chúng ta cần phân chia ra thành
nam và nữ thì sau khi thiết đặt các giá trị như trên xong.
- Nhấn If tiếp theo nhấn Include if case satisfies condition trong hộp hội thoại để thiết đặt
điều kiện (áp dụng cho những người có giới tính là nam thì điều kiện thiết đặt là
gioitinh=1 như trong hộp hội thoại:
Mã hoá lại biến:
Trong một số trường hợp, do nhu cầu của quá trình phân tích, chúng ta cần phải mã hóa lại các
biến. Có hai hình thức mã hoá như sau:
- Mã hoá dùng lại tên biến cũ:
+ Nhấn Transform/Recode/Into Same Variables
+ Đưa biến cần mã hoá lại vào ô Numeric Variable
+ Nhấn If để thiết đặt các điều kiện (nếu có)
+ Nhấn Old and New Values để thay đổi bộ mã hoá
* Trong ô Old Value là giá trị cũ, và New Value là giá trị mới cần nhập
* Nếu nhập giá trị mới ở thang điểm biểu danh, khoảng cách, tỷ lệ thì nhập tại ô Value.
* Nếu mã hoá giá trị với thang điểm khoảng cách - Nhấn Range
+ Các thông số khác được thực hiện như ở mã hoá dùng lại biến cũ.
PHÂN TÍCH MÔ TẢ (THỐNG KÊ MÔ TẢ):
Bảng phân bố tần suất
Bảng phân phối tầng suất được thể hiện với tất cả các biến định tính (rời rạc) với các thang đo
biểu danh, thứ tự và các biến định lượng (liên tục) với thang đo khoảng cách hoặc tỉ lệ.
Nhấn vào để lựa chọn các thông số đo lương (mode, median, trung bình…) Nhấn vào để vẽ đồ thị các tầng suất của biến sô Central tendancy : Đo lường khuynh hướng hội tụ: tham số trung bình (mean), median, mode, tổng (sum) Dispersion : Đo lường độ phân tán: độ lệch chuẩn (std. deviation), phương sai Distribution : Kiểm định phân phối chuẩn (skenessvà kurtosis)
Tần suất xuất hiện (^) Loai hinh doanh nghiep Tỷ lệ phần trăm Valid Dich vu thuong mai Xay dung Cong nghiep Total Frequency Percent Valid Percent Cumulative Percent 88 44.0 44.0 44. 56 28.0 28.0 72. 56 28.0 28.0 100. 200 100.0 100. So lao dong Valid (^) Tu 1 den 5 Tu 6 den 20 Tu 21 den 200 Tu 200 den 300 Tren 300 Total Frequency Percent Valid Percent Cumulative Percent 25 12.5 12.5 12. 61 30.5 30.5 43. 63 31.5 31.5 74. 45 22.5 22.5 97. 6 3.0 3.0 100. 200 100.0 100.
Loai hinh doanh nghiep
Cong nghiep 28 .0% Dich vu thuong mai 44 .0% Xay dung 28 .0%
One-Sample Statistics Giá trị trung bình Độ lệch chuẩn Thu nhap nam (trieu) N Mean Std. Deviation Std. Error Mean 200 33224.00 12932.72 914. One-Sample Test Giới hạn trên của ước lượng Giới hạn dưới của ước lượng Test Value = 0 Mean 95% Confidence Interval of the Difference t df Sig. (2-tailed) (^) Difference Lower Upper Thu nhap nam (trieu) (^) 36.331 199 .000 33224.00 31420.68 35027.
Ước lượng sự khác biệt giữa hai tham số trung bình (độc lập hoặc phụ thuộc)
KIỂM ĐỊNH THAM SỐ
Kiểm định t đối với tham số trung bình mẫu
Như chúng ta đã biết, thu nhập trung bình của các đối tượng phỏng vấn là 33,224 triệu/năm, có
giả thiết cho rằng thu nhập của đối tượng mà chúng ta phỏng vấn trên tổng thể là 32 triệu/năm,
chúng ta cần kết luận nhận định đó có đúng không.
Khi đó, giả thiết của bài toán là:
H 0 : = 0 = 32 (triệu) và H 1 : 0 = 32 (triệu)
Nhấn Analyze – Compare Means – One sample T test.
Chọn biến cần phân tích vào ô Test Variable(s) , đặt giá trị 0 vào ô Test Value.
Nhấn Option để thiết đặt độ tin cậy (giả sử đ tin cậy là 95%)
Bấm Continue và bấm OK ở hộp hội thoại ban đầu, kết quả thu được như sau:
Descriptive Statistics Thu nhap nam (trieu) Valid N (listwise) N Minimum Maximum Mean Std. Deviation 200 10750 82500 33224. 00 12932. 72 200 One-Sample Statistics Thu nhap nam (trieu) N Mean Std. Deviation Std. Error Mean 200 33224.00 12932.72 914. One-Sample Test Test Value = 32000 95% Confidence Interval of the t df Sig. (2-tailed) Mean Difference Lower Difference Upper Thu nhap nam (trieu) (^) 1.34 199 .182 1224.00 -579.32 3027. Giá trị t-student = 1, Giá trị p-value =0,182>0,
Tại các biểu trên, ta có thể biết giá trị trung bình, độ lệch chuẩn của mẫu. Ngoài ra t=1,34 nên
p-value=0,182>0,05 nên chúng ta chưa có cơ sở để bác bỏ H 0 hay chưa có cơ sở để chấp nhận H 1.
Kiểm định tham số trung bình hai mẫu (hai mẫu độc lập)
Giả sử ta muốn so sánh thu nhập trung bình giữa những người có giới tính nam và nữ trên tổng
thể có khác nhau hay không, ta có giả thiết:
H 0 : Thu nhập trung bình của người nam và người nữ bằng nhau trên tổng thể
H 1 : Thu nhập trung bình của người nam và người nữ không bằng nhau trên tổng thể
Nhấn Analyze – Compare Means – Independent sample t-test.
Chọn biến thunhap vào ô Test Variables và biến gioitinh vào ô Grouping Variable
hay không, trong trường hợp này nếu sig. của F (trong thống kê Leneve’s) < 0,05 ta bác bỏ H 0 ,
chấp nhận H 1 nghĩa là phương sai của hai mẫu không bằng nhau, do vậy giá trị t mà ta phải tham
chiếu là giá trị t ở dòng thứ 2. Ngược lại nếu sig. >0,05 thì phương sai của hai mẫu bằng nhau, ta
sẽ dùng kết quả kiểm định t ở dòng thứ nhất.
Đối với kiểm định t, ta nhận thấy rằng t=6,55 và p-value = 0,000<0,05 năm ta có thể bác bỏ H 0
và chấp nhận H 1 , có nghĩa là thu nhập trung bình giữa người nam và nữ sẽ khác nhau.
Kiểm định tham số trung bình hai mẫu (hai mẫu phụ thuộc)
Nhấn Analyze – Compare Means – Paired sample t-test. Chọn biến cần phân tích vào ô
Paired Variables.
Nhấn Option để thiết đặt độ tin cậy (giả sử độ tin cậy là 95%)
Kết quả:
Paired Samples Statistics Pair TRUOCQC Mean N Std. Deviation Std. Error Mean 42.9333 15 30.6419 7. (^1) SAUQC (^) 44.1333 15 28.1422 7. Paired Samples Test Std. Paired Differences Std. Error 95% Confidence Interval of the Difference (^) Sig. Mean Deviation Mean Lower Upper t df (2-tailed) Pair (^1) TRUOCQC - SAUQC (^) -1.200 5.7842 1.4935 -4.4032 2.0032 -.803 14. Giá trị ước lượng (giới hạn dưới) Giá trị ước lượng (giới hạn trên) Giá trị t-student = -0, 803 Giá trị p-value =0,435>0,
Vì^ giá^ trị^ t=-0,803^ và^ p-value^ =^ 0,435>0,05^ nên^ chúng^ ta^ chưa^ có^ cơ^ sở^ để^ bác^ bỏ^ H 0 tức^ là
chưa có cơ sở để chấp nhận H 1.
Phân tích phương sai (Analysis of variance – ANOVA)
Giả sử chúng ta muốn so sánh thu nhập trung bình của các đối tượng làm trong những lĩnh vực
dịch vụ - thương mại, xây dựng và công nghiệp có khác nhau hay không. Giả thiết và đối thiết sẽ
là:
H 0 : Thu nhập trung bình của những người làm trong lĩnh vực dịch vụ - thương mại, xây dựng
và công nghiệp bằng nhau
H 1 : Thu nhập trung bình của người làm trong lĩnh vực dịch vụ - thương mại, xây dựng và công
nghiệp không bằng nhau (có nghĩa là tồn tại ít nhất một thu nhập trung bình của một ngành
khác với ít nhất một thu nhập trung bình của hai ngành còn lại)
Nhấn Analyze – Compare Means – One-way ANOVA.
Chọn biến cần phân tích (định lượng) vào ô Dependent List và biến phân loại vào ô Factor
Nhấn Post Hoc để chọn loại kiểm định nhằm xác định cụ thể sự khác biệt giữa các
nhóm
(nhóm nào khác với nhóm nào). Chúng ta có thể chọn Bonferroni hoặc Tukey’s-b (hai thống kê
này đều cho ra cùng một kết quả).
Nếu phương sai giữa các nhóm cần so sánh không bằng nhau, chúng ta chọn Tamhane’s T
(ứng dụng cho kiểm định t từng cặp nếu phương sai của chúng không bằng nhau).
35000 34000 33000 32000 Dich vu thuong mai Xay dung Cong nghiep Loai hinh doanh nghiep
Hồi quy tuyến tính
Giả sử chúng ta mong muốn tìm mối tương quan giữa hai biến năm làm việc (biến độc lập) và thu
nhập hàng năm (biến phụ thuộc) trên tổng thể, chúng ta sẽ thực hiện như thế nào.
Vẽ sơ đồ, kiểm tra bằng thị giác mối quan hệ
Vào Graphs , nhấn Scatter
Chọn Simple và bấm Define
Chọn các biến vào ô Y Axis (biến phụ thuộc) và X Axis (biến độc lập), bấm OK
100000 80000 60000 40000 20000 0 6 8 10 12 14 16 18 20 Nam lam viec
Chúng ta có thể xem đường hồi quy lí thuyết của dãy dữ liệu bằng cách click hai lần
vào chuôt.
Sau khi một màn hình mới hiện ra, vào Chart – Option, hội hội thoại tiếp theo sẽ hiện ra –
Bấm OK – Hội hội thoại sẽ là:
Rõ ràng trên hình vẽ bên, ta có thể hình dung có mối quan hệ tuyến tính (theo đường thẳng) giữa
số năm làm việc và thu nhập/năm. Để kiểm tra một cách chính xác, ta thực hiện thao tác hồi quy.
Vào Analyze và Regression chọn các biến vào các ô tương ứng
ANOVAb Model Sum of Squares df Mean Square F Sig. 1 Regression Residual Total 449.294 1 449.294 71.115 .000a 1250.926 198 6. 1700.220 199 a. (^) Predictors: (Constant), Thu nhap nam (trieu) b. (^) Dependent Variable: Nam lam viec
Vì F=71,115 và p-value=0,000 nên chúng ta có thể khẳng định tồn tạo mô hình hay tồn tại mối
quan hệ giữa hai biến năm làm việc và thu nhập trên tổng thể.
Model Summary Model R R Square Adjusted R Square Std. Error of the Estimate (^1) .514a^ .264 .261 2. a. (^) Predictors: (Constant), Thu nhap nam (trieu) Hệ số tương quan R Hệ số xác định R 2
Ta có:
- Hệ số tương quan R đo lường mức độ tương quan giữa hai biến
- Hệ số xác định R 2
đánh giá mức độ phù hợp của mô hình thể hiện mối quan hệ tương quan
tuyến tính
R
2
= 0,264 có nghĩa là biến số năm làm việc sẽ giải thích 26,4% thu nhập/ năm của nhân viên
(còn lại là những biến số khác).
Ta có R
2
a =0,261, ta có thể kết^ luận^ mối quah hệ giữa hai biến này^ rất^ yếu vì R
2
a =0,261<0,3.
- Nếu R <0,
- Nếu 0,3 ≤ R <0,
- Nếu 0,5 ≤ R <0,
- Nếu 0,7 ≤ R <0,
- Nếu 0,9 ≤ R
Tương quan ở mức thấp
Tương quan ở mức trung bình
Tương quan khá chặt chẽ
Tương quan chặt chẽ
Tương quan rất chặt chẽ
Coefficientsa Model Unstandardized Coefficients B Std. Error Standardized Coefficients Beta t Sig. 1 (Constant) Thu nhap nam (trieu) a. (^) Dependent Variable: Nam lam viec 9.970 .491 20.304. 1.162E-04 .000 .514 8.433.
Bảng coefficient cho phép chúng ta kiểm định các hệ số góc trong mô hình, ta có t 1 = 8,433 và p-
value = 0,000<0,05 nên ta khẳng định tồn tại mối quan hệ giữa hai biến với hệ số góc b 1 =0,
có nghĩa là khi tăng mỗi năm làm việc, thu nhập hàng năm tang 110 ngàn đồng. Ta có thể thành
lập được phương trình hồi quy như sau:
yi = 9.870 + 0,00011xi + e
KIỆM ĐỊNH CHI BÌNH PHƯƠNG VỀ TÍNH ĐỘC LẬP HAY PHỤ THUỘC GIỮA HAI
BIẾN (CROSSTABS)
Kiểm định phân phối (kiểm định sự phù hợp)
Tình huống: Trong một nghiên cứu ước tính của bộ Y tế, người ta mong muốn kiểm tra giả thuyết
rằng tần suất sử dụng dịch vụ bệnh viện của các ngày trong tuần là như nhau và giảm 25% vào
cuối tuần. Một mẫu gồm 52 000 bệnh nhân có phân phối sau:
Ngày Số bệnh nhân (quan sát) Số bệnh nhân (lí thuyết)
Thứ hai 8623 8000
Thư ba 8308 8000
Thứ tư 8420 8000
Thứ năm 9032 8000
Thứ sáu 8754 8000
Thứ bảy 4361 6000
Chủ nhật 4502 6000
Khi đó, giả thiết và đối thiết:
H 0 : Nhu cầu khám chữa bệnh là như nhau ở tất cả các ngày trong tuần và giảm 25% vào cuối
tuần
H 1 : Nhu cầu này có một dạng phân phối khác