Khi thực hiện xử lý số liệu trong SPSS, đôi khi chúng ta sẽ gặp các trường hợp như kết quả xử lý bị sai lệch hoặc không thực hiện được lệnh do bị thiếu giá trị. Vậy nguyên nhân do đâu và cách xử lý như thế nào? Hãy cùng chúng tôi tìm hiểu cách tìm lỗi và xử lý giá trị missing trong SPSS qua bài viết dưới đây.
Table of Contents
1. Hiển thị các lỗi Missing Value trong SPSS
1.1. Lỗi giá trị dữ liệu hiển thị dưới dạng dấu chấm
Trong SPSS, các Missing Value (giá trị bị thiếu) bao gồm 2 loại như sau:
- Các giá trị bị thiếu của hệ thống: Là những giá trị hoàn toàn không có trong dữ liệu.
- Các giá trị bị thiếu của người dùng: Là những giá trị không thể nhìn thấy được khi phân tích hoặc chỉnh sửa dữ liệu.
04 lý do chính dẫn đến việc thiếu dữ liệu của hệ thống:
- Một số người tham gia trả lời không được hỏi một số câu hỏi do định tuyến của bảng câu hỏi.
- Một người trả lời bỏ qua một số câu hỏi.
- Có sự cố khi chuyển đổi hoặc chỉnh sửa dữ liệu.
- Các giá trị không được ghi lại do lỗi của thiết bị.
Các giá trị bị thiếu của hệ thống sẽ hiển thị dưới dạng dấu chấm trong chế độ xem dữ liệu như ảnh dưới đây.
Trong một số trường hợp nhất định, hệ thống sẽ bị thiếu dữ liệu có ý nghĩa ví dụ như trong bảng hỏi có tính định tuyến dưới đây:
Câu 5: Bạn có sở hữu xe ô tô không (nếu không bỏ qua các câu bên dưới và tiến tới câu hỏi số 10).
Câu 6: Xe ô tô của bạn màu gì?
Kết quả thu được có nhiều người trả lời câu số 5 với đáp án là “Không” đã khiến cho phần mềm xử lý bỏ qua các câu hỏi số 6 đến số 9, điều này dẫn đến hệ thống có missing value về màu sắc cho những người không sở hữu xe ô tô.
Để xử lý dữ liệu bị thiếu hiển thị dưới dạng dấu chấm, chúng ta thực hiện 5 bước như sau:
- Bước 1: Tính trung bình cộng của biến có giá trị bị thiếu trong hệ thống (làm tròn thành số nguyên).
- Bước 2: Chọn toàn bộ biến có giá trị bị thiếu.
- Bước 3: Nhấn tổ hợp phím Ctrl + H để mở hộp thoại Find and Replace.
- Bước 4: Nhập dấu chấm “.” vào ô Find và kết quả giá trị trung bình vào ô Replace.
- Bước 5: Nhấn Replace All để hoàn thành.
1.2. Lỗi do người được phỏng vấn không trả lời
Giá trị bị thiếu do người được phỏng vấn không trả lời câu hỏi bao gồm 02 kiểu dữ liệu bị thiếu như sau:
– Thiếu biến phân loại người dùng
Để kiểm tra biến phân loại nhanh chóng, chúng ta sẽ chạy bảng phân phối tần suất và biểu đồ thanh tương ứng.
Trong bảng tần số trên, chúng ta thấy mức độ đồng ý được phân chia từ 1 đến 10. Tuy nhiên dữ liệu 11: “Không trả lời” không chỉ ra sự đồng ý nhiều hơn mức 10: “Hoàn toàn đồng ý” . Do đó giá trị dữ liệu từ 1 – 10 tạo tên biến thứ tự và 11 nên bị loại.
Để xử lý giá trị bị thiếu ở trên, chúng ta thực hiện 03 bước như sau:
- Bước 1: Xem q1 là một biến thứ tự.
- Bước 2: Đặt 11 là giá trị bị thiếu của người dùng cho q1.
missing values q1 to q9 (11)
- Bước 3: Chạy lại bảng tần số (q1 đến q9).
frequencies q1 to q9
Sau khi chạy lệnh xử lý, chúng ta thu được kết quả:
Giá trị 11 được hiển thị trong các giá trị bị thiếu, nó xảy ra 6 lần trong q1 và cũng có 14 giá trị bị thiếu trong hệ thống.
Trong chế độ xem biến, chúng ta thấy rằng 11 được đặt làm giá trị bị thiếu của người trả lời từ q1 đến q9.
– Thiếu biến số liệu người dùng
Chúng ta sẽ kiểm tra các biến thiếu số liệu người dùng bằng cách chạy biểu đồ.
Qua biểu đồ thanh, chúng ta có thể thấy câu trả lời 150 giờ làm việc trên 1 tuần là không đáng tin cậy (có thể đây là số giờ trên tháng của họ). Do đó, chúng ta sẽ đặt các giá trị từ 50 giờ trở lên là người dùng thiếu biến dữ liệu.
Để xử lý thiếu biến số liệu người dùng, chúng ta thực hiện như sau:
- Bước 1: Đặt 50 giờ mỗi tuần hoặc hơn là già trị người dùng thiếu biến dữ liệu.
missing values whours (50 thru hi).
- Bước 2: Chạy lại biểu đồ
frequencies whours – format notable – histogram.
Xử lý số liệu SPSS không phải là công việc ai cũng thực hiện được nhanh chóng và hoàn thiện nếu như không có kinh nghiệm và thời gian. Nếu bạn đang gặp rắc rối với số liệu hoặc chạy kết quả không như mong đợi, hãy liên hệ ngay dịch vụ chạy thuê SPSS của đơn vị Tri Thức Cộng Đồng. Đơn vị cam kết sẽ mang lại cho bạn kết quả SPSS hoàn thiện nhất.
2.Cách tìm giá trị missing trong SPSS
Để tìm ra giá trị bị thiếu trong SPSS, chúng ta có thể thực hiện kiểm tra theo 02 cách đó là kiểm tra giá trị bị thiếu trên mỗi biến và cho mỗi trường hợp.
2.1. Kiểm tra giá trị bị thiếu trên mỗi biến
Một cách nhanh chóng để tìm ra giá trị bị thiếu trên mỗi biến (hệ thống hay người dùng) bằng cách chạy thống kê mô tả cho chúng.
Ví dụ: Kiểm tra dữ liệu bị thiếu của 464 trường hợp trong dữ liệu.
Để thực hiện kiểm tra giá trị bị thiếu trên mỗi biến bằng câu lệnh như sau:
- Kiểm tra giá trị bị thiếu cho mỗi biến: descriptives q1 to q9.
- Lưu ý: (464 – N) = số giá trị bị thiếu
Kết quả chúng ta thu được:
Nhận xét:
- Cột N hiển thị số lượng giá trị không bị thiếu.
- Có tổng cộng 464 giá trị, (646 – N) là số giá trị bị thiếu trên mỗi biến.
- Lưu ý Valid N (listwise) = 309 là trường hợp không có giá trị nào bị thiếu, trong một số lệnh sẽ chỉ sử dụng 309 trường hợp đó. Do đó, không xác định đây là giá trị bị thiếu trong SPSS.
Kết luận: Không có các biến, cột ô trong chế độ xem dữ liệu có tỷ lệ phần trăm bị thiếu rất lớn.
2.2. Kiểm tra giá trị bị thiếu cho mỗi trường hợp
Để kiểm tra một trường hợp bất kì có nhiều giá trị bị thiếu chúng ta sẽ tạo một biến mới. Biến mới bao gồm tất cả số lượng giá trị bị thiếu trong dữ liệu mà chúng ta phân tích.
Ví dụ: Kiểm tra giá trị bị thiếu cho trường hợp từ q1 đến q9 với biến mới mis_1 của 464 trường hợp trong dữ liệu.
03 bước thực hiện cách kiểm tra giá trị bị thiếu cho mỗi trường hợp:
Bước 1: Tạo biến mới để giữ số lượng biến bị thiếu trên q1 đến q9.
count mis_1 = q1 to q9 (missing).
- Bước 2: Đặt mô tả của nhãn mis_1 làm nhãn biến.
variable labels mis_1 ‘Missing values over q1 to q9’.
- Bước 3: Kiểm tra các giá trị bị thiếu bằng phân phối tần suất.
frequencies mis_1.
Sau khi thực hiện các lệnh kiểm tra, chúng ta có được kết quả như sau:
Trong bảng kết quả, số 0 thể hiện rằng không có giá trị nào bị thiếu từ q1 đến q9. Điều này áp dụng cho 309 trường hợp hợp lệ trong bảng mô tả trước đó.
3. Cách xử lý giá trị missing trong SPSS
Ví dụ: Xử lý các giá trị bị thiếu trong 464 trường hợp trong dữ liệu từ q1 đến q9.
Có 3 cách để xử lý những giá trị bị thiếu trong SPSS bao gồm loại trừ theo cặp các giá trị bị thiếu, loại trừ theo danh sách và chỉnh sửa dữ liệu bị thiếu, cụ thể như sau:
3.1. Loại trừ theo cặp các giá trị bị thiếu
Để loại trừ theo cặp các giá trị bị thiếu, chúng ta sẽ kiểm tra mối tương quan (Pearson) giữa q1 và q9 bằng cách chạy lệnh như sau:
correlations q1 to q9.
Kết quả chúng ta thu được kết quả như bảng bên dưới.
Lưu ý:
- Kết quả mối tương quan dựa trên khoảng 410 đến 440 trường hợp.
- Mối tương quan dựa trên một số trường hợp khác nhau.
- Mỗi mối tương quan giữa các cặp biến sẽ sử dụng toàn bộ các trường hợp có giá trị hợp lệ trên 2 biến này. Điều này được gọi là loại trừ theo cặp.
3.2. Loại trừ theo danh sách các giá trị bị thiếu
Để thực hiện cách loại trừ theo danh sách các giá trị bị thiếu thì chúng ta sẽ thực hiện chạy lệnh tự tương quan bằng câu lệnh như sau:
correlations q1 to q9/missing listwise.
Sau khi chạy lệnh, chúng ta nhận được một ma trận tương quan nhỏ như hình dưới đây.
- Mối tương quan dựa trên 309 trường hợp giống nhau, đây là các trường hợp không thiếu giá trị trên tất cả các biến trong bảng từ q1 đến q9. Điều này được gọi là loại trừ theo danh sách.
- Loại trừ theo danh sách thường sử dụng ít trường hợp hơn loại trừ theo cặp.
3.3. Chỉnh sửa dữ liệu bị thiếu giá trị
Để thực hiện chỉnh sửa dữ liệu bị thiếu giá trị, chúng ta thực hiện 3 cách với 3 lệnh như sau:
- Tính giá trị trung bình cho a
compute mean_a = mean(q1 to q9).
- Tính giá trị trung bình cho b
compute mean_b = (q1 + q2 + q3 + q4 + q5 + q6 + q7 + q8 + q9) / 9.
- Tính giá trị trung bình cho c
compute mean_c = sum(q1 to q9) / 9.
- Kiểm tra kết quả bằng thống kê mô tả
descriptives mean_a to mean_c.
Kết quả là chúng ta có được 1 bảng thống kê mô tả giá trị trung bình của a, b, và c như hình dưới đây.
02 lưu ý chỉnh sửa dữ liệu bị thiếu giá trị.
- Việc chỉnh sửa dữ liệu bị thiếu đôi khi rất phức tạp. Các lệnh và chức năng khác nhau sẽ hoạt động khác nhau trong trường hợp như thế này.
- Sau khi chạy 3 lệnh chúng ta có được kết quả như ảnh trên, nhưng đối với các giá trị bị thiếu thì 2 cách trong số đó đã mang lại kết quả không chính xác.
Mã hóa dữ liệu trong SPSS là bước đầu tiên để bạn thu hoạch kết quả sau thời gian nghiên cứu. Nếu bạn đang phân vân chưa biết cách nào để mã hóa cho đúng và hiệu quả thì hãy tìm hiểu ngay các lưu ý qua bài viết cách mã hóa dữ liệu trong SPSS .
Bài viết nhằm cung cấp thông tin giúp bạn đọc hiểu hơn về giá trị bị thiếu cũng như cách tìm lỗi và xử lý giá trị missing trong SPSS. Qua đây, chúng tôi mong rằng bạn đọc đã có thêm nhiều thông tin bổ ích và xử lý các giá trị missing trong SPSS một cách hoàn thiện nhất. Chúc các bạn thành công!