Cách tạo biến giả trong SPSS

Một tình huống phổ biến mà chúng ta phải đối mặt là mong muốn sử dụng các biến độc lập không phải là định lượng, ví dụ biến màu sắc: xanh đỏ vàng được mã hóa tương ứng là 1 2 3, tuy nhiên đây chỉ là mã hóa, số 3 [ màu vàng] so với số 1[ màu xanh] không có nghĩa là số 3 lớn hơn số 1.

Chúng ta có thể làm gì khi các biến độc lập là biến phân loại và có hai hoặc nhiều mục? Ta có khái niệm về biến nhị phân, được gọi là biến giả dummy, có thể hoạt động như các biến thay thế cho biến độc lập. Mỗi biến giả đại diện cho một loại[ví dụ màu xanh] của biến độc lập phân loại[ví dụ biến màu sắc ở trên] và bất kỳ biến phân loại nào có k danh mục đều có thể được biểu diễn dưới dạng k -1 biến giả. Lý do k-1 là từ k-1 biến này có thể dự đoán được giá trị của biến giả thứ k, nên ta chỉ cần k-1 thôi

Cách thông dụng để mã hóa biến giả dummy: indicator coding và effect coding

Indicator coding là gì?

Trong số hai hình thức mã hóa biến giả, phổ biến nhất là mã hóa chỉ báo trong đó mỗi danh mục của biến phân loại được biểu thị bằng 1 hoặc 0. Hệ số hồi quy cho các biến giả thể hiện sự khác biệt về biến phụ thuộc đối với mỗi nhóm trong danh mục so với biến  tham chiếu [tức là, nhóm bị bỏ qua omitted, và nhóm bị bỏ qua này không có hệ số xuất hiện trong kế quả hồi quy,tất cả giá trị biến bị bỏ qua này là 0]. Những khác biệt nhóm này có thể được đánh giá trực tiếp, vì các hệ số ở cùng đơn vị với biến phụ thuộc.

Hình thức mã hóa biến giả này có thể được mô tả như các điểm chặn khác nhau cho các nhóm khác nhau[ khi vẽ lên đồ thị] Trong ví dụ này, một biến phân loại gồm ba thành phần là group1, group2,group3, ứng với giá trị mã hóa là 1 2 3 được đại diện bởi hai biến giả [D1 và D2] đại diện cho nhóm 1 và 2, với nhóm 3 là biến tham chiếu.

Giá trị D1 = 1 nếu biến group =1, ngoài ra D1 sẽ bằng 0

Giá trị D2 = 1 nếu biến group =2, ngoài ra D2 sẽ bằng 0

Giá trị D3 = 1 nếu biến group =3, ngoài ra D3 sẽ bằng 0

Như vậy nếu biết được giá trị của D1 và D2 thì ta có thể dễ dàng suy ra giá trị của D3 theo công thức D1+D2+D3=1.

Hệ số hồi quy là 2 cho D1 và -3 cho D2. Các hệ số này chuyển thành ba đường thẳng song song. Nhóm tham chiếu [trong trường hợp này là nhóm 3] được xác định bằng phương trình hồi quy với cả hai biến giả D1=D2=0 , nghĩa là lúc đó D3=1. Dòng của nhóm 1 cách 2 đơn vị phía trên dòng đối với nhóm tham chiếu. Dòng của nhóm 2 cách 3 ba đơn vị bên dưới dòng đối với nhóm tham chiếu group3. Các đường song song chỉ ra rằng các biến giả không thay đổi bản chất của mối quan hệ, nhưng chỉ cung cấp các điểm chặn khác nhau giữa các nhóm.

Mô hình chung: Y = a + b1X + b2D1 + b3D2

Mô hình đã ước lượng:Y = 2 + 1.2X + 2D1 – 3D2

Mô hình ứng với các giá trị của biến dummy:

Group 1 [D1 = 1, D2 = 0]:Y = 2 + 1.2X + 2

Group 2 [D1 = 0, D2 = 1]:Y = 2 + 1.2X – 3

Group 3 [D1 = 0, D2 = 0]:Y = 2 + 1.2X

Hình thức mã hóa này thích hợp nhất khi có một nhóm tham chiếu thích hợp, chẳng hạn như trong một thí nghiệm. Bất kỳ lúc nào sử dụng mã hóa biến giả, chúng ta phải biết về nhóm so sánh và nhớ rằng các hệ số đại diện cho sự khác biệt về giá trị trung bình của nhóm so với nhóm này.

Effects Coding là gì?

Một phương pháp thay thế của mã hóa biến giả được gọi là mã hóa Effects Coding. Nó giống như mã hóa ở trên ngoại trừ nhóm tham chiếu[là nhóm bị bỏ qua -nhóm có tất cả các số 0] bây giờ được cung cấp giá trị là 1 thay vì 0 cho các biến giả. Bây giờ các hệ số đại diện cho sự khác biệt cho bất kỳ nhóm nào so với giá trị trung bình của tất cả các nhóm chứ không phải từ nhóm bị bỏ qua.

So sánh effects coding và indicator coding

Cả hai hình thức mã hóa biến giả sẽ cho kết quả dự đoán, hệ số xác định và hệ số hồi quy giống nhau cho các biến liên tục. Sự khác biệt duy nhất sẽ nằm ở cách giải thích các hệ số biến giả. Trong mã hóa Effects Coding, điểm chặn là giá trị trung bình không có trọng số của các nhóm, do đó quy mô nhóm không bằng nhau tạo ra sự khác biệt giải thích nhỏ so với mã hóa kiểu indicator coding

Các biến có thể được mã hóa theo 2 cách như sau: mã hóa trong cùng một biến và mã hóa tạo một biến mới. Nội dung phần này sẽ hướng dẫn tập trung vào cách mã hóa và tạo biến mới trên SPSS. Đối với mã hóa tạo biến mới, có 3 dạng chính như mã hóa các giá trị đơn lẻ, mã hóa các khoảng giá trị, và mã hóa thành 2 nhóm phân loại.

I. Mã hóa các giá trị đơn lẻ trong SPSS

Ví dụ: Dữ liệu được cho bên dưới thể hiện điểm các lần chạy [1 là nhanh nhất và 5 là chậm nhất]

Điểm các lần chạy
Điểm 1 2 3 4 5
Số lần chạy 90 140 63 14 23

1. Nhập dữ liệu vào cửa sổ Data editor và đặt tên biến là Runs

2. Vào menu Transform chọn Recode Into Different Variables…
3. Chuyển biến Runs trong khung bên trái vào khung Numeric Variable -> Output Variable: bên phải.
4. Trong khung Output Variable [ngoài cùng bên phải], đặt tên và nhãn mới cho biến cần tạo. Trong ví dụ này, chúng ta đặt tên biến mới là Runs_ranked với nhãn là số xếp hạng các lần chạy. Bấm nút Change sẽ xuất hiện như hình bên dưới
5. Bấm nút Old and New values… và thiết lập các thông số như hình
Cụ thể, lần lượt đưa [Add] các giá trị Runs từ cao đến thấp vào ô New value tương ứng với giá trị từ 1 đến 5.  Sử dụng nút Change hoặc Remove để thay đổi hoặc xóa giá trị đã tạo.

Kết quả sau khi tạo như sau:


II. Mã hóa cho một khoảng giá trị trong SPSS

Ví dụ: dữ liệu được cho ở bảng bên dưới thể hiện điểm số của 10 sinh viên trong kì thi cuối kì. Cần mã hóa các giá trị này theo quy luật “1 cho khoảng điểm 75 – 100; 2 cho 61 – 75; 3 cho 41 – 60 và 4 cho 0 – 40″.

Điểm thi cuối kì của 10 sinh viên
Điểm số 58 86 74 70 79 60 35 42 55 91

1. Nhập dữ liệu vào cửa sổ Data editor và đặt tên biến là Scores

2. Vào menu Transform chọn Recode Into Different Variables…
3. Chuyển biến Scores trong khung bên trái vào khung Numeric Variable -> Output Variable: bên phải. Trong khung Output Variable [ngoài cùng bên phải], đặt tên và nhãn mới cho biến cần tạo. Trong ví dụ này, chúng ta đặt tên biến mới là Scores_ranges với nhãn là Khoảng điểm. Bấm nút Change sẽ xuất hiện như hình bên dưới
4. Bấm nút Old and New values… và thiết lập các thông số như hình
Cụ thể, lần lượt đưa [Add] các khoảng giá trị [Range – through] của biến Scores vào ô New value tương ứng với giá trị từ 1 đến 4.  Sử dụng nút Change hoặc Remove để thay đổi hoặc xóa giá trị đã tạo.

Kết quả sau khi tạo như sau:


III. Mã hóa thành 2 nhóm phân loại trong SPSS

Ví dụ: dữ liệu được cho bên dưới đánh giá mức độ thỏa mãn [thang điểm 10] về một dịch vụ mới của một công ty. Công ty muốn mã hóa các giá trị này thành 2 nhóm hài lòng [điểm trên 5] và không hài lòng [điểm dưới 5].

 Mức độ thỏa mãn về một dịch vụ mới
Điểm số 3 6 8 9 7 2 10 6 4 8 9 3

1. Nhập dữ liệu vào cửa sổ Data editor và đặt tên biến là Ratings

2. Vào menu Transform chọn Recode Into Different Variables…
3. Chuyển biến Ratings trong khung bên trái vào khung Numeric Variable -> Output Variable: bên phải. Trong khung Output Variable [ngoài cùng bên phải], đặt tên và nhãn mới cho biến cần tạo. Trong ví dụ này, chúng ta đặt tên biến mới là Ratings2group với nhãn là Thỏa mãn?. Bấm nút Change sẽ xuất hiện như hình bên dưới
4. Bấm nút Old and New values… và thiết lập các thông số như hình


Cụ thể, lần lượt đưa [Add] các giá trị dưới 5 [Lowest through value] của biến Ratings vào ô New value tương ứng với giá trị từ “Không thỏa mãn“. Lưu ý, đánh dấu chọn ở ô Output variables are strings để xác định giá trị của biến mới có dạng chuỗi. Tương tự cho các giá trị trên 5 [Value through Highest], chúng ta nhập 6 vào ô Value through Highest. Sử dụng nút Change hoặc Remove để thay đổi hoặc xóa giá trị đã tạo.

Kết quả sau khi tạo như sau:

Bài liên quan

Video liên quan

Chủ Đề