Mã Python rời rạc dựa trên entropy

Tiếp tục các tính năng trong dữ liệu có thể được rời rạc hóa bằng phương pháp rời rạc thống nhất. Discretization chỉ xem xét các tính năng tiếp tục và thay thế chúng trong tập dữ liệu mới bằng các tính năng phân loại tương ứng

import Orange
iris = Orange.data.Table["iris.tab"]
disc_iris = Orange.data.discretization.DiscretizeTable[iris,
    method=Orange.feature.discretization.EqualFreq[n=3]]

print "Original data set:"
for e in iris[:3]:
    print e

print "Discretized data set:"
for e in disc_iris[:3]:
    print e

Discretization giới thiệu các tính năng phân loại mới với các giá trị rời rạc

Original data set:
[5.1, 3.5, 1.4, 0.2, 'Iris-setosa']
[4.9, 3.0, 1.4, 0.2, 'Iris-setosa']
[4.7, 3.2, 1.3, 0.2, 'Iris-setosa']

Discretized data set:
['3.15', ' m, where m is the number of classifier values we have. In this case, m is 2 because we have 2 options: income 50K.

Tiếp theo, chúng ta có giá trị p. Đây là xác suất nhận được một bộ phân loại cụ thể cho thùng bạn đang xem. Vì vậy, nếu bạn có 10 hàng dữ liệu và 5 hàng trong số đó có thu nhập

Chủ Đề