THUẬT TOÁN LỰA CHỌN PHƯƠNG PHÁP TỈ LỆ DỮ LIỆU

Số 43 [ Tháng 07- Năm 2013]

Máy tựa vector (Support Vector Machine – SVM) là một kỹ thuật hữu ích cho việc phân loại dữ liệu. Việc tỉ lệ giá trị của các thuộc tính trong tập dữ liệu huấn luyện cũng như tập dữ liệu kiểm thử về cùng một phạm vi (gọi tắt là tỉ lệ dữ liệu) trước khi áp dụng SVM là một bước rất quan trọng. Khi thiếu thông tin người ta thường tỉ lệ giá trị của các thuộc tính về cùng một phạm vi với cùng một phương pháp. Có 3 phương pháp tỉ lệ dữ liệu thường được sử dụng là: trung bình 0 và độ lệch chuẩn 1, tầm trung 0 và phạm vi 2, hoặc khi ý nghĩa về độ lớn là phi tuyến giá trị của các thuộc tính có thể được tỉ lệ bằng cách lấy logarit (hoặc lấy căn bậc 3) sau đó tiếp tục tỉ lệ kết quả nhận được bằng phương pháp tầm trung 0 và phạm vi 2. Trong bài báo này chúng tôi đề xuất phương pháp sử dụng giải thuật di truyền (Genetic Algorithm - GA) để lựa chọn phương pháp tỉ lệ cho từng thuộc tính. Kết quả thực nghiệm cho thấy trong nhiều trường hợp phương pháp mà chúng tôi đề xuất tốt hơn phương pháp vẫn thường được sử dụng đó là tỉ lệ giá trị của tất cả các thuộc tính theo cùng một phương pháp

Bài báo liên quan
Tác giả
Thông tin bài báo

Tiêu đề

THUẬT TOÁN LỰA CHỌN PHƯƠNG PHÁP TỈ LỆ DỮ LIỆU

Tạp chí

Số 43

Chuyên mục

Công nghệ Thông tin

Từ khóa

Công nghệ Thông tin

Bài báo nổi bật