Thuật toán lựa chọn phương pháp tỉ lệ dữ liệu
- Tác giả: Đặng Hữu Nghị 1, Hoàng Kim Bảng 1, Bùi Thị Vân Anh 1
Cơ quan:
1 Trường Đại học Mỏ - Địa chất
- Nhận bài: 27-05-2013
- Sửa xong: 18-07-2013
- Chấp nhận: 30-07-2013
- Ngày đăng: 30-07-2013
- Lĩnh vực: Công nghệ Thông tin
Tóm tắt:
Máy tựa vector (Support Vector Machine – SVM) là một kỹ thuật hữu ích cho việc phân loại dữ liệu. Việc tỉ lệ giá trị của các thuộc tính trong tập dữ liệu huấn luyện cũng như tập dữ liệu kiểm thử về cùng một phạm vi (gọi tắt là tỉ lệ dữ liệu) trước khi áp dụng SVM là một bước rất quan trọng. Khi thiếu thông tin người ta thường tỉ lệ giá trị của các thuộc tính về cùng một phạm vi với cùng một phương pháp. Có 3 phương pháp tỉ lệ dữ liệu thường được sử dụng là: trung bình 0 và độ lệch chuẩn 1, tầm trung 0 và phạm vi 2, hoặc khi ý nghĩa về độ lớn là phi tuyến giá trị của các thuộc tính có thể được tỉ lệ bằng cách lấy logarit (hoặc lấy căn bậc 3) sau đó tiếp tục tỉ lệ kết quả nhận được bằng phương pháp tầm trung 0 và phạm vi 2. Trong bài báo này chúng tôi đề xuất phương pháp sử dụng giải thuật di truyền (Genetic Algorithm - GA) để lựa chọn phương pháp tỉ lệ cho từng thuộc tính. Kết quả thực nghiệm cho thấy trong nhiều trường hợp phương pháp mà chúng tôi đề xuất tốt hơn phương pháp vẫn thường được sử dụng đó là tỉ lệ giá trị của tất cả các thuộc tính theo cùng một phương pháp
Các bài báo khác