Phát hiện và xử lý ngoại lai cho dữ liệu nhiệt độ tại các trạm quan trắc 3h của Việt Nam

  • Tác giả: Đặng Văn Nam 1 *, Nông Thị Oanh 1, Nguyễn Xuân Hoài 2 , Ngô Văn Mạnh 3, Nguyễn Thị Hiền 4
  • Cơ quan:
    1 Khoa Công nghệ Thông tin, Trường Đại học Mỏ - Địa chất, Việt Nam
    2 Viện Trí tuệ nhân tạo, Việt Nam
    3 Trung tâm Thông tin và Dữ liệu khí tượng thủy văn, Việt Nam
    4 Học viện Kỹ thuật quân sự, Việt Nam
  • Từ khóa: Dữ liệu ngoại lai, Outliers, Anomalies, Z - Score, Box - plot.
  • Nhận bài: 15-11-2019
  • Chấp nhận: 06-01-2020
  • Đăng online: 28-02-2020
Trang: 132 - 146
Lượt xem: 184

Tóm tắt:

Trong bất kỳ một dự án khoa học dữ liệu nào thì chuẩn bị dữ liệu (Data preparation) là công đoạn bắt buộc và không thể thiếu. Kết quả của nhiều nghiên cứu đã chỉ ra rằng, chuẩn bị dữ liệu là công đoạn chiếm tới 80% thời gian, công sức và nguồn lực của một dự án khoa học dữ liệu. Chuẩn bị dữ liệu bao gồm rất nhiều bước xử lý, với nhiều nghiệp vụ khác nhau và phụ thuộc vào từng bài toán, từng loại dữ liệu cụ thể. Phát hiện và xử lý dữ liệu ngoại lai (Outliers) là một trong những bước tiền xử lý quan trọng, đặc biệt là các dữ liệu số dạng chuỗi thời gian (Time series) (Hermine N. Akouemo et al., 2014). Trong nội dung của bài báo này, tác giả nghiên cứu hai phương pháp hiệu quả đang được sử dụng để phát hiện ngoại lai cho dữ liệu có số chiều thấp là Z - Score và biểu đồ Box - plot, cũng như các phương pháp để xử lý dữ liệu ngoại lai nói chung. Sau đó tiến hành thực nghiệm, áp dụng những phương pháp phát hiện và xử lý này cho dữ liệu nhiệt độ thu thập được từ 43 trạm quan trắc 3h của Việt Nam trong giai đoạn 6 năm gần đây từ năm 2014 đến năm 2019.

Trích dẫn
Đặng Văn Nam, Nông Thị Oanh, Nguyễn Xuân Hoài, Ngô Văn Mạnh và Nguyễn Thị Hiền, 2020. Phát hiện và xử lý ngoại lai cho dữ liệu nhiệt độ tại các trạm quan trắc 3h của Việt Nam, Tạp chí Khoa học kỹ thuật Mỏ - Địa chất, số 61, kỳ 1, tr. 132-146.
Tài liệu tham khảo

[1]. Charu C., Aggarwal, (2017). Outlier Analysis, Springer International Publishing AG, New York.

[2]. Davy Cielen, Arno D. B., Meysman, Mohamed Ali, (2016). Introducing Data Science, Manning Publications Co.

[3]. Hermine N., Akouemo, Richard J. Povinelli, (2014). Time series outlier detection and imputation, IEEE.

[4]. Nguyễn Văn Tuấn, (2014). Phân tích dữ liệu với R,Nhà xuất bản tổng hợp Thành phố Hồ Chí Minh.

[5]. Ranga Suri, N. N. R , Narasimha Murty M., Athithan, G., (2018). Outlier Detection: Techniques and Applications, Springer Nature Switzerland AG, Cham.

[6]. Tamara Munzer, (2014). Visualization Analysis and Design,CRC Press.