Phát hiện ngoại lai trong chuỗi tọa độ GNSS bằng máy học
- Tác giả: Nguyễn Đình Huy, Trần Đình Trọng *
Cơ quan:
Trường Đại học Xây dựng Hà Nội, Hà Nội, Việt Nam
- *Tác giả liên hệ:This email address is being protected from spambots. You need JavaScript enabled to view it.
- Từ khóa: Chuỗi tọa độ GNSS, Isolation Forest, LOF, Ngoại lai, O-C SVM.
- Nhận bài: 27-03-2023
- Sửa xong: 30-07-2023
- Chấp nhận: 24-08-2023
- Ngày đăng: 31-08-2023
- Lĩnh vực: Kỹ thuật Xây dựng
Tóm tắt:
Chuỗi tọa độ (position time series) nhận được từ kết quả đo GNSS (Global Navigation Satellite System) liên tục được ứng dụng trong các nghiên cứu yêu cầu định vị độ chính xác cao như dịch chuyển mảng kiến tạo, biến dạng vỏ trái đất,… Ngoại lai hay dị thường (outlier) cần phải loại bỏ trong xử lý số liệu nói chung, đặc biệt trong phân tích chuỗi tọa độ GNSS do chúng làm giảm độ chính xác khi xác định vị trí điểm đo và các tham số dịch chuyển của điểm đo, làm nhiễu kết quả phân tích dữ liệu của chuỗi. Với những ưu điểm vượt trội so với các phương pháp thống kê, hay phương pháp cửa sổ trượt,… trong nghiên cứu này, nhóm nghiên cứu sử dụng 3 phương pháp máy học được đánh giá là tối ưu trong phát hiện ngoại lai là Isolation Forest, One-Class Support Vector Machines (O-C SVM) và Local Outlier Factor (LOF) để phát hiện ngoại lai chiếm tỉ lệ cao (15%) của chuỗi tọa độ GNSS mô hình SYNT. Kết quả cho thấy Isolation Forest đạt hiệu suất tốt nhất, với độ chính xác cao, khả năng tìm ra hầu hết các điểm ngoại lai và diện tích dưới đường cong ROC gần 1, LOF có hiệu suất kém hơn, trong khi O-C SVM chỉ có độ chính xác tương đối cao trong việc xác định các điểm bình thường. Kết quả nghiên cứu góp phần khẳng định ưu điểm vượt trội của các phương pháp máy học trong việc xử lý số liệu đo GNSS liên tục.
Bevis, M., Jonathan, B., and Dana J., C. I. I., (2020). The Art and Science of Trajectory Modelling. In J.-P. Montillet and M. S. Bos (Eds.), Geodetic Time Series Analysis in Earth Sciences (1st ed., pp. 1–29). Springer International Publishing. https://doi.org/10.1007/978-3-030-21718-1
Bradley, A. P., (1997). The use of the area under the ROC curve in the evaluation of machine learning algorithms. Pattern Recognition, 30(7), 1145–1159. https://doi.org/10.1016/S0031-3203(96)00142-2.
Breunig, M. M., Kriegel, H.-P., Ng, R. T., and Sander, J., (2000). LOF. Proceedings of the 2000 ACM SIGMOD International Conference on Management of Data, 93–104. https://doi.org/10.1145/342009.335388.
Dinh, T. T., Nguyen, D. H., Vu, N. Q., and long Nguyen, Q. (2023). Crustal displacement in Vietnam using CORS data during 2018-2021. Earth Sciences Research Journal, 27(1), 27-36. https://doi.org/10.15446/esrj.v27n1.102630
Gao, W., Li, Z., Chen, Q., Jiang, W., and Feng, Y., (2022). Modelling and prediction of GNSS time series using GBDT, LSTM and SVM machine learning approaches. Journal of Geodesy, 96(10), 71. https://doi.org/10.1007/s00190-022-01662-5.
Gomo, S., Durrheim, R. J., and Cooper, G. R. J., (2017). Analysis of GPS Position Time Series in Africa.
Hawkins, D. M., (1980). Identification of Outliers (1st ed.). Springer Netherlands. https://doi.org/10.1007/978-94-015-3994-4.
Hieu, H. T., Chou, T. Y., Fang, Y. M., and Hoang, T. V., (2018). Statistical process control methods for detecting outliers in GPS time series data. Int Refereed J Eng Sci, 7(5), 8–15.
Ito, C., Takahashi, H., and Ohzono, M., (2019). Estimation of convergence boundary location and velocity between tectonic plates in northern Hokkaido inferred by GNSS velocity data. Earth, Planets and Space, 71(1), 86. https://doi.org/10.1186/s40623-019-1065-z.
Kall, T., Oja, T., Kruusla, K., and Liibusk, A., (2021). New 3D velocity model of Estonia from GNSS measurements. Estonian Journal of Earth Sciences, 70(2), 107. https://doi.org/10.3176/earth.2021.08.
Kiani, M., (2020). A specifically designed machine learning algorithm for GNSS position time series prediction and its applications in outlier and anomaly detection and earthquake prediction. ArXiv Preprint ArXiv:2006.09067.
Klos, A., Bogusz, J. B., Bos, M. S., and Gruszczynska, M., (2020). Modelling the GNSS Time Series: Different Approaches to Extract Seasonal Signals. In J.-P. Montillet and M. S. Bos (Eds.), Geodetic Time Series Analysis in Earth Sciences (1st ed., pp. 2–4). Springer International Publishing. https://doi.org/10.1007/978-3-030-21718-1.
Liu, F. T., Ting, K. M., and Zhou, Z.-H., (2008). Isolation Forest. 2008 Eighth IEEE International Conference on Data Mining, 413–422. https://doi.org/10.1109/ICDM.2008.17.
Métivier, L., Collilieux, X., Lercier, D., Altamimi, Z., and Beauducel, F., (2014). Global coseismic deformations, GNSS time series analysis, and earthquake scaling laws. Journal of Geophysical Research: Solid Earth, 119(12), 9095–9109. https://doi.org/10.1002/2014jb011280.
Montillet, J.-P., and Bos, M. S., (2020). Geodetic Time Series Analysis in Earth Sciences (J.-P. Montillet and M. S. Bos, Eds.; 1st ed.). Springer International Publishing. https://doi.org/10.1007/978-3-030-21718-1.
Montillet, J.-P., Williams, S. D. P., Koulali, A., and McClusky, S. C., (2015). Estimation of offsets in GPS time-series and application to the detection of earthquake deformation in the far-field. Geophysical Journal International, 200(2), 1207–1221. https://doi.org/10.1093/gji/ggu473.
Phong, D. V., Trọng, N. G., Chiến, N. V., Thành, N. H., Hà, L. L., Quân, N. V., and Quang, P. N. (2023). Phân tích chuyển dịch thẳng đứng vỏ Trái đất sử dụng hàm ANN từ kết quả xử lý chuỗi dữ liệu GNSS theo thời gian. Tạp Chí Khí Tượng Thủy Văn, 752, 41–50. https://doi.org/10.36335/VNJHM.2022(752).41-50.
Riel, B., Simons, M., Agram, P., and Zhan, Z., (2014). Detecting transient signals in geodetic time series using sparse estimation techniques. Journal of Geophysical Research: Solid Earth, 119(6), 5140–5160. https://doi.org/10.1002/2014JB011077.
Schölkopf, B., Platt, J. C., Shawe-Taylor, J., Smola, A. J., and Williamson, R. C., (2001). Estimating the Support of a High-Dimensional Distribution. Neural Computation, 13(7), 1443–1471. https://doi.org/10.1162/089976601750264965.
Teferle, F. N., Williams, S. D. P., Kierulf, H. P., Bingley, R. M., and Plag, H.-P., (2008). A continuous GPS coordinate time series analysis strategy for high-accuracy vertical land movements. Physics and Chemistry of the Earth, Parts A/B/C, 33(3–4), 205–216. https://doi.org/10.1016/j.pce.2006.11.002.
Tran, D. T. (2013). Analyse rapide et robuste des solutions GPS pour la tectonique [Université de Nice Sophia - Antipolis]. https://www.theses.fr/2013NICE4033.
Tran, D. T., Nguyen, Q. L., and Nguyen, D. H., (2021). General Geometric Model of GNSS Position Time Series for Crustal Deformation Studies -A Case Study of CORS Stations in Vietnam. Journal of the Polish Mineral Engineering Society, 1(2), 183–198. https://doi.org/10.29227/IM-2021-02-16.
Tran, D. T., Nocquet, J.-M., Luong, N. D., and Nguyen, D. H., (2022). Determination of Helmert transformation parameters for continuous GNSS networks: a case study of the Géoazur GNSS network. Geo-Spatial Information Science, 1–14. https://doi.org/10.1080/10095020.2022.2138569.
Trần, Đ. T., Vũ, Đ. C., and Đào, D. T., (2014). Phương pháp Dikin phát hiện trị đo chứa sai số thô. Tạp Chí Khoa Học và Công Nghệ, Viện Hàn Lâm Khoa Học Việt Nam, 52(4B), 519–526. https://www.researchgate.net/publication/277599309_Phuong_phap_Dikin_phat_hien_tri_do_chua_sai_so_tho.
Tran, T. D., Dao, T. D., Vu, T. S., Luong, D. N., Vu, C. D., Bui, S. N., and Ha, H. T., (2016). Outlier detection in GNSS position time series. Science and Technology Development Journal, 19(2), 43–50. https://doi.org/10.32508/stdj.v19i2.665
Trọng, T. Đ., and Huy, N. Đ. (2023). Nghiên cứu xác định thời gian tắt dần sau động đất trong chuỗi tọa độ GNSS liên tục. Tạp chí Khoa học Công nghệ Xây dựng (KHCNXD)-ĐHXDHN. https://stce.huce.edu.vn/index.php/vn/article/view/2659.
Tsai, M.-C., Yu, S.-B., Shin, T.-C., Kuo, K.-W., Leu, P.-L., Chang, C.-H., and Ho, M.-Y. (2015). Velocity Field Derived from Taiwan Continuous GPS Array (2007 - 2013). Terrestrial, Atmospheric and Oceanic Sciences, 26(5), 527. https://doi.org/10.3319/TAO.2015.05.21.01(T).
Van Rossum, G., and Drake, F. L. (2003). An introduction to Python. Network Theory Ltd. Bristol.
Wu, D., Yan, H., and Shen, Y., (2017). TSAnalyzer, a GNSS time series analysis software. GPS Solutions, 21(3), 1389–1394. https://doi.org/10.1007/s10291-017-0637-2.
Các bài báo khác