Trong hầu hết các kịch bản dữ liệu lớn, sẽ có yêu cầu sử dụng mô-đun ngày tháng để khắc phục các vấn đề về ngày tháng như ngày không chính xác, lật định dạng ngày và thay đổi định dạng ngày và sửa chúng dựa trên các tiêu chí nhất định và gắn cờ ngày không chính xác và sửa . Mô-đun này có thể tái sử dụng và có thể được sử dụng để khắc phục hầu hết các sự cố về ngày thường xuyên xảy ra trong đường dẫn dữ liệu lớn của bạn
Nắm vững nghệ thuật làm sạch dữ liệu trong học máy
Yêu cầu hệ thống
- Cài đặt các mô-đun Python như sau.
pip install pandas
pip install numpy
- Các mã dưới đây có thể được chạy trong sổ ghi chép Jupyter hoặc bất kỳ bảng điều khiển python nào
- Trong trường hợp này, chúng tôi sẽ sử dụng hai tệp excel có nhiều tháng dữ liệu với các trường ngày khác nhau và chúng tôi sửa chúng cho phù hợp feb_order_dataset , jan_order_dataset
Bước 1. Nhập các mô-đun
Trong ví dụ này, chúng ta sẽ sử dụng các mô-đun pandas, numpy và datetime, các mô-đun này được sử dụng để thao tác dữ liệu Các cấu trúc dữ liệu và hoạt động của gấu trúc để thao tác với các bảng số và chuỗi thời gian
import pandas as pd import datetime import numpy as np
Bước 2. chức năng để lật tháng và ngày
def day_month_flip[date_to_flip]: return pd.to_datetime[date_to_flip.strftime['%Y-%d-%m %H:%M:%S']]
Bước 3. Viết điều kiện để kiểm tra các vấn đề về ngày tháng
Trong mã bên dưới, chúng tôi đã viết các điều kiện để kiểm tra Ngày không chính xác, Ngày bị lật, Giá trị ngày mới so với dữ liệu của tệp trước Định dạng ngày không hợp lệ Và thêm ba cột mới cho ngày mới, cờ cho ngày mới, trạng thái của ngày mới vào tệp đầu ra mà
def check_condtn1[date_to_check, month_val]: if date_to_check > month_val: if date_to_check.day