Khung dữ liệu gấu trúc sang html
Chào các bạn. Bài học hôm nay mình sẽ tổng hợp một số phương thức (Method) thường dùng để xử lý dữ liệu trong gấu trúc Phương thức nhập xuất dữ liệuData method input Trong pandas, ta có thể nhập dữ liệu từ nhiều tệp và nguồn khác nhau, chẳng hạn như tệp csv, excel, html, SQL, JSON, url… Đọc tệp CSV # truyền đối số là đường dẫn file vào df = pd.read_csv("/content/drive/MyDrive/Data_thuchanh/Data_baitap_1.csv") print(df) đầu ra Đọc từ nhiều nguồn khác nhau df1 = pd.read_excel("path")# đọc file excel df1 = pd.read_html("path")# đọc html df1 = pd.read_json("path")# đọc json df1 = pd.read_sql()# lấy dữ liệu sql #........ Xuất dữ liệu Ta có thể xuất dữ liệu từ Data Frame ra định dạng CSV hoặc Excel hoặc nhiều định dạng khác df.to_csv("hi.csv")# Xuất ra tệp hi.csv df.to_excel("hi.xlsx") # Xuất ra định dạng file excel #......... Các phương thức xử lý Data FrameTa lấy Data Frame with name is df side on to thao tác Delete the column in data frame Delete the column “Unnamed. 0” in df on, inplace parameter = True to change on df df.drop("Unnamed: 0", axis =1, inplace = True) print(df) đầu ra Phương thức df. cái đầu() Mặc định lấy thông tin 5 lần đầu tiên, ta có thể truyền vào tham số để lấy bao nhiêu dòng tùy chọn # Lấy 5 dòng đầu tiên df.head() đầu ra Phương thức df. đuôi() Mặc định lấy 5 dòng cuối trong df # Lấy 5 dòng sau cùng trong bảng df df.tail() đầu ra Phương thức df. vật mẫu() Get Random 5 lines in df # Mặc định chỉ lấy 1 dòng, ta truyền đối số là 5 để lấy 5 dòng df.sample(5) đầu ra Phương thức df. thông tin() Kiểm tra thông tin df, bao gồm các giá trị cột và dòng df.info() đầu ra Phương thức df. mô tả() Trả về thông tin thống kê cơ bản các cột là số trong df ________số 8đầu ra Thuộc tính df. mục lục Trả về phạm vi chỉ mục trong khung dữ liệu, thuộc tính này được sử dụng để lấy vị trí tất cả các dòng trong df df.index đầu ra Thuộc tính df. cột Trả về tên của tất cả các cột trong df df1 = pd.read_excel("path")# đọc file excel df1 = pd.read_html("path")# đọc html df1 = pd.read_json("path")# đọc json df1 = pd.read_sql()# lấy dữ liệu sql #........0 hàm len(df) Get the length of 1 df information (df has many lines) df1 = pd.read_excel("path")# đọc file excel df1 = pd.read_html("path")# đọc html df1 = pd.read_json("path")# đọc json df1 = pd.read_sql()# lấy dữ liệu sql #........1 Phương thức duy nhất() Trả về thông tin các giá trị có trong cột, các giá trị trùng nhau được gom thành 1. only apply for series df1 = pd.read_excel("path")# đọc file excel df1 = pd.read_html("path")# đọc html df1 = pd.read_json("path")# đọc json df1 = pd.read_sql()# lấy dữ liệu sql #........2 đầu ra Phuong thức nunique() Trả về số lượng các phần tử có trong cột “Ngày 1” df1 = pd.read_excel("path")# đọc file excel df1 = pd.read_html("path")# đọc html df1 = pd.read_json("path")# đọc json df1 = pd.read_sql()# lấy dữ liệu sql #........3 Phương thức value_counts() Đếm các phần tử trong cột “Ngày 1” df1 = pd.read_excel("path")# đọc file excel df1 = pd.read_html("path")# đọc html df1 = pd.read_json("path")# đọc json df1 = pd.read_sql()# lấy dữ liệu sql #........4 đầu ra Phương thức sort_value() Phương thức này sẽ mặc định trả về giá trị từ nhỏ đến lớn trong một chuỗi, sắp xếp theo thứ tự từ lớn đến nhỏ ta truyền tham số tăng dần = Sai vào phương thức trên df1 = pd.read_excel("path")# đọc file excel df1 = pd.read_html("path")# đọc html df1 = pd.read_json("path")# đọc json df1 = pd.read_sql()# lấy dữ liệu sql #........5 đầu ra Ta có thể sắp xếp từ nhỏ đến lớn theo nhiều cột df1 = pd.read_excel("path")# đọc file excel df1 = pd.read_html("path")# đọc html df1 = pd.read_json("path")# đọc json df1 = pd.read_sql()# lấy dữ liệu sql #........6 đầu ra Hàm (hàm) apply() Hàm apply() áp dụng cho một chuỗi trong khung dữ liệu, hàm này nhận đối số truyền vào là một hàm a, b, c nào đó mà Trình xử lý dữ liệu trong cột theo mong muốn đầu ra của ta. xem ví dụ bên dưới bạn sẽ biết Ta xem trước giá trị ban đầu của df khi chưa áp dụng hàm apply nhé ta muốn nhân đôi cột giá trị “Ngày 1” bằng 1 chức năng df1 = pd.read_excel("path")# đọc file excel df1 = pd.read_html("path")# đọc html df1 = pd.read_json("path")# đọc json df1 = pd.read_sql()# lấy dữ liệu sql #........7 đầu ra Bên cạnh đó, để đơn giản và áp dụng ngay không cần khai báo trước một hàm, ta có thể sử dụng hàm ẩn danh lambda cũng cho kết quả tương tự df1 = pd.read_excel("path")# đọc file excel df1 = pd.read_html("path")# đọc html df1 = pd.read_json("path")# đọc json df1 = pd.read_sql()# lấy dữ liệu sql #........8 đầu ra Phương thức rename() đổi tên cột hoặc chỉ mục df1 = pd.read_excel("path")# đọc file excel df1 = pd.read_html("path")# đọc html df1 = pd.read_json("path")# đọc json df1 = pd.read_sql()# lấy dữ liệu sql #........9 đầu ra Ngoài ra, ta có thể thay đổi tên hàng loạt chỉ mục hoặc cột bằng cách sau
df.to_csv("hi.csv")# Xuất ra tệp hi.csv df.to_excel("hi.xlsx") # Xuất ra định dạng file excel #.........0 Lưu ý. khi ta đổi tên hàng loạt cột thì giá trị cột truyền vào phải bằng với tên cột hiện có trên df, nếu muôn đổi vài cột thì ta sử dụng phương thức đổi tên bên trên đầu ra 2. Thay đổi chỉ mục df.to_csv("hi.csv")# Xuất ra tệp hi.csv df.to_excel("hi.xlsx") # Xuất ra định dạng file excel #.........1 đầu ra Method loc() and iloc() Phương thức loc() để truy xuất giá trị trong cột hoặc dòng với đối số truyền vào là tên cột (cột) hoặc tên chỉ mục df.to_csv("hi.csv")# Xuất ra tệp hi.csv df.to_excel("hi.xlsx") # Xuất ra định dạng file excel #.........2 đầu ra Phương thức iloc() truy cập cột hoặc lập chỉ mục theo vị trí ( lưu ý. default position from 0 trở đi) df.to_csv("hi.csv")# Xuất ra tệp hi.csv df.to_excel("hi.xlsx") # Xuất ra định dạng file excel #.........3 đầu ra. kết quả tương tự như loc() tùy chọn theo vị trí ta muốn lấy truy xuất dữ liệu theo điều kiện df.to_csv("hi.csv")# Xuất ra tệp hi.csv df.to_excel("hi.xlsx") # Xuất ra định dạng file excel #.........4 đầu ra Bên dưới là một số cách thường được sử dụng khi truy xuất khung dữ liệu dữ liệu df.to_csv("hi.csv")# Xuất ra tệp hi.csv df.to_excel("hi.xlsx") # Xuất ra định dạng file excel #.........5 Ok các bạn, đến đây cơ bản ta đã hoàn thành qua phần bài học Pandas, các bạn có thể tham khảo thêm tài liệu hướng dẫn về pandas tại đây. https. //gấu trúc. pydata. org/tài liệu/tham khảo/chỉ mục. html |