Trong hướng dẫn này, tôi sẽ chỉ cho bạn cách sử dụng kỹ thuật duy nhất của Pandas để lấy các giá trị duy nhất từ dữ liệu của Pandas
Tôi sẽ giải thích cú pháp, bao gồm cách sử dụng hai dạng duy nhất khác nhau của Pandas. chức năng duy nhất cũng như phương pháp duy nhất. [Thực tế có hai cách khác nhau để sử dụng kỹ thuật này trong Pandas. Tôi sẽ cho bạn thấy cả hai. ]
Nếu bạn ở đây vì điều gì đó cụ thể, bạn có thể nhấp vào bất kỳ liên kết nào bên dưới và nó sẽ đưa bạn đến phần thích hợp của hướng dẫn
Mục lục
Nhưng, nếu bạn đọc tất cả mọi thứ từ đầu đến cuối, nó có thể sẽ có ý nghĩa hơn
Đã nói rằng, chúng ta hãy bắt đầu
Giới thiệu nhanh về Pandas Unique
Kỹ thuật Pandas Unique xác định các giá trị duy nhất trong các đối tượng chuỗi Pandas và các loại đối tượng khác
Nếu bạn chưa quen với Pandas, điều đó có thể không hợp lý, vì vậy hãy để tôi giải thích nhanh
Pandas là Bộ công cụ thao tác dữ liệu
Chỉ là một đánh giá nhanh cho những người mới sử dụng Pandas. Pandas là bộ công cụ thao tác dữ liệu cho Python
Chúng tôi sử dụng Pandas để truy xuất, dọn dẹp, tập hợp con và định hình lại dữ liệu trong Python
Công cụ Pandas hoạt động trên DataFrames và Series Objects
Có hai cấu trúc dữ liệu chính trong Pandas
Đầu tiên, có khung dữ liệu Pandas, là cấu trúc dữ liệu hàng và cột. Một khung dữ liệu giống như một bảng tính Excel, theo nghĩa là nó có các hàng và cột. Dataframes trông giống như thế này
Cấu trúc dữ liệu Pandas chính thứ hai là Pandas Series
Chuỗi Pandas giống như một cột dữ liệu
Điều quan trọng là phải hiểu rằng chúng ta thường gặp và làm việc với các đối tượng Pandas Series như một phần của khung dữ liệu. Khi bạn truy xuất hoặc thao tác trên một cột từ khung dữ liệu, cột đó thường được trả về dưới dạng đối tượng Sê-ri
Phải nói rằng, các đối tượng Sê-ri cũng có thể tồn tại độc lập
Điều này rất quan trọng, bởi vì khi chúng tôi sử dụng Pandas để làm việc với các đối tượng Chuỗi, đôi khi chúng tôi làm điều này với Chuỗi đơn lẻ. Nhưng thường xuyên hơn, chúng tôi hoạt động trên các đối tượng Sê-ri là một phần của khung dữ liệu
Đây là điều quan trọng cần nhớ khi chúng ta làm việc với kỹ thuật độc đáo của Pandas
Pandas Unique Xác định các giá trị duy nhất
Với tất cả những gì đã nói, chúng ta hãy quay lại phương pháp Pandas Unique
Kỹ thuật Pandas Unique xác định các giá trị duy nhất của Pandas Series
Vì vậy, nếu chúng ta có một chuỗi Pandas [một mình hoặc là một phần của khung dữ liệu Pandas], chúng ta có thể sử dụng kỹ thuật
import pandas as pd import seaborn as sns5 để xác định các giá trị duy nhất
Ở cấp độ cao, đó là tất cả những gì mà kỹ thuật
import pandas as pd import seaborn as sns6 làm được, nhưng có một vài chi tiết quan trọng
Với ý nghĩ đó, chúng ta hãy xem cú pháp để bạn có thể hiểu rõ hơn về cách thức hoạt động của kỹ thuật này
Cú pháp của Pandas độc đáo
Vâng. Hãy xem cú pháp
Cú pháp khá đơn giản và dễ hiểu, nhưng có một số chi tiết quan trọng
Đáng chú ý, thực tế có hai cách khác nhau để sử dụng kỹ thuật
import pandas as pd import seaborn as sns6. Bạn có thể sử dụng
import pandas as pd import seaborn as sns6 như một hàm Pandas, nhưng bạn cũng có thể sử dụng nó như một phương thức
Chúng ta sẽ xem xét cú pháp của từng loại một cách độc lập
Một lưu ý nhanh
Một lưu ý nhanh. về sau, tôi sẽ cho rằng bạn đã nhập thư viện Pandas với bí danh 'pd'
Bạn có thể làm điều đó với đoạn mã sau
import pandas as pd
Cú pháp của pd. độc nhất
Vâng. Hãy bắt đầu bằng cách xem pd. chức năng độc đáo
Khi chúng ta sử dụng chức năng duy nhất, chúng ta có thể gọi nó như thế này
Chúng tôi gọi hàm là
import pandas as pd import seaborn as sns5
Bên trong dấu ngoặc đơn, chúng tôi cung cấp tên của Sê-ri mà chúng tôi muốn thao tác trên đó. Xin lưu ý rằng đây có thể là một Sê-ri thực tế, nhưng chức năng này cũng sẽ hoạt động nếu bạn cung cấp một đối tượng "giống như mảng", chẳng hạn như danh sách Python
Cú pháp của Pandas Unique Method
Trong phần trước, chúng ta đã xem cách gọi hàm
import pandas as pd import seaborn as sns6
Ở đây, tôi sẽ giải thích cách sử dụng unique như một phương thức. [Hãy nhớ rằng, một phương thức giống như một chức năng được liên kết với một đối tượng. ]
Khi bạn sử dụng phiên bản phương thức, bạn bắt đầu bằng cách nhập tên của đối tượng Sê-ri mà bạn muốn làm việc với
Tiếp theo, bạn nhập một dấu chấm, sau đó tên của phương thức,
import pandas as pd import seaborn as sns6
Khi chúng tôi sử dụng phương thức duy nhất của Pandas, chúng tôi có thể sử dụng nó trên một đối tượng Sê-ri đơn độc tồn tại bên ngoài khung dữ liệu
Phải nói rằng, có lẽ việc sử dụng unique[] trên các cột của khung dữ liệu sẽ phổ biến hơn
Chúng ta hãy xem làm thế nào để làm điều đó
Cách sử dụng duy nhất trên cột khung dữ liệu
Như tôi đã đề cập, các cột khung dữ liệu về cơ bản là các đối tượng Pandas Series. Nếu bạn muốn sử dụng phương thức unique[] trên cột khung dữ liệu, bạn có thể thực hiện như sau
Nhập tên của khung dữ liệu, sau đó sử dụng "cú pháp dấu chấm" và nhập tên của cột. Sau đó sử dụng cú pháp dấu chấm để gọi phương thức
import pandas as pd import seaborn as sns6
Nó thực sự rất dễ sử dụng, nhưng tôi sẽ chỉ cho bạn các ví dụ cụ thể
Đầu ra của Unique[]
Cho dù chúng ta sử dụng dạng hàm hay dạng phương thức, đầu ra đều giống nhau
Kỹ thuật unique[] tạo ra một mảng Numpy với các giá trị duy nhất
Ngoài ra, hãy nhớ rằng các giá trị duy nhất được trả về theo thứ tự xuất hiện trong chuỗi đầu vào. Vì vậy, chúng không được sắp xếp trong đầu ra
[Lưu ý rằng “Trong trường hợp Sê-ri được hỗ trợ bởi mảng mở rộng, một ExtensionArray mới thuộc loại đó chỉ với các giá trị duy nhất được trả về. Điều này bao gồm phân loại, thời gian, ngày giờ với múi giờ, khoảng thời gian, thưa thớt, số nguyênNA. ” Xem tài liệu chính thức về Pandas độc đáo. ]
ví dụ. Cách xác định các giá trị duy nhất trong Pandas
Vâng. Bây giờ bạn đã học về cú pháp, hãy xem xét một số ví dụ cụ thể
Bạn có thể nhấp vào bất kỳ liên kết nào sau đây và nó sẽ đưa bạn trực tiếp đến ví dụ
ví dụ
Chạy mã này trước
Hai phần thiết lập nhanh, trước khi bạn chạy các ví dụ
Bạn cần nhập Pandas và truy xuất tập dữ liệu
Nhập gấu trúc và SeabornTrước tiên, bạn cần nhập Pandas và Seaborn với mã sau
import pandas as pd import seaborn as sns
Chúng tôi sẽ sử dụng Seaborn để lấy tập dữ liệu
Truy xuất khung dữ liệu TitanicTiếp theo, chúng tôi sẽ truy xuất khung dữ liệu
sns.load_dataset['titanic']3
Chúng ta có thể làm điều này với hàm
sns.load_dataset['titanic']4 như sau
sns.load_dataset['titanic']
Chúng tôi sẽ không sử dụng khung dữ liệu này cho tất cả các ví dụ, nhưng chúng tôi sẽ sử dụng nó cho một trong số chúng
VÍ DỤ 1. Xác định các giá trị duy nhất của một danh sách
Đầu tiên, chúng ta sẽ bắt đầu đơn giản
Ở đây, thay vì làm việc với các cấu trúc dữ liệu phức tạp hơn, chúng ta sẽ chỉ làm việc với một danh sách Python đơn giản
Trước tiên, hãy tạo một danh sách Python đơn giản với 7 giá trị
letter_list = ['A','B','B','C','E','D','E']
Danh sách,
sns.load_dataset['titanic']5, chứa một số chữ in hoa. Lưu ý rằng có một số chữ cái lặp đi lặp lại
pd.unique[letter_list]
NGOÀI
array[['A', 'B', 'C', 'E', 'D'], dtype=object]Giải thích
Ở đây, đầu vào là một danh sách Python đơn giản có chứa một số chữ cái. Một số chữ cái được lặp đi lặp lại
Đầu ra là một mảng Numpy chứa các giá trị duy nhất có trong đầu vào. Nói cách khác, mảng đầu ra chứa các giá trị giống nhau, nhưng đã loại bỏ tất cả các giá trị trùng lặp
Ngoài ra, lưu ý thứ tự. Các mục trong đầu ra không được sắp xếp. Thay vào đó, các mục trong đầu ra xuất hiện theo thứ tự mà chúng xuất hiện ban đầu trong đầu vào
VÍ DỤ 2. Nhận các giá trị duy nhất từ Pandas Series bằng chức năng duy nhất
Tiếp theo, hãy lấy các giá trị duy nhất từ Sê-ri Pandas
Ở đây, chúng ta sẽ lại sử dụng hàm unique[] để làm điều này
Tuy nhiên, trước tiên, hãy nhanh chóng tạo một đối tượng Sê-ri
animals = pd.Series[['cat', 'dog', 'cat', 'bear', 'bear', 'bear', 'badger']]
Và bây giờ, hãy xác định các giá trị duy nhất
pd.unique[animals]
NGOÀI
array[['cat', 'dog', 'bear', 'badger'], dtype=object]Giải thích
Một lần nữa, điều này khá đơn giản
Ở đây, chúng tôi đang gọi hàm
import pandas as pd import seaborn as sns5 để lấy các giá trị duy nhất
Đầu vào của hàm là Sê-ri
sns.load_dataset['titanic']7 [một đối tượng Sê-ri Pandas]
Đầu ra là một mảng Numpy
Lưu ý một lần nữa rằng các mục trong đầu ra được loại bỏ trùng lặp … các mục trùng lặp được loại bỏ
Hơn nữa, chúng xuất hiện theo đúng thứ tự như chúng xuất hiện trong đầu vào. Chúng không được sắp xếp
VÍ DỤ 3. Nhận các giá trị duy nhất từ Pandas Series bằng phương pháp duy nhất
Tiếp theo, hãy sử dụng phương thức
import pandas as pd import seaborn as sns6 để nhận các giá trị duy nhất
Vì vậy, trong phần , chúng tôi đã sử dụng hàm duy nhất để tính toán các giá trị duy nhất. Nhưng ở đây, chúng ta sẽ sử dụng phương thức [nếu bạn không hiểu về điều này, hãy xem lại phần giải thích của chúng tôi về phiên bản chức năng và phiên bản phương thức trong. ]
Đầu tiên, chúng ta có thể tạo đối tượng Sê-ri của mình [đây là Sê-ri giống như ví dụ trước]
animals = pd.Series[['cat', 'dog', 'cat', 'bear', 'bear', 'bear', 'badger']]
Tiếp theo, hãy sử dụng cú pháp phương thức để truy xuất các giá trị duy nhất
import pandas as pd import seaborn as sns0
NGOÀI
array[['cat', 'dog', 'bear', 'badger'], dtype=object]Giải thích
Ở đây, chúng tôi đã sử dụng cú pháp phương thức để truy xuất các giá trị duy nhất có trong chuỗi Pandas
Để làm điều này, chúng tôi đã nhập tên của đối tượng Sê-ri,
sns.load_dataset['titanic']7
Sau đó, chúng tôi sử dụng cái gọi là “cú pháp dấu chấm” để gọi phương thức
import pandas as pd import seaborn as sns6. Khi chúng ta sử dụng kỹ thuật
import pandas as pd import seaborn as sns6 theo cách này, nó chỉ đơn giản xác định các giá trị duy nhất có trong đối tượng Sê-ri được liên kết. Là một đầu ra, nó tạo ra một mảng Numpy với các giá trị duy nhất
VÍ DỤ 4. Xác định các giá trị duy nhất của cột DataFrame
Cuối cùng, hãy làm một ví dụ nữa
Tại đây, chúng tôi sẽ xác định các giá trị duy nhất của cột khung dữ liệu
Cụ thể, chúng tôi sẽ xác định các giá trị duy nhất của biến
letter_list = ['A','B','B','C','E','D','E']2 trong tập dữ liệu
sns.load_dataset['titanic']3
Trước tiên, hãy lấy khung dữ liệu titanic bằng cách sử dụng
sns.load_dataset['titanic']4
import pandas as pd import seaborn as sns2
Tiếp theo, chúng ta có thể truy xuất các giá trị duy nhất của cột
letter_list = ['A','B','B','C','E','D','E']2 bằng cách sử dụng cú pháp phương thức như sau
import pandas as pd import seaborn as sns3
NGOÀI
import pandas as pd import seaborn as sns4Giải thích
Ở đây, chúng tôi đang sử dụng cú pháp phương thức để xác định các giá trị duy nhất của cột khung dữ liệu
Tôi đã giải thích điều này trong , nhưng hãy để tôi lặp lại nhanh chóng, cho rõ ràng
Khi chúng tôi nhận được các giá trị duy nhất của một cột, chúng tôi cần nhập tên của khung dữ liệu, sau đó là tên của cột và sau đó là
import pandas as pd import seaborn as sns6. Hãy nhớ rằng chúng phải được phân tách bằng 'dấu chấm'. ’
Vì vậy, trong ví dụ này,
sns.load_dataset['titanic']3 là tên của khung dữ liệu
letter_list = ['A','B','B','C','E','D','E']2 là tên của cột. Hãy nhớ rằng, khi chúng ta gọi nó bằng mã
letter_list = ['A','B','B','C','E','D','E']9, nó thực sự là một đối tượng Series. Đó là lý do tại sao chúng ta có thể sử dụng cú pháp phương thức
Cuối cùng, chúng tôi gọi phương thức với
pd.unique[letter_list]0
Đầu ra là một mảng Numpy với các giá trị duy nhất có trong cột
letter_list = ['A','B','B','C','E','D','E']9
Hãy nhớ rằng nó rất hữu ích khi bạn đang phân tích hoặc làm việc với các khung dữ liệu. Bạn có thể xác định các giá trị duy nhất của một cột bằng cách sử dụng kỹ thuật này
Để lại câu hỏi của bạn trong các ý kiến dưới đây
Bạn vẫn còn thắc mắc về kỹ thuật Pandas Unique?
Chỉ cần để lại câu hỏi của bạn trong phần bình luận gần cuối trang
Nếu bạn muốn thành thạo Pandas, hãy tham gia khóa học của chúng tôi
Trong hướng dẫn này, tôi đã giải thích cách sử dụng chức năng duy nhất, nhưng nếu bạn muốn thành thạo thao tác dữ liệu trong Pandas, thực sự còn rất nhiều điều cần tìm hiểu
Vì vậy, nếu bạn thực sự muốn làm chủ việc sắp xếp dữ liệu với Pandas, bạn nên tham gia khóa học trực tuyến cao cấp của chúng tôi, Pandas Mastery
Pandas Mastery là khóa học trực tuyến của chúng tôi sẽ dạy cho bạn những công cụ thao tác dữ liệu quan trọng này
Trong khóa học, bạn sẽ học tất cả các yếu tố cần thiết của thao tác dữ liệu trong gấu trúc, như
- dữ liệu tập hợp con
- Lọc dữ liệu theo điều kiện logic
- thêm các biến mới
- định hình lại dữ liệu
- làm việc với các chỉ mục Pandas
- và nhiều hơn nữa …
Ngoài ra, bạn sẽ khám phá ra hệ thống thực hành độc đáo của chúng tôi cho phép bạn ghi nhớ tất cả các cú pháp mà bạn đã học. Ghi nhớ cú pháp sẽ chỉ mất vài tuần