Bảng cheat Python eda

Exploratory Data Analysis — EDA là một bước không thể thiếu trong khai phá dữ liệu. Để giải thích các khía cạnh khác nhau của tập dữ liệu như phân phối, nguyên tắc hoặc nhiễu, cần phải trực quan hóa dữ liệu của chúng tôi trong các biểu đồ hoặc hình ảnh khác nhau. May mắn thay, Python cung cấp rất nhiều thư viện giúp việc trực quan hóa trở nên thuận tiện và dễ dàng hơn bao giờ hết. Một số trong đó được sử dụng rộng rãi hiện nay như Matplotlib, Seaborn, Plotly hay Bokeh

Vì công việc của tôi tập trung vào việc xem xét kỹ lưỡng mọi khía cạnh của dữ liệu nên tôi đã tiếp xúc với nhiều loại biểu đồ. Tuy nhiên, do có quá nhiều hàm và mã không dễ nhớ nên đôi khi tôi quên mất cú pháp và phải xem lại hoặc tìm kiếm các mã tương tự trên Internet. Không còn nghi ngờ gì nữa, nó đã lãng phí rất nhiều thời gian của tôi, vì vậy động lực của tôi để viết bài này. Hy vọng có thể giúp ích chút ít cho bạn nào có kỉ niệm về cá vàng như mình

mô tả dữ liệu

Tập dữ liệu của tôi được tải xuống từ tập dữ liệu Kaggle công khai. Đây là tập dữ liệu tạp hóa và bạn có thể dễ dàng lấy dữ liệu từ liên kết bên dưới

tập dữ liệu cửa hàng tạp hóa

Bộ dữ liệu gồm 38765 hàng cho Phân tích rổ thị trường

www. kaggle. com

Dữ liệu tạp hóa này bao gồm 3 cột, đó là

  • Số thành viên. số id của khách hàng
  • Ngày. ngày mua
  • mô tả món hàng. Tên mục

Bây giờ, hãy xem khung dữ liệu và thông tin của nó

Hình 1. Khung dữ liệu

Hình 2. Mô tả dữ liệu Cài đặt các gói cần thiết

Có một số gói chúng ta nên nhập trước

import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline
Trực quan hóa dữ liệu

Biểu đồ đường

Đối với phần này, tôi sẽ sử dụng biểu đồ đường để hình dung doanh thu của cửa hàng tạp hóa trong thời gian 2 năm 2014 và 2015

Đầu tiên mình sẽ biến đổi khung dữ liệu một chút để lấy các item được tính theo tháng và năm

Hình 3. Các mặt hàng được tính theo tháng-năm

Sau khi chúng tôi có dữ liệu của mình, hãy thử hình dung nó

hinh 4. Biểu đồ đường của các mục được tính theo tháng-năm

Biểu đồ cột

Biểu đồ thanh được sử dụng để mô phỏng xu hướng thay đổi của đối tượng theo thời gian hoặc để so sánh các số liệu/hệ số của đối tượng. Biểu đồ thanh thường có hai trục. một trục là đối tượng/yếu tố cần phân tích, trục còn lại là các tham số của đối tượng

Đối với tập dữ liệu này, tôi sẽ sử dụng biểu đồ thanh để trực quan hóa 10 danh mục bán chạy nhất trong năm 2014 và 2015. Bạn có thể hiển thị nó bằng biểu đồ thanh ngang hoặc dọc. Hãy xem nó trông như thế nào

Chuyển đổi dữ liệu

hinh 4. Các mục được đếm theo danh mục

Biểu đồ thanh ngang

Hình 5. Biểu đồ thanh ngang

Nếu bạn thích biểu đồ thanh dọc, hãy thử điều này

Hình 6. Biểu đồ thanh dọc

Biểu đồ thanh có giá trị Hue

Nếu bạn muốn so sánh doanh số bán hàng của từng danh mục theo năm, hình dung của bạn sẽ như thế nào?

Hình 7. Biểu đồ thanh có giá trị Hue

Bây giờ, bạn có thể nhìn rõ hơn không?

Biểu đồ

Hãy tưởng tượng rằng tôi muốn khám phá tần suất khách hàng mua sữa nguyên kem, danh mục bán chạy nhất. Tôi sẽ sử dụng biểu đồ để có được thông tin này

Hình 8. Tần suất khách hàng mua sữa nguyên kem năm 2014 và 2015

Nhìn vào hình ảnh trực quan, chúng ta có thể thấy rằng khách hàng hầu như không mua lại mặt hàng này quá hai lần và rất nhiều khách hàng ngừng mua sản phẩm này sau lần mua đầu tiên

Biểu đồ tròn

Trên thực tế, biểu đồ hình tròn khá kém trong việc truyền đạt dữ liệu. Tuy nhiên, không hại gì khi học kỹ thuật hình dung này

Đối với dữ liệu này, tôi muốn so sánh doanh số của 10 danh mục hàng đầu với phần còn lại trong cả năm 2014 và 2015. Bây giờ, hãy chuyển đổi dữ liệu của chúng tôi để hiển thị thông tin này

Dữ liệu của chúng tôi hiện đã sẵn sàng. Hãy xem những chiếc bánh

Hình 9. Biểu đồ hình tròn

Vì vậy, rõ ràng là 10 danh mục hàng đầu được mua ít hơn trong năm 2015 so với năm 2014, bằng 5. 5%

âm mưu bầy đàn

Một cách khác để xem xét dữ liệu của bạn là biểu đồ bầy đàn. Trong biểu đồ bầy đàn, các điểm được điều chỉnh [chỉ phân loại theo chiều dọc] để chúng không chồng lên nhau. Điều này rất hữu ích vì nó bổ sung cho biểu đồ hộp khi bạn muốn hiển thị tất cả các quan sát cùng với một số biểu diễn của phân phối cơ bản

Vì tôi muốn xem số lượng hàng đã bán trong từng ngày trong tuần, tôi có thể sử dụng loại biểu đồ này để hiển thị thông tin. Như thường lệ, trước tiên hãy tính các mặt hàng đã bán và nhóm chúng theo danh mục và ngày

Sau khi chúng tôi có được dữ liệu, hãy xem biểu đồ trông như thế nào

Hình 10. Biểu đồ bầy đànKết luận

Trong bài viết này, tôi đã chỉ cho bạn cách tùy chỉnh dữ liệu của mình với các loại trực quan hóa khác nhau. Nếu thấy hữu ích bạn có thể lưu lại và xem lại bất cứ lúc nào bạn muốn. Nó có thể giúp bạn tiết kiệm rất nhiều thời gian. . D

Để tóm tắt mức độ chênh lệch hoặc biến thể của một biến định lượng, chúng ta có thể sử dụng các số liệu thống kê như phạm vi, phạm vi liên vùng, phương sai, độ lệch chuẩn và độ lệch tuyệt đối trung bình. Chúng có thể được tính như hình

Bảng cheat Python tốt nhất là gì?

Bảy bảng gian lận tốt nhất dành cho Python năm 2022 .
bảng mã Python. tổ chức
Lập trình với Mosh. Giống như Pythoncheatsheet. org, Mosh Hamedani cheat sheet bao gồm hầu hết các nguyên tắc cơ bản của Python. .
Thiết lập trang web. .
Gto76. .
Python cho khoa học dữ liệu [Bokeh].
gian lận. .
Ehmatthes. github. io

Làm cách nào tôi có thể thành thạo EDA?

Làm cách nào để thực hiện EDA? .
Nhập thư viện và tải tập dữ liệu
Kiểm tra các giá trị còn thiếu
Trực quan hóa các giá trị còn thiếu
Thay thế các giá trị còn thiếu
Đặt câu hỏi phân tích và hình dung
Tương quan tích cực
Tương quan tiêu cực

EDA là gì liệt kê các bước trong EDA?

Các bước liên quan đến phân tích dữ liệu khám phá .
Thu thập dữ liệu. Thu thập dữ liệu là một phần thiết yếu của phân tích dữ liệu khám phá. .
Dọn dẹp dữ liệu. Làm sạch dữ liệu đề cập đến quá trình loại bỏ các biến và giá trị không mong muốn khỏi tập dữ liệu của bạn và loại bỏ mọi điểm bất thường trong đó. .
Phân tích đơn biến. .
Phân tích hai biến

Hai loại dữ liệu được sử dụng trong EDA là gì?

CÁC LOẠI PHÂN TÍCH DỮ LIỆU KHÁM PHÁ. Đa biến Không đồ họa .

Chủ Đề