Exploratory Data Analysis — EDA là một bước không thể thiếu trong khai phá dữ liệu. Để giải thích các khía cạnh khác nhau của tập dữ liệu như phân phối, nguyên tắc hoặc nhiễu, cần phải trực quan hóa dữ liệu của chúng tôi trong các biểu đồ hoặc hình ảnh khác nhau. May mắn thay, Python cung cấp rất nhiều thư viện giúp việc trực quan hóa trở nên thuận tiện và dễ dàng hơn bao giờ hết. Một số trong đó được sử dụng rộng rãi hiện nay như Matplotlib, Seaborn, Plotly hay Bokeh
Vì công việc của tôi tập trung vào việc xem xét kỹ lưỡng mọi khía cạnh của dữ liệu nên tôi đã tiếp xúc với nhiều loại biểu đồ. Tuy nhiên, do có quá nhiều hàm và mã không dễ nhớ nên đôi khi tôi quên mất cú pháp và phải xem lại hoặc tìm kiếm các mã tương tự trên Internet. Không còn nghi ngờ gì nữa, nó đã lãng phí rất nhiều thời gian của tôi, vì vậy động lực của tôi để viết bài này. Hy vọng có thể giúp ích chút ít cho bạn nào có kỉ niệm về cá vàng như mình
mô tả dữ liệuTập dữ liệu của tôi được tải xuống từ tập dữ liệu Kaggle công khai. Đây là tập dữ liệu tạp hóa và bạn có thể dễ dàng lấy dữ liệu từ liên kết bên dưới
tập dữ liệu cửa hàng tạp hóa
Bộ dữ liệu gồm 38765 hàng cho Phân tích rổ thị trường
www. kaggle. com
Dữ liệu tạp hóa này bao gồm 3 cột, đó là
- Số thành viên. số id của khách hàng
- Ngày. ngày mua
- mô tả món hàng. Tên mục
Bây giờ, hãy xem khung dữ liệu và thông tin của nó
Có một số gói chúng ta nên nhập trước
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline
Trực quan hóa dữ liệuBiểu đồ đường
Đối với phần này, tôi sẽ sử dụng biểu đồ đường để hình dung doanh thu của cửa hàng tạp hóa trong thời gian 2 năm 2014 và 2015
Đầu tiên mình sẽ biến đổi khung dữ liệu một chút để lấy các item được tính theo tháng và năm
Hình 3. Các mặt hàng được tính theo tháng-nămSau khi chúng tôi có dữ liệu của mình, hãy thử hình dung nó
hinh 4. Biểu đồ đường của các mục được tính theo tháng-nămBiểu đồ cột
Biểu đồ thanh được sử dụng để mô phỏng xu hướng thay đổi của đối tượng theo thời gian hoặc để so sánh các số liệu/hệ số của đối tượng. Biểu đồ thanh thường có hai trục. một trục là đối tượng/yếu tố cần phân tích, trục còn lại là các tham số của đối tượng
Đối với tập dữ liệu này, tôi sẽ sử dụng biểu đồ thanh để trực quan hóa 10 danh mục bán chạy nhất trong năm 2014 và 2015. Bạn có thể hiển thị nó bằng biểu đồ thanh ngang hoặc dọc. Hãy xem nó trông như thế nào
Chuyển đổi dữ liệu
Biểu đồ thanh ngang
Hình 5. Biểu đồ thanh ngangNếu bạn thích biểu đồ thanh dọc, hãy thử điều này
Hình 6. Biểu đồ thanh dọcBiểu đồ thanh có giá trị Hue
Nếu bạn muốn so sánh doanh số bán hàng của từng danh mục theo năm, hình dung của bạn sẽ như thế nào?
Hình 7. Biểu đồ thanh có giá trị HueBây giờ, bạn có thể nhìn rõ hơn không?
Biểu đồ
Hãy tưởng tượng rằng tôi muốn khám phá tần suất khách hàng mua sữa nguyên kem, danh mục bán chạy nhất. Tôi sẽ sử dụng biểu đồ để có được thông tin này
Hình 8. Tần suất khách hàng mua sữa nguyên kem năm 2014 và 2015Nhìn vào hình ảnh trực quan, chúng ta có thể thấy rằng khách hàng hầu như không mua lại mặt hàng này quá hai lần và rất nhiều khách hàng ngừng mua sản phẩm này sau lần mua đầu tiên
Biểu đồ tròn
Trên thực tế, biểu đồ hình tròn khá kém trong việc truyền đạt dữ liệu. Tuy nhiên, không hại gì khi học kỹ thuật hình dung này
Đối với dữ liệu này, tôi muốn so sánh doanh số của 10 danh mục hàng đầu với phần còn lại trong cả năm 2014 và 2015. Bây giờ, hãy chuyển đổi dữ liệu của chúng tôi để hiển thị thông tin này
Dữ liệu của chúng tôi hiện đã sẵn sàng. Hãy xem những chiếc bánh
Hình 9. Biểu đồ hình trònVì vậy, rõ ràng là 10 danh mục hàng đầu được mua ít hơn trong năm 2015 so với năm 2014, bằng 5. 5%
âm mưu bầy đàn
Một cách khác để xem xét dữ liệu của bạn là biểu đồ bầy đàn. Trong biểu đồ bầy đàn, các điểm được điều chỉnh [chỉ phân loại theo chiều dọc] để chúng không chồng lên nhau. Điều này rất hữu ích vì nó bổ sung cho biểu đồ hộp khi bạn muốn hiển thị tất cả các quan sát cùng với một số biểu diễn của phân phối cơ bản
Vì tôi muốn xem số lượng hàng đã bán trong từng ngày trong tuần, tôi có thể sử dụng loại biểu đồ này để hiển thị thông tin. Như thường lệ, trước tiên hãy tính các mặt hàng đã bán và nhóm chúng theo danh mục và ngày
Sau khi chúng tôi có được dữ liệu, hãy xem biểu đồ trông như thế nào
Hình 10. Biểu đồ bầy đànKết luậnTrong bài viết này, tôi đã chỉ cho bạn cách tùy chỉnh dữ liệu của mình với các loại trực quan hóa khác nhau. Nếu thấy hữu ích bạn có thể lưu lại và xem lại bất cứ lúc nào bạn muốn. Nó có thể giúp bạn tiết kiệm rất nhiều thời gian. . D
Để tóm tắt mức độ chênh lệch hoặc biến thể của một biến định lượng, chúng ta có thể sử dụng các số liệu thống kê như phạm vi, phạm vi liên vùng, phương sai, độ lệch chuẩn và độ lệch tuyệt đối trung bình. Chúng có thể được tính như hình