Trong những năm qua, dữ liệu là một phần thiết yếu trong cách thế giới vận hành. Dữ liệu này có thể bao gồm từ GDP đến mẫu máu đến mọi khía cạnh của thế giới. Khi dữ liệu của chúng tôi tăng lên, số liệu thống kê đã tìm ra cách để rút ra nhiều ý nghĩa hơn từ chúng
Một trong những phương pháp này được gọi là Phân tích phương sai [ANOVA]. ANOVA là một tập hợp các mô hình thống kê phân tích sự khác biệt giữa các phương tiện. Microsoft đã đưa ra các bổ trợ thống kê trong Excel để giải quyết những vấn đề này. Tuy nhiên, Microsoft Excel vẫn còn một số hạn chế. Sau đó là các công cụ như R-studio và Python
Với Python, việc kiểm tra tính quy tắc và tính đồng nhất trở nên dễ dàng hơn. Hướng dẫn này sẽ tập trung vào việc tạo bảng ANOVA bằng Microsoft Excel, vẽ các ô vuông để kiểm tra tính quy tắc của ANOVA một chiều và quy tắc Bartlett về tính đồng nhất với Python
điều kiện tiên quyết
Hướng dẫn này yêu cầu người đọc phải có kiến thức phù hợp về những điều sau đây
- Phân tích phương sai [ANOVA]. Đây là một liên kết đến tài liệu của họ
- Microsoft Excel
- con trăn
Ghi bàn
Vào cuối hướng dẫn, người đọc sẽ có thể
- Sử dụng Excel để tạo bảng ANOVA
- Cài đặt các phụ thuộc Python cần thiết để tạo biểu đồ hộp
- Kiểm tra tính quy phạm bằng biểu đồ hộp
- Kiểm tra tính đồng nhất bằng quy tắc Bartlett
Thiết lập môi trường
Chúng tôi sẽ cần cài đặt Python và một số phụ thuộc của nó để bắt đầu. Đây là liên kết để tải xuống tệp thực thi Python mới nhất dựa trên hệ điều hành của bạn
Chúng ta cần cài đặt các phụ thuộc sau
- gấu trúc
- matplotlib
- sinh ra biển
Cài đặt pandas, matplotlib, seaborn
Có một số phương pháp để cài đặt các phụ thuộc Python, phổ biến nhất là sử dụng các trình quản lý gói như pip hoặc conda
Để cài đặt pandas
, chúng tôi sẽ cần
- Mở thiết bị đầu cuối của chúng tôi [dấu nhắc lệnh hoặc thiết bị đầu cuối IDE của chúng tôi]
Ghi chú. Nếu bạn đang sử dụng dấu nhắc lệnh, hãy đảm bảo thêm thư mục mặc định vào PATH
- Nhập lệnh sau
python -m pip install pandas
Đợi một lát cho đến khi phần phụ thuộc được cài đặt. Tiếp theo, chúng tôi sẽ làm theo các bước tương tự cho các phụ thuộc khác bằng cách sử dụng các lệnh sau tương ứng
python -m pip install matplotlib
python -m pip install seaborn
Sau khi cài đặt các phụ thuộc này, chúng ta sẽ tạo bảng ANOVA bằng Excel
Bắt đầu
Tạo bảng ANOVA bằng Excel
Bổ trợ Toolpak của Microsoft Excels là công cụ thay đổi cuộc chơi trong Phân tích thống kê. Chúng tôi sẽ chỉ cho bạn cách tạo bảng ANOVA chứa tổng bình phương, bậc tự do, bình phương trung bình, giá trị F, giá trị P, F tới hạn
Để thực hiện ANOVA một chiều, hãy thực hiện bước sau
- Nhập tập dữ liệu của bạn ở bất kỳ định dạng Excel ưa thích nào
- Chuyển đến tab Dữ liệu, nhấp vào tab phụ Phân tích dữ liệu. Nếu bạn không thể tìm thấy tab phụ, hãy kiểm tra tiêu đề phụ bên dưới
- Chọn ANOVA. yếu tố duy nhất và nhấp vào ok
- Nhấp vào phạm vi đầu vào và đánh dấu tập dữ liệu bạn muốn sử dụng
Ghi chú. Chỉ đánh dấu các số trong tập dữ liệu
- Bạn có thể quyết định xem bạn muốn xem nó trong cùng một bảng tính hay một bảng tính khác
Trong bảng ANOVA của chúng tôi ở trên, chúng tôi đã phân tích tổng bình phương và các giá trị khác của ANOVA. Với điều này, chúng ta có thể giải ANOVA một chiều bằng Microsoft Excel
bộ công cụ phân tích
Bộ công cụ phân tích là một phần bổ trợ cần thiết cho những gì chúng tôi đang cố gắng thực hiện. Để tải add-in, chúng ta sẽ làm như sau
- Nhấp vào nút tệp hoặc logo Microsoft ở góc trên cùng bên trái
- Chọn tùy chọn Excel và cuộn xuống phần bổ trợ
- Ra khỏi danh sách, chọn Analysis Toolpak và nhấp vào
Go
- Kiểm tra trên Analysis Toolpak và chọn
0python -m pip install matplotlib
- Quay lại tab Dữ liệu và bạn sẽ thấy tab phụ phân tích dữ liệu
Kiểm tra tính quy phạm bằng cách sử dụng các ô hộp
Chúng tôi sẽ tạo một tệp Python và nhập Pandas, Matplotlib và Seaborn vào mã của chúng tôi. Pandas, Matplotlib & Seaborn là các thư viện Python được sử dụng để phân tích dữ liệu
Những thư viện này có tầm quan trọng lớn trong trực quan hóa dữ liệu. Pandas nhập hàng tấn định dạng dữ liệu, trong khi Matplotlib và Seaborn là các thư viện trực quan hóa được sử dụng để tạo trực quan hóa mạnh mẽ. Seaborn là một thư viện biên dịch đồ họa thống kê bằng Python
Tiếp theo, chúng tôi sẽ đọc tập dữ liệu của mình bằng phương pháp
python -m pip install matplotlib
1 từ thư viện gấu trúc [chúng tôi đã sử dụng định dạng tệp CSV]. Chúng tôi sẽ định hình lại khung dữ liệu phù hợp với gói mô hình thống kê bằng cách sử dụng phương pháp python -m pip install matplotlib
2 và thay thế các tên cột trong dòng bên dưới nó từ thư viện gấu trúcSau đó, chúng tôi sẽ tạo một biểu đồ hộp để xem phân phối dữ liệu theo các phương pháp xử lý bằng cách sử dụng công cụ seaborn của chúng tôi và hàm
python -m pip install matplotlib
0 để hiển thị biểu đồ hộp của chúng tôiGhi chú. Khi đọc từ một thư mục, hãy sử dụng dấu gạch chéo ngược kép hoặc đặt
1 ở phía trước địa chỉ thư mục được đặt trong ký hiệu trích dẫnpython -m pip install matplotlib
Dưới đây là một thực hiện các hướng dẫn ở trên
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
data_set = pd.read_csv[r"C:\Users\DELL\Desktop\one-way-anova-excel-testing-normality-homogeneity-using-python\assignments.csv"]
data_set_melt = pd.melt[data_set.reset_index[], id_vars=['index'], value_vars=['A', 'B', 'C', 'D', 'E']]
data_set_melt.columns = ['index', 'treatments', 'value']
ax = sns.boxplot[x='treatments', y='value', data=data_set_melt, color='#99c2a2']
ax = sns.swarmplot[x="treatments", y="value", data=data_set_melt, color='#7d0013']
plt.show[]
Về việc thực hiện, cốt truyện được hiển thị dưới đây
Kiểm tra tính đồng nhất bằng quy tắc Bartlett
Trước khi chúng tôi hiển thị quy trình liên quan, chúng tôi sẽ nói một chút về quy tắc này. Maurice Stevenson Bartlett đã phát minh ra quy tắc. Đây là một quy trình được sử dụng để kiểm tra xem các mẫu được lấy từ các quần thể khác nhau có cùng phương sai hay không
Nó kiểm tra giả định rằng sự khác biệt về quy mô nhóm là bằng nhau giữa các nhóm. Cấu trúc thông thường của bài kiểm tra này bao gồm
- Tạo một giả thuyết [không và thay thế]
- Tính toán thống kê kiểm tra
- Tìm giá trị tới hạn
- kết luận
Tin tốt. Python đã biên dịch các quy trình này thành một dòng mã ngắn. Để làm điều này, chúng tôi sẽ nhập
python -m pip install matplotlib
2 và gọi phương thức của Bartlett trên tập dữ liệu của chúng tôiVí dụ
A = 7,12,14,19,7
B = 7,17,18,25,10
C = 15,12,18,22,11
D = 11,18,19,19,15
E = 9,18,19,23,11
import scipy.stats as stats
print[stats.bartlett[A, B, C, D, E]]
Khi chúng tôi chạy mã ở trên trên thiết bị đầu cuối của mình, chúng tôi sẽ nhận được
Phần kết luận
Chúng ta có thể tiến hành một số thử nghiệm về tính quy tắc và tính đồng nhất trong ANOVA bằng Python. Trong bài viết này, chúng ta đã học cách kiểm tra tính quy tắc với các ô hộp và tính đồng nhất với quy tắc Bartlett