Con trăn thủ công
Chúng ta tận hưởng tính siêu dẫn này của dữ liệu bao nhiêu thì nó cũng mời gọi sự lạm dụng bấy nhiêu. Các chuyên gia dữ liệu cần được đào tạo để sử dụng các phương pháp thống kê không chỉ để giải thích các con số mà còn để phát hiện ra sự lạm dụng đó và bảo vệ chúng ta khỏi bị lừa Show
Không nhiều nhà khoa học dữ liệu được đào tạo chính thức về thống kê. Cũng có rất ít sách và khóa học hay dạy các phương pháp thống kê này từ góc độ khoa học dữ liệu Thông qua bài đăng này, tôi dự định làm sáng tỏ những điều sau đây
Thống kê là gì?Thống kê là một tập hợp các phương pháp và công cụ toán học cho phép chúng ta trả lời các câu hỏi quan trọng về dữ liệu. Nó được chia thành hai loại
Giờ đây, thống kê và học máy là hai lĩnh vực nghiên cứu có liên quan chặt chẽ với nhau. Thống kê là điều kiện tiên quyết quan trọng cho ứng dụng học máy, vì nó giúp chúng ta lựa chọn, đánh giá và giải thích các mô hình dự đoán Thống kê và Học máyCốt lõi của học máy tập trung vào số liệu thống kê. Bạn không thể giải quyết các vấn đề trong thế giới thực bằng máy học nếu bạn không nắm vững các nguyên tắc cơ bản về thống kê Chắc chắn có một số yếu tố khiến việc học thống kê trở nên khó khăn. Tôi đang nói về các phương trình toán học, ký hiệu Hy Lạp và các khái niệm được định nghĩa tỉ mỉ khiến bạn khó phát triển hứng thú với chủ đề này Chúng tôi có thể giải quyết những vấn đề này bằng các giải thích đơn giản và rõ ràng, hướng dẫn có nhịp độ phù hợp và phòng thí nghiệm thực hành để giải quyết vấn đề bằng các phương pháp thống kê được áp dụng Từ phân tích dữ liệu khám phá đến thiết kế thí nghiệm kiểm tra giả thuyết, số liệu thống kê đóng một vai trò không thể thiếu trong việc giải quyết các vấn đề trên tất cả các ngành và lĩnh vực chính Bất kỳ ai muốn phát triển hiểu biết sâu sắc về học máy đều nên tìm hiểu cách các phương pháp thống kê tạo thành nền tảng cho thuật toán hồi quy và thuật toán phân loại, cách thống kê cho phép chúng ta học hỏi từ dữ liệu và cách nó giúp chúng ta trích xuất ý nghĩa từ dữ liệu chưa được gắn nhãn Tại sao bạn nên làm chủ số liệu thống kê?Mọi tổ chức đang phấn đấu để trở thành định hướng dữ liệu. Đây là lý do tại sao chúng ta đang chứng kiến sự gia tăng nhu cầu đối với các nhà khoa học và nhà phân tích dữ liệu Giờ đây, để giải quyết vấn đề, trả lời câu hỏi và vạch ra chiến lược, chúng ta cần hiểu ý nghĩa của dữ liệu. May mắn thay, số liệu thống kê cung cấp một bộ công cụ để tạo ra những hiểu biết đó Từ dữ liệu đến kiến thứcTrong sự cô lập, các quan sát thô chỉ là dữ liệu. Chúng tôi sử dụng số liệu thống kê mô tả để biến những quan sát này thành thông tin chi tiết có ý nghĩa Sau đó, chúng ta có thể sử dụng thống kê suy luận để nghiên cứu các mẫu dữ liệu nhỏ và ngoại suy những phát hiện của chúng ta cho toàn bộ dân số Thống kê giúp trả lời các câu hỏi như
Tất cả đây là những câu hỏi phổ biến và quan trọng mà các nhóm dữ liệu phải trả lời hàng ngày Các câu trả lời giúp chúng ta đưa ra quyết định hiệu quả. Các phương pháp thống kê không chỉ giúp chúng ta thiết lập các dự án mô hình dự báo mà còn diễn giải các kết quả Dự án thống kê và học máyHầu hết mọi dự án học máy đều bao gồm các nhiệm vụ sau. Và số liệu thống kê đóng một vai trò trung tâm trong tất cả chúng ở một số dạng hoặc hình thức. Đây là cách Xác định một tuyên bố vấn đềPhần quan trọng nhất của mô hình dự đoán là định nghĩa thực tế của vấn đề mang lại cho chúng ta mục tiêu thực sự để theo đuổi Điều này giúp chúng tôi quyết định loại vấn đề chúng tôi đang xử lý (nghĩa là hồi quy hoặc phân loại). Và nó cũng giúp chúng tôi quyết định cấu trúc và loại của đầu vào, đầu ra và số liệu liên quan đến mục tiêu Nhưng định hình vấn đề không phải lúc nào cũng đơn giản. Nếu bạn chưa quen với Machine Learning, thì có thể yêu cầu khám phá đáng kể các quan sát trong miền. Hai khái niệm chính cần nắm vững ở đây là phân tích dữ liệu khám phá (EDA) và khai thác dữ liệu Khám phá dữ liệu ban đầuKhám phá dữ liệu liên quan đến việc hiểu sâu về cả sự phân bố của các biến và mối quan hệ giữa các biến trong dữ liệu của bạn Một phần, kiến thức chuyên môn về miền giúp bạn đạt được sự thành thạo này đối với một loại biến cụ thể. Tuy nhiên, cả chuyên gia và người mới tham gia lĩnh vực này đều được hưởng lợi từ việc thực sự xử lý các quan sát thực tế từ miền Các khái niệm liên quan quan trọng trong thống kê giúp học thống kê mô tả và trực quan hóa dữ liệu Dọn dẹp dữ liệuThông thường, các điểm dữ liệu bạn đã thu thập từ thử nghiệm hoặc kho lưu trữ dữ liệu không còn nguyên vẹn. Dữ liệu có thể đã bị xử lý hoặc thao tác làm hỏng tính toàn vẹn của nó. Điều này tiếp tục ảnh hưởng đến các quy trình hoặc mô hình xuôi dòng sử dụng dữ liệu Các ví dụ phổ biến bao gồm thiếu giá trị, hỏng dữ liệu, lỗi dữ liệu (từ cảm biến kém) và dữ liệu không được định dạng (quan sát với các tỷ lệ khác nhau) Nếu bạn muốn thành thạo các phương pháp làm sạch, bạn cần tìm hiểu về phát hiện ngoại lệ và quy nạp giá trị còn thiếu Chuẩn bị dữ liệu và thiết lập các quy trình chuyển đổiNếu dữ liệu chứa lỗi và không nhất quán, bạn thường không thể sử dụng trực tiếp dữ liệu đó để lập mô hình Đầu tiên, dữ liệu có thể cần trải qua một loạt các phép biến đổi để thay đổi hình dạng hoặc cấu trúc của nó và làm cho dữ liệu phù hợp hơn với vấn đề bạn đã xác định hoặc thuật toán học bạn đang sử dụng Sau đó, bạn có thể phát triển một hệ thống các phép biến đổi như vậy mà bạn áp dụng cho dữ liệu để tạo ra đầu vào nhất quán và tương thích cho mô hình Bạn nên nắm vững các khái niệm như lấy mẫu dữ liệu và phương pháp chọn tính năng, biến đổi dữ liệu, chia tỷ lệ và mã hóa Lựa chọn & Đánh giá Mô hìnhMột bước quan trọng trong việc giải quyết một vấn đề dự đoán là lựa chọn và đánh giá phương pháp học tập. Thống kê ước tính giúp bạn chấm điểm dự đoán mô hình trên dữ liệu không nhìn thấy Thiết kế thử nghiệm là một trường con của thống kê thúc đẩy quá trình lựa chọn và đánh giá một mô hình. Nó đòi hỏi một sự hiểu biết tốt về các bài kiểm tra giả thuyết thống kê và thống kê ước tính Tinh chỉnh mô hìnhHầu hết mọi thuật toán học máy đều có một bộ siêu đường kính cho phép bạn tùy chỉnh phương pháp học cho khung vấn đề bạn đã chọn Việc điều chỉnh siêu tham số này thường mang tính chất kinh nghiệm hơn là phân tích. Nó yêu cầu các bộ thử nghiệm lớn để đánh giá tác động của các cài đặt siêu tham số khác nhau đối với hiệu suất của mô hình Giáo trình thống kê cho học viênMột giáo trình thống kê tốt cho các học viên không nên chỉ bao gồm vô số phương pháp và công cụ mà tôi vừa thảo luận. Nó cũng nên đề cập và khám phá những vấn đề thường gặp nhất trong ngành Sau đây là danh sách các kỹ năng được sử dụng rộng rãi mà bạn cần biết để vượt qua các cuộc phỏng vấn về khoa học dữ liệu và ML cũng như kiếm được một công việc trong lĩnh vực này Kỹ năng thống kê chung
Các khái niệm thống kê quan trọng
Mẹo học tập thực tếHầu hết các trường đại học đã thiết kế chương trình giảng dạy môn thống kê của họ để kiểm tra khả năng nhồi nhét của sinh viên. Họ chỉ kiểm tra xem học sinh có thể giải phương trình hay không, xác định thuật ngữ và xác định đồ thị suy ra phương trình chứ không tập trung vào việc áp dụng các phương pháp này để giải các bài toán trong thế giới thực Tuy nhiên, các học viên có tham vọng nên tuân theo quy trình từng bước học và triển khai các phương pháp thống kê cho các vấn đề khác nhau bằng cách sử dụng mã Python có thể thực thi được Hãy xem xét hai cách tiếp cận chính để nghiên cứu thống kê sâu hơn một chút Cách tiếp cận từ trên xuốngGiả sử bạn được yêu cầu thiết kế một thử nghiệm để kiểm tra hiệu quả của hai phiên bản tính năng sản phẩm. Tính năng này được cho là để tăng mức độ tương tác của người dùng trên một cổng thông tin trực tuyến Với cách tiếp cận từ trên xuống, trước tiên bạn sẽ tìm hiểu thêm về vấn đề. Sau đó, khi mục tiêu rõ ràng, bạn có thể học cách áp dụng các phương pháp thống kê phù hợp Điều này giúp bạn gắn bó và mang lại trải nghiệm học tập thực tế tốt hơn Cách tiếp cận từ dưới lênCách tiếp cận này là cách mà hầu hết các trường đại học và các khóa học trực tuyến giảng dạy về thống kê. Nó tập trung vào việc học các khái niệm lý thuyết với ký hiệu toán học, lịch sử của khái niệm đó và cách thực hiện nó Đối với những người như tôi, những người có xu hướng mất hứng thú với việc học lý thuyết, đây không phải là cách đúng đắn để học thống kê ứng dụng. Nó làm cho nó trở nên quá meta, khiến chủ đề trở nên khô khan và buồn bã mà không có bất kỳ mối liên hệ trực tiếp nào với việc giải quyết vấn đề Như bạn có thể thấy, tôi đề xuất cách tiếp cận từ trên xuống để nghiên cứu số liệu thống kê Vì vậy, bây giờ hãy xem xét một số tài nguyên cụ thể mà tôi đề xuất để giúp bạn bắt đầu đi đúng hướng Tài nguyên học tập
Tôi sẽ tạo một loạt hướng dẫn về từng chủ đề nêu trên theo cách tiếp cận mã đầu tiên để chúng ta có thể hiểu và hình dung ý nghĩa và ứng dụng của các khái niệm này Nếu tôi bỏ lỡ bất kỳ chi tiết nào hoặc nếu bạn muốn tôi đề cập đến bất kỳ khía cạnh nào khác của thống kê, hãy trả lời câu chuyện này và tôi sẽ thêm nó vào chương trình giảng dạy Khoa học dữ liệu với HarshitVới kênh này, tôi dự định tung ra một vài loạt phim về toàn bộ lĩnh vực khoa học dữ liệu. Đây là lý do tại sao bạn nên đăng ký kênh
Nếu hướng dẫn này hữu ích, bạn nên xem các khóa học về khoa học dữ liệu và máy học của tôi trên Wiplane Academy. Chúng toàn diện nhưng nhỏ gọn và giúp bạn xây dựng một nền tảng công việc vững chắc để giới thiệu QUẢNG CÁO QUẢNG CÁO QUẢNG CÁO QUẢNG CÁO QUẢNG CÁO QUẢNG CÁO QUẢNG CÁO QUẢNG CÁO QUẢNG CÁO QUẢNG CÁO Tư vấn khoa học dữ liệu và web. thiết kế giảng dạy Nếu bạn đọc đến đây, hãy tweet cho tác giả để cho họ thấy bạn quan tâm. Tweet một lời cảm ơn Học cách viết mã miễn phí. Chương trình giảng dạy mã nguồn mở của freeCodeCamp đã giúp hơn 40.000 người có được việc làm với tư cách là nhà phát triển. Bắt đầu |