Con trăn thủ công

Chúng ta tận hưởng tính siêu dẫn này của dữ liệu bao nhiêu thì nó cũng mời gọi sự lạm dụng bấy nhiêu. Các chuyên gia dữ liệu cần được đào tạo để sử dụng các phương pháp thống kê không chỉ để giải thích các con số mà còn để phát hiện ra sự lạm dụng đó và bảo vệ chúng ta khỏi bị lừa

Không nhiều nhà khoa học dữ liệu được đào tạo chính thức về thống kê. Cũng có rất ít sách và khóa học hay dạy các phương pháp thống kê này từ góc độ khoa học dữ liệu

Thông qua bài đăng này, tôi dự định làm sáng tỏ những điều sau đây

  • Thống kê là gì?
  • Thống kê liên quan đến học máy
  • Tại sao bạn nên nắm vững số liệu thống kê
  • Bạn nên theo chương trình giảng dạy nào để thành thạo các chủ đề này
  • Làm thế nào để nghiên cứu thống kê để trở thành một học viên chứ không phải là một người làm bài kiểm tra
  • Mẹo thực tế và tài nguyên học tập

Thống kê là gì?

Thống kê là một tập hợp các phương pháp và công cụ toán học cho phép chúng ta trả lời các câu hỏi quan trọng về dữ liệu. Nó được chia thành hai loại

  1. Thống kê mô tả - điều này cung cấp các phương pháp để tóm tắt dữ liệu bằng cách chuyển đổi các quan sát thô thành thông tin có ý nghĩa, dễ diễn giải và chia sẻ
  2. Thống kê suy luận - điều này cung cấp các phương pháp để nghiên cứu các thí nghiệm được thực hiện trên các mẫu dữ liệu nhỏ và đưa ra các suy luận cho toàn bộ dân số [toàn bộ miền]

Giờ đây, thống kê và học máy là hai lĩnh vực nghiên cứu có liên quan chặt chẽ với nhau. Thống kê là điều kiện tiên quyết quan trọng cho ứng dụng học máy, vì nó giúp chúng ta lựa chọn, đánh giá và giải thích các mô hình dự đoán

Thống kê và Học máy

Cốt lõi của học máy tập trung vào số liệu thống kê. Bạn không thể giải quyết các vấn đề trong thế giới thực bằng máy học nếu bạn không nắm vững các nguyên tắc cơ bản về thống kê

Chắc chắn có một số yếu tố khiến việc học thống kê trở nên khó khăn. Tôi đang nói về các phương trình toán học, ký hiệu Hy Lạp và các khái niệm được định nghĩa tỉ mỉ khiến bạn khó phát triển hứng thú với chủ đề này

Chúng tôi có thể giải quyết những vấn đề này bằng các giải thích đơn giản và rõ ràng, hướng dẫn có nhịp độ phù hợp và phòng thí nghiệm thực hành để giải quyết vấn đề bằng các phương pháp thống kê được áp dụng

Từ phân tích dữ liệu khám phá đến thiết kế thí nghiệm kiểm tra giả thuyết, số liệu thống kê đóng một vai trò không thể thiếu trong việc giải quyết các vấn đề trên tất cả các ngành và lĩnh vực chính

Bất kỳ ai muốn phát triển hiểu biết sâu sắc về học máy đều nên tìm hiểu cách các phương pháp thống kê tạo thành nền tảng cho thuật toán hồi quy và thuật toán phân loại, cách thống kê cho phép chúng ta học hỏi từ dữ liệu và cách nó giúp chúng ta trích xuất ý nghĩa từ dữ liệu chưa được gắn nhãn

Tại sao bạn nên làm chủ số liệu thống kê?

Mọi tổ chức đang phấn đấu để trở thành định hướng dữ liệu. Đây là lý do tại sao chúng ta đang chứng kiến ​​​​sự gia tăng nhu cầu đối với các nhà khoa học và nhà phân tích dữ liệu

Giờ đây, để giải quyết vấn đề, trả lời câu hỏi và vạch ra chiến lược, chúng ta cần hiểu ý nghĩa của dữ liệu. May mắn thay, số liệu thống kê cung cấp một bộ công cụ để tạo ra những hiểu biết đó

Từ dữ liệu đến kiến ​​thức

Trong sự cô lập, các quan sát thô chỉ là dữ liệu. Chúng tôi sử dụng số liệu thống kê mô tả để biến những quan sát này thành thông tin chi tiết có ý nghĩa

Sau đó, chúng ta có thể sử dụng thống kê suy luận để nghiên cứu các mẫu dữ liệu nhỏ và ngoại suy những phát hiện của chúng ta cho toàn bộ dân số

Thống kê giúp trả lời các câu hỏi như

  • Những tính năng nào là quan trọng nhất?
  • Chúng ta nên thiết kế thử nghiệm như thế nào để phát triển chiến lược sản phẩm của mình?
  • Chúng ta nên đo lường những chỉ số hiệu suất nào?
  • Kết quả phổ biến nhất và mong đợi là gì?
  • Làm thế nào để chúng tôi phân biệt giữa tiếng ồn và dữ liệu hợp lệ?

Tất cả đây là những câu hỏi phổ biến và quan trọng mà các nhóm dữ liệu phải trả lời hàng ngày

Các câu trả lời giúp chúng ta đưa ra quyết định hiệu quả. Các phương pháp thống kê không chỉ giúp chúng ta thiết lập các dự án mô hình dự báo mà còn diễn giải các kết quả

Dự án thống kê và học máy

Hầu hết mọi dự án học máy đều bao gồm các nhiệm vụ sau. Và số liệu thống kê đóng một vai trò trung tâm trong tất cả chúng ở một số dạng hoặc hình thức. Đây là cách

Xác định một tuyên bố vấn đề

Phần quan trọng nhất của mô hình dự đoán là định nghĩa thực tế của vấn đề mang lại cho chúng ta mục tiêu thực sự để theo đuổi

Điều này giúp chúng tôi quyết định loại vấn đề chúng tôi đang xử lý [nghĩa là hồi quy hoặc phân loại]. Và nó cũng giúp chúng tôi quyết định cấu trúc và loại của đầu vào, đầu ra và số liệu liên quan đến mục tiêu

Nhưng định hình vấn đề không phải lúc nào cũng đơn giản. Nếu bạn chưa quen với Machine Learning, thì có thể yêu cầu khám phá đáng kể các quan sát trong miền. Hai khái niệm chính cần nắm vững ở đây là phân tích dữ liệu khám phá [EDA] và khai thác dữ liệu

Khám phá dữ liệu ban đầu

Khám phá dữ liệu liên quan đến việc hiểu sâu về cả sự phân bố của các biến và mối quan hệ giữa các biến trong dữ liệu của bạn

Một phần, kiến ​​thức chuyên môn về miền giúp bạn đạt được sự thành thạo này đối với một loại biến cụ thể. Tuy nhiên, cả chuyên gia và người mới tham gia lĩnh vực này đều được hưởng lợi từ việc thực sự xử lý các quan sát thực tế từ miền

Các khái niệm liên quan quan trọng trong thống kê giúp học thống kê mô tả và trực quan hóa dữ liệu

Dọn dẹp dữ liệu

Thông thường, các điểm dữ liệu bạn đã thu thập từ thử nghiệm hoặc kho lưu trữ dữ liệu không còn nguyên vẹn. Dữ liệu có thể đã bị xử lý hoặc thao tác làm hỏng tính toàn vẹn của nó. Điều này tiếp tục ảnh hưởng đến các quy trình hoặc mô hình xuôi dòng sử dụng dữ liệu

Các ví dụ phổ biến bao gồm thiếu giá trị, hỏng dữ liệu, lỗi dữ liệu [từ cảm biến kém] và dữ liệu không được định dạng [quan sát với các tỷ lệ khác nhau]

Nếu bạn muốn thành thạo các phương pháp làm sạch, bạn cần tìm hiểu về phát hiện ngoại lệ và quy nạp giá trị còn thiếu

Chuẩn bị dữ liệu và thiết lập các quy trình chuyển đổi

Nếu dữ liệu chứa lỗi và không nhất quán, bạn thường không thể sử dụng trực tiếp dữ liệu đó để lập mô hình

Đầu tiên, dữ liệu có thể cần trải qua một loạt các phép biến đổi để thay đổi hình dạng hoặc cấu trúc của nó và làm cho dữ liệu phù hợp hơn với vấn đề bạn đã xác định hoặc thuật toán học bạn đang sử dụng

Sau đó, bạn có thể phát triển một hệ thống các phép biến đổi như vậy mà bạn áp dụng cho dữ liệu để tạo ra đầu vào nhất quán và tương thích cho mô hình

Bạn nên nắm vững các khái niệm như lấy mẫu dữ liệu và phương pháp chọn tính năng, biến đổi dữ liệu, chia tỷ lệ và mã hóa

Lựa chọn & Đánh giá Mô hình

Một bước quan trọng trong việc giải quyết một vấn đề dự đoán là lựa chọn và đánh giá phương pháp học tập. Thống kê ước tính giúp bạn chấm điểm dự đoán mô hình trên dữ liệu không nhìn thấy

Thiết kế thử nghiệm là một trường con của thống kê thúc đẩy quá trình lựa chọn và đánh giá một mô hình. Nó đòi hỏi một sự hiểu biết tốt về các bài kiểm tra giả thuyết thống kê và thống kê ước tính

Tinh chỉnh mô hình

Hầu hết mọi thuật toán học máy đều có một bộ siêu đường kính cho phép bạn tùy chỉnh phương pháp học cho khung vấn đề bạn đã chọn

Việc điều chỉnh siêu tham số này thường mang tính chất kinh nghiệm hơn là phân tích. Nó yêu cầu các bộ thử nghiệm lớn để đánh giá tác động của các cài đặt siêu tham số khác nhau đối với hiệu suất của mô hình

Giáo trình thống kê cho học viên

Một giáo trình thống kê tốt cho các học viên không nên chỉ bao gồm vô số phương pháp và công cụ mà tôi vừa thảo luận. Nó cũng nên đề cập và khám phá những vấn đề thường gặp nhất trong ngành

Sau đây là danh sách các kỹ năng được sử dụng rộng rãi mà bạn cần biết để vượt qua các cuộc phỏng vấn về khoa học dữ liệu và ML cũng như kiếm được một công việc trong lĩnh vực này

Kỹ năng thống kê chung

  • Cách xác định các câu hỏi có thể trả lời bằng thống kê để ra quyết định hiệu quả
  • Tính toán và giải thích các số liệu thống kê phổ biến và cách sử dụng các kỹ thuật trực quan hóa dữ liệu tiêu chuẩn để truyền đạt kết quả
  • Hiểu biết về cách thống kê toán học được áp dụng cho lĩnh vực này, các khái niệm như định lý giới hạn trung tâm và luật số lớn
  • Suy luận từ các ước tính về vị trí và tính biến thiên [ANOVA]
  • Cách xác định mối quan hệ giữa biến mục tiêu và biến độc lập
  • Cách thiết kế thử nghiệm kiểm tra giả thuyết thống kê, thử nghiệm A/B, v.v.
  • Cách tính toán và diễn giải các chỉ số hiệu suất như giá trị p, lỗi alpha, lỗi loại 1 và loại 2, v.v.

Các khái niệm thống kê quan trọng

  • Bắt đầu— Hiểu các loại dữ liệu [hình chữ nhật và không phải hình chữ nhật], ước tính vị trí, ước tính độ biến thiên, phân phối dữ liệu, dữ liệu nhị phân và phân loại, tương quan, mối quan hệ giữa các loại biến khác nhau
  • Phân phối thống kê — số ngẫu nhiên, luật số lớn, Định lý giới hạn trung tâm, sai số chuẩn, v.v.
  • Lấy mẫu và phân phối dữ liệu — lấy mẫu ngẫu nhiên, sai lệch lấy mẫu, sai lệch lựa chọn, phân phối lấy mẫu, khởi động, khoảng tin cậy, phân phối chuẩn, phân phối t, phân phối nhị thức, phân phối chi bình phương, phân phối F, Poisson và phân phối hàm mũ
  • Thử nghiệm thống kê và Kiểm tra ý nghĩa— Thử nghiệm A/B, tiến hành kiểm tra giả thuyết [Null/Alternate], lấy mẫu lại, ý nghĩa thống kê, khoảng tin cậy, giá trị p, alpha, t-test, mức độ tự do, ANOVA, giá trị tới hạn, hiệp phương sai và tương quan , kích thước hiệu ứng, sức mạnh thống kê
  • Phương pháp thống kê phi tham số - xếp hạng dữ liệu, kiểm tra tính quy tắc, chuẩn hóa dữ liệu, tương quan xếp hạng, kiểm tra ý nghĩa xếp hạng, kiểm tra tính độc lập

Mẹo học tập thực tế

Hầu hết các trường đại học đã thiết kế chương trình giảng dạy môn thống kê của họ để kiểm tra khả năng nhồi nhét của sinh viên. Họ chỉ kiểm tra xem học sinh có thể giải phương trình hay không, xác định thuật ngữ và xác định đồ thị suy ra phương trình chứ không tập trung vào việc áp dụng các phương pháp này để giải các bài toán trong thế giới thực

Tuy nhiên, các học viên có tham vọng nên tuân theo quy trình từng bước học và triển khai các phương pháp thống kê cho các vấn đề khác nhau bằng cách sử dụng mã Python có thể thực thi được

Hãy xem xét hai cách tiếp cận chính để nghiên cứu thống kê sâu hơn một chút

Cách tiếp cận từ trên xuống

Giả sử bạn được yêu cầu thiết kế một thử nghiệm để kiểm tra hiệu quả của hai phiên bản tính năng sản phẩm. Tính năng này được cho là để tăng mức độ tương tác của người dùng trên một cổng thông tin trực tuyến

Với cách tiếp cận từ trên xuống, trước tiên bạn sẽ tìm hiểu thêm về vấn đề. Sau đó, khi mục tiêu rõ ràng, bạn có thể học cách áp dụng các phương pháp thống kê phù hợp

Điều này giúp bạn gắn bó và mang lại trải nghiệm học tập thực tế tốt hơn

Cách tiếp cận từ dưới lên

Cách tiếp cận này là cách mà hầu hết các trường đại học và các khóa học trực tuyến giảng dạy về thống kê. Nó tập trung vào việc học các khái niệm lý thuyết với ký hiệu toán học, lịch sử của khái niệm đó và cách thực hiện nó

Đối với những người như tôi, những người có xu hướng mất hứng thú với việc học lý thuyết, đây không phải là cách đúng đắn để học thống kê ứng dụng. Nó làm cho nó trở nên quá meta, khiến chủ đề trở nên khô khan và buồn bã mà không có bất kỳ mối liên hệ trực tiếp nào với việc giải quyết vấn đề

Như bạn có thể thấy, tôi đề xuất cách tiếp cận từ trên xuống để nghiên cứu số liệu thống kê

Vì vậy, bây giờ hãy xem xét một số tài nguyên cụ thể mà tôi đề xuất để giúp bạn bắt đầu đi đúng hướng

Tài nguyên học tập

  • Sách về thống kê thực tế - Cuốn sách này sẽ dạy cho bạn số liệu thống kê từ quan điểm Khoa học dữ liệu. Bạn nên đọc ít nhất 3 chương đầu tiên của cuốn sách này
  • Thống kê và xác suất. Khan Academy – Khóa học này sẽ giúp bạn chuẩn bị tốt cho tất cả các câu hỏi liên quan đến thống kê và xác suất trong cuộc phỏng vấn. Một khóa học miễn phí với sự tổng hợp tốt các bài giảng video và các vấn đề thực hành
  • Số liệu thống kê trần trụi – Đối với những người sợ toán học và thích hiểu các ví dụ thực tế, đây là một cuốn sách tuyệt vời giải thích cách áp dụng số liệu thống kê trong các tình huống thực tế
  • Phương pháp thống kê cho học máy - Cuốn sách này phục vụ như một khóa học cấp tốc về phương pháp thống kê cho những người thực hành học máy. Lý tưởng nhất là những người có nền tảng là nhà phát triển
Tiếp theo…

Tôi sẽ tạo một loạt hướng dẫn về từng chủ đề nêu trên theo cách tiếp cận mã đầu tiên để chúng ta có thể hiểu và hình dung ý nghĩa và ứng dụng của các khái niệm này

Nếu tôi bỏ lỡ bất kỳ chi tiết nào hoặc nếu bạn muốn tôi đề cập đến bất kỳ khía cạnh nào khác của thống kê, hãy trả lời câu chuyện này và tôi sẽ thêm nó vào chương trình giảng dạy

Khoa học dữ liệu với Harshit

Với kênh này, tôi dự định tung ra một vài loạt phim về toàn bộ lĩnh vực khoa học dữ liệu. Đây là lý do tại sao bạn nên đăng ký kênh

  • Loạt bài này sẽ bao gồm tất cả các hướng dẫn chất lượng cần thiết/được yêu cầu về từng chủ đề và chủ đề phụ như nguyên tắc cơ bản về Python cho Khoa học dữ liệu
  • Toán học được giải thích và nguồn gốc của lý do tại sao chúng tôi làm những gì chúng tôi làm trong ML và Deep Learning
  • Podcast với các nhà khoa học và kỹ sư dữ liệu tại Google, Microsoft, Amazon, v.v. và CEO của các công ty điều khiển dữ liệu lớn
  • Các dự án và hướng dẫn thực hiện các chủ đề đã học cho đến nay. Tìm hiểu về các chứng chỉ mới, Bootcamp và tài nguyên để đạt được các chứng chỉ đó như Kỳ thi chứng chỉ nhà phát triển TensorFlow này của Google

Nếu hướng dẫn này hữu ích, bạn nên xem các khóa học về khoa học dữ liệu và máy học của tôi trên Wiplane Academy. Chúng toàn diện nhưng nhỏ gọn và giúp bạn xây dựng một nền tảng công việc vững chắc để giới thiệu

QUẢNG CÁO

QUẢNG CÁO

QUẢNG CÁO

QUẢNG CÁO

QUẢNG CÁO

QUẢNG CÁO

QUẢNG CÁO

QUẢNG CÁO

QUẢNG CÁO

QUẢNG CÁO

khắc nghiệt tyagi

Tư vấn khoa học dữ liệu và web. thiết kế giảng dạy

Nếu bạn đọc đến đây, hãy tweet cho tác giả để cho họ thấy bạn quan tâm. Tweet một lời cảm ơn

Học cách viết mã miễn phí. Chương trình giảng dạy mã nguồn mở của freeCodeCamp đã giúp hơn 40.000 người có được việc làm với tư cách là nhà phát triển. Bắt đầu

Chủ Đề