Nếu bạn đã nghiên cứu khoa học dữ liệu một thời gian, bạn có thể biết rằng để học khoa học dữ liệu, bạn cần học toán, thống kê và lập trình. Đây là một khởi đầu tốt cho bất kỳ ai quan tâm đến khoa học dữ liệu, nhưng bạn có biết cách tiếp xúc nhiều hơn với khoa học dữ liệu không?
Đó là với các dự án. Một dự án sẽ giúp bạn áp dụng tất cả kiến thức mà bạn có được từ toán học, thống kê và lập trình vào thực tế. Cho đến nay, bạn có thể đã nhìn thấy từng lĩnh vực riêng lẻ, nhưng sau khi bạn hoàn thành một dự án, các khái niệm bạn đã học được trong từng lĩnh vực sẽ có ý nghĩa hơn
Trong bài viết này, tôi đã liệt kê một số dự án khoa học dữ liệu đầu cuối mà bạn có thể thực hiện với Python. Các dự án được liệt kê theo độ khó, vì vậy các dự án mới bắt đầu ở phần đầu, trong khi các dự án nâng cao ở cuối bài viết
Ghi chú. Hầu hết các dự án được liệt kê trong bài viết này đều yêu cầu kiến thức khá về Python. Ít nhất bạn nên biết những điều cơ bản về các thư viện như Pandas, Numpy và Scikit-learning, v.v. Mình sẽ để lại source code của từng project cũng như hướng dẫn các thư viện sử dụng trong từng project. Nếu bạn vẫn là người mới bắt đầu học Python, tôi khuyên bạn nên bắt đầu với các dự án Python cơ bản trước
Điều đầu tiên trước tiên — Tìm hiểu phân tích dữ liệu khám pháHầu hết các dự án trong thế giới thực mà bạn sẽ giải quyết trong tương lai cũng như một số dự án được liệt kê trong bài viết này sẽ yêu cầu bạn thực hiện EDA [phân tích dữ liệu khám phá]. Bước này rất cần thiết trong mọi dự án khoa học dữ liệu vì nó giúp bạn hiểu dữ liệu của mình và có được những hiểu biết hữu ích bằng các kỹ thuật trực quan hóa
EDA cũng giúp hiển thị các kết quả không mong muốn và các giá trị ngoại lệ trong dữ liệu của bạn. Ví dụ: các biểu đồ như biểu đồ, boxplot và barplot sẽ giúp bạn xác định các giá trị ngoại lai, nhờ đó bạn có thể loại bỏ chúng và thực hiện phân tích tốt hơn
Ảnh của Myriam Jessier trên Bapt
Tôi không tính EDA là một dự án trong danh sách này vì nó thường không phải là mục tiêu cuối cùng của dự án mà là điều bạn phải làm để thực hiện phân tích tốt hơn. Để tìm hiểu cách thực hiện EDA, hãy xem hướng dẫn này sẽ giới thiệu cho bạn cách trực quan hóa dữ liệu trong Python. Trong hướng dẫn, bạn sẽ phải có được thông tin chi tiết từ bộ dữ liệu chứa số liệu thống kê của các cầu thủ bóng đá. Ngoài ra, hãy xem hướng dẫn khác này để tìm hiểu các phương pháp hay nhất về làm sạch dữ liệu trong Python. Hướng dẫn thứ hai này sẽ chỉ cho bạn cách xác định và xử lý các giá trị ngoại lai bằng cách sử dụng các sơ đồ bạn đã học được trong hướng dẫn đầu tiên
Dự án đầu tiên của danh sách này là xây dựng một mô hình học máy dự đoán cảm xúc của một bài phê bình phim. Phân tích tình cảm là một kỹ thuật NLP được sử dụng để xác định xem dữ liệu là tích cực, tiêu cực hay trung tính. Nó thực sự hữu ích cho các doanh nghiệp vì nó giúp hiểu được ý kiến chung của khách hàng của họ
Đối với dự án này, bạn sẽ sử dụng bộ dữ liệu IMDB chứa 50 nghìn bài đánh giá phim. với 2 cột [đánh giá và tình cảm]. Mục tiêu là xây dựng mô hình học máy tốt nhất để dự đoán cảm xúc khi đánh giá phim. Để làm cho dự án này trở nên thân thiện với người mới bắt đầu, bạn chỉ cần dự đoán xem đánh giá phim là tích cực hay tiêu cực. Điều này được gọi là phân loại văn bản nhị phân vì chỉ có hai kết quả có thể xảy ra
Ảnh của AbsolutVision trên Pixabay
- Thư viện [bao gồm hướng dẫn]. Pandas, Scikit-learning
- Mã nguồn. Phân tích tình cảm trong Python [Phân loại văn bản]
Một trong những điều làm cho dự án đầu tiên này trở nên đặc biệt là bạn sẽ khám phá thư viện scikit-learning trong khi xây dựng một mô hình máy học cơ bản từ đầu
Dự án phát hiệnCó rất nhiều dự án “dò tìm” bạn có thể làm với Python. Thay vì chỉ nêu tên một cái, tôi sẽ liệt kê theo mức độ khó mà tôi đã triển khai với Python
2. Phát hiện tin giả
Dự án phát hiện thân thiện với người mới bắt đầu nhất có lẽ là Fake News Detection. Tin giả tràn lan khắp nơi trên internet. Điều này gây hoang mang, hoang mang trong nhân dân. Đây là lý do tại sao điều quan trọng là phải xác định tính xác thực của thông tin. May mắn thay, chúng ta có thể sử dụng Python để giải quyết dự án khoa học dữ liệu này
Ảnh của Roman Kraft trên Bapt
- Thư viện [bao gồm hướng dẫn]. Scikit learn [và PassiveAggressiveClassifier], Pandas và Numpy
- Mã nguồn. Phát hiện tin giả
Mục tiêu của dự án này là tách tin thật khỏi tin giả. Để làm như vậy, chúng tôi sẽ sử dụng các công cụ của sklearn như TfidfVectorizer và PassiveAggressiveClassifier
3. Phát hiện gian lận thẻ tín dụng
Nếu bạn muốn thực hiện loại dự án này khó khăn hơn một chút, bạn có thể thử phát hiện gian lận thẻ tín dụng. Gian lận thẻ tín dụng khiến cả người tiêu dùng và công ty thiệt hại hàng tỷ đô la trong khi những kẻ lừa đảo tiếp tục cố gắng tìm ra những cách mới để thực hiện những hành động bất hợp pháp này. Đây là lý do tại sao các hệ thống phát hiện gian lận đã trở nên thiết yếu đối với các ngân hàng để giảm thiểu tổn thất
Trong dự án này, bạn nên phân tích hành vi chi tiêu của khách hàng từ bộ dữ liệu chứa lịch sử giao dịch. Các biến như vị trí sẽ giúp bạn xác định các giao dịch gian lận
Ảnh của runixen. com trên Unsplash
- Thư viện [bao gồm hướng dẫn]. Pandas, Numpy, Matplolib, Scikit-learning, Thuật toán học máy [XGBoost, Rừng ngẫu nhiên, KNN, Hồi quy logistic, SVM và cây quyết định]
- Mã nguồn. Phát hiện gian lận thẻ tín dụng với Machine Learning trong Python
Chatbot chỉ là một chương trình mô phỏng cuộc trò chuyện của con người thông qua lệnh thoại hoặc trò chuyện bằng văn bản. Chatbot nâng cao được xây dựng bằng trí tuệ nhân tạo và được sử dụng trong hầu hết các ứng dụng nhắn tin bạn có trên điện thoại
Mặc dù việc tạo các trợ lý giọng nói như Siri và Alexa quá phức tạp nhưng chúng ta vẫn có thể tạo một chatbot cơ bản bằng Python và deep learning. Trong dự án này, bạn sẽ phải đào tạo chatbot bằng bộ dữ liệu bằng các kỹ thuật khoa học dữ liệu. Khi các chatbot này xử lý nhiều tương tác hơn, trí thông minh và độ chính xác của chúng sẽ tăng lên
Ảnh của Omid Armin trên Bapt
- gói. Máy ảnh, NLTK, Numpy
- Mã nguồn. Cách tạo Chatbot bằng Python & Deep Learning trong vòng chưa đầy một giờ
Xây dựng một chatbot đơn giản sẽ giúp bạn có nhiều kỹ năng hữu ích cho khoa học dữ liệu và lập trình
5. Dự đoán rời bỏ khách hàngKhách hàng rời bỏ là tỷ lệ khách hàng ngừng kinh doanh với một công ty. Điều này thể hiện tỷ lệ phần trăm người đăng ký ngừng đăng ký trong một khoảng thời gian nhất định
Đây là một dự án tốt để kiểm tra kỹ năng khoa học dữ liệu của bạn. Tôi thậm chí đã phải giải nó trong hackathons
Mục tiêu chính của dự án này là phân loại xem khách hàng có rời đi hay không. Để làm như vậy, bạn sẽ sử dụng tập dữ liệu có dữ liệu tài chính về khách hàng của ngân hàng. Các thông tin như điểm tín dụng, nhiệm kỳ, số lượng sản phẩm và mức lương ước tính sẽ được sử dụng để xây dựng mô hình dự đoán này
- gói. Pandas, Matplolib, Scikit-learning, Thuật toán học máy [XGBoost, Rừng ngẫu nhiên, KNN, Hồi quy logistic, SVM và cây quyết định]
- Mã nguồn. Ngân hàng Khách hàng Churn Dự đoán
Dự án này và dự án phát hiện gian lận thẻ tín dụng là dự án khoa học dữ liệu đầy đủ nhất được liệt kê trong bài viết này. Nó bao gồm phân tích dữ liệu khám phá, kỹ thuật tính năng, chuẩn bị dữ liệu, điều chỉnh mô hình và lựa chọn mô hình
Đó là nó. Hy vọng rằng sau khi hoàn thành tất cả các dự án này, bạn hiểu rõ hơn mọi thứ bạn đã học về khoa học dữ liệu cho đến nay
Tham gia danh sách email của tôi với hơn 3 nghìn người để nhận Python for Data Science Cheat Sheet mà tôi sử dụng trong tất cả các hướng dẫn của mình [PDF miễn phí]