Dữ liệu Python Dự án khoa học

Nếu bạn đã nghiên cứu khoa học dữ liệu một thời gian, bạn có thể biết rằng để học khoa học dữ liệu, bạn cần học toán, thống kê và lập trình. Đây là một khởi đầu tốt cho bất kỳ ai quan tâm đến khoa học dữ liệu, nhưng bạn có biết cách tiếp xúc nhiều hơn với khoa học dữ liệu không?

Đó là với các dự án. Một dự án sẽ giúp bạn áp dụng tất cả kiến ​​thức mà bạn có được từ toán học, thống kê và lập trình vào thực tế. Cho đến nay, bạn có thể đã nhìn thấy từng lĩnh vực riêng lẻ, nhưng sau khi bạn hoàn thành một dự án, các khái niệm bạn đã học được trong từng lĩnh vực sẽ có ý nghĩa hơn

Trong bài viết này, tôi đã liệt kê một số dự án khoa học dữ liệu đầu cuối mà bạn có thể thực hiện với Python. Các dự án được liệt kê theo độ khó, vì vậy các dự án mới bắt đầu ở phần đầu, trong khi các dự án nâng cao ở cuối bài viết

Ghi chú. Hầu hết các dự án được liệt kê trong bài viết này đều yêu cầu kiến ​​thức khá về Python. Ít nhất bạn nên biết những điều cơ bản về các thư viện như Pandas, Numpy và Scikit-learning, v.v. Mình sẽ để lại source code của từng project cũng như hướng dẫn các thư viện sử dụng trong từng project. Nếu bạn vẫn là người mới bắt đầu học Python, tôi khuyên bạn nên bắt đầu với các dự án Python cơ bản trước

Điều đầu tiên trước tiên — Tìm hiểu phân tích dữ liệu khám phá

Hầu hết các dự án trong thế giới thực mà bạn sẽ giải quyết trong tương lai cũng như một số dự án được liệt kê trong bài viết này sẽ yêu cầu bạn thực hiện EDA [phân tích dữ liệu khám phá]. Bước này rất cần thiết trong mọi dự án khoa học dữ liệu vì nó giúp bạn hiểu dữ liệu của mình và có được những hiểu biết hữu ích bằng các kỹ thuật trực quan hóa

EDA cũng giúp hiển thị các kết quả không mong muốn và các giá trị ngoại lệ trong dữ liệu của bạn. Ví dụ: các biểu đồ như biểu đồ, boxplot và barplot sẽ giúp bạn xác định các giá trị ngoại lai, nhờ đó bạn có thể loại bỏ chúng và thực hiện phân tích tốt hơn

Ảnh của Myriam Jessier trên Bapt

Tôi không tính EDA là một dự án trong danh sách này vì nó thường không phải là mục tiêu cuối cùng của dự án mà là điều bạn phải làm để thực hiện phân tích tốt hơn. Để tìm hiểu cách thực hiện EDA, hãy xem hướng dẫn này sẽ giới thiệu cho bạn cách trực quan hóa dữ liệu trong Python. Trong hướng dẫn, bạn sẽ phải có được thông tin chi tiết từ bộ dữ liệu chứa số liệu thống kê của các cầu thủ bóng đá. Ngoài ra, hãy xem hướng dẫn khác này để tìm hiểu các phương pháp hay nhất về làm sạch dữ liệu trong Python. Hướng dẫn thứ hai này sẽ chỉ cho bạn cách xác định và xử lý các giá trị ngoại lai bằng cách sử dụng các sơ đồ bạn đã học được trong hướng dẫn đầu tiên

1. Phân tích tình cảm

Dự án đầu tiên của danh sách này là xây dựng một mô hình học máy dự đoán cảm xúc của một bài phê bình phim. Phân tích tình cảm là một kỹ thuật NLP được sử dụng để xác định xem dữ liệu là tích cực, tiêu cực hay trung tính. Nó thực sự hữu ích cho các doanh nghiệp vì nó giúp hiểu được ý kiến ​​chung của khách hàng của họ

Đối với dự án này, bạn sẽ sử dụng bộ dữ liệu IMDB chứa 50 nghìn bài đánh giá phim. với 2 cột [đánh giá và tình cảm]. Mục tiêu là xây dựng mô hình học máy tốt nhất để dự đoán cảm xúc khi đánh giá phim. Để làm cho dự án này trở nên thân thiện với người mới bắt đầu, bạn chỉ cần dự đoán xem đánh giá phim là tích cực hay tiêu cực. Điều này được gọi là phân loại văn bản nhị phân vì chỉ có hai kết quả có thể xảy ra

Ảnh của AbsolutVision trên Pixabay
  • Thư viện [bao gồm hướng dẫn]. Pandas, Scikit-learning
  • Mã nguồn. Phân tích tình cảm trong Python [Phân loại văn bản]

Một trong những điều làm cho dự án đầu tiên này trở nên đặc biệt là bạn sẽ khám phá thư viện scikit-learning trong khi xây dựng một mô hình máy học cơ bản từ đầu

Dự án phát hiện

Có rất nhiều dự án “dò tìm” bạn có thể làm với Python. Thay vì chỉ nêu tên một cái, tôi sẽ liệt kê theo mức độ khó mà tôi đã triển khai với Python

2. Phát hiện tin giả

Dự án phát hiện thân thiện với người mới bắt đầu nhất có lẽ là Fake News Detection. Tin giả tràn lan khắp nơi trên internet. Điều này gây hoang mang, hoang mang trong nhân dân. Đây là lý do tại sao điều quan trọng là phải xác định tính xác thực của thông tin. May mắn thay, chúng ta có thể sử dụng Python để giải quyết dự án khoa học dữ liệu này

Ảnh của Roman Kraft trên Bapt
  • Thư viện [bao gồm hướng dẫn]. Scikit learn [và PassiveAggressiveClassifier], Pandas và Numpy
  • Mã nguồn. Phát hiện tin giả

Mục tiêu của dự án này là tách tin thật khỏi tin giả. Để làm như vậy, chúng tôi sẽ sử dụng các công cụ của sklearn như TfidfVectorizer và PassiveAggressiveClassifier

3. Phát hiện gian lận thẻ tín dụng

Nếu bạn muốn thực hiện loại dự án này khó khăn hơn một chút, bạn có thể thử phát hiện gian lận thẻ tín dụng. Gian lận thẻ tín dụng khiến cả người tiêu dùng và công ty thiệt hại hàng tỷ đô la trong khi những kẻ lừa đảo tiếp tục cố gắng tìm ra những cách mới để thực hiện những hành động bất hợp pháp này. Đây là lý do tại sao các hệ thống phát hiện gian lận đã trở nên thiết yếu đối với các ngân hàng để giảm thiểu tổn thất

Trong dự án này, bạn nên phân tích hành vi chi tiêu của khách hàng từ bộ dữ liệu chứa lịch sử giao dịch. Các biến như vị trí sẽ giúp bạn xác định các giao dịch gian lận

Ảnh của runixen. com trên Unsplash
  • Thư viện [bao gồm hướng dẫn]. Pandas, Numpy, Matplolib, Scikit-learning, Thuật toán học máy [XGBoost, Rừng ngẫu nhiên, KNN, Hồi quy logistic, SVM và cây quyết định]
  • Mã nguồn. Phát hiện gian lận thẻ tín dụng với Machine Learning trong Python
4. Chatbot

Chatbot chỉ là một chương trình mô phỏng cuộc trò chuyện của con người thông qua lệnh thoại hoặc trò chuyện bằng văn bản. Chatbot nâng cao được xây dựng bằng trí tuệ nhân tạo và được sử dụng trong hầu hết các ứng dụng nhắn tin bạn có trên điện thoại

Mặc dù việc tạo các trợ lý giọng nói như Siri và Alexa quá phức tạp nhưng chúng ta vẫn có thể tạo một chatbot cơ bản bằng Python và deep learning. Trong dự án này, bạn sẽ phải đào tạo chatbot bằng bộ dữ liệu bằng các kỹ thuật khoa học dữ liệu. Khi các chatbot này xử lý nhiều tương tác hơn, trí thông minh và độ chính xác của chúng sẽ tăng lên

Ảnh của Omid Armin trên Bapt
  • gói. Máy ảnh, NLTK, Numpy
  • Mã nguồn. Cách tạo Chatbot bằng Python & Deep Learning trong vòng chưa đầy một giờ

Xây dựng một chatbot đơn giản sẽ giúp bạn có nhiều kỹ năng hữu ích cho khoa học dữ liệu và lập trình

5. Dự đoán rời bỏ khách hàng

Khách hàng rời bỏ là tỷ lệ khách hàng ngừng kinh doanh với một công ty. Điều này thể hiện tỷ lệ phần trăm người đăng ký ngừng đăng ký trong một khoảng thời gian nhất định

Đây là một dự án tốt để kiểm tra kỹ năng khoa học dữ liệu của bạn. Tôi thậm chí đã phải giải nó trong hackathons

Mục tiêu chính của dự án này là phân loại xem khách hàng có rời đi hay không. Để làm như vậy, bạn sẽ sử dụng tập dữ liệu có dữ liệu tài chính về khách hàng của ngân hàng. Các thông tin như điểm tín dụng, nhiệm kỳ, số lượng sản phẩm và mức lương ước tính sẽ được sử dụng để xây dựng mô hình dự đoán này

  • gói. Pandas, Matplolib, Scikit-learning, Thuật toán học máy [XGBoost, Rừng ngẫu nhiên, KNN, Hồi quy logistic, SVM và cây quyết định]
  • Mã nguồn. Ngân hàng Khách hàng Churn Dự đoán

Dự án này và dự án phát hiện gian lận thẻ tín dụng là dự án khoa học dữ liệu đầy đủ nhất được liệt kê trong bài viết này. Nó bao gồm phân tích dữ liệu khám phá, kỹ thuật tính năng, chuẩn bị dữ liệu, điều chỉnh mô hình và lựa chọn mô hình

Đó là nó. Hy vọng rằng sau khi hoàn thành tất cả các dự án này, bạn hiểu rõ hơn mọi thứ bạn đã học về khoa học dữ liệu cho đến nay

Tham gia danh sách email của tôi với hơn 3 nghìn người để nhận Python for Data Science Cheat Sheet mà tôi sử dụng trong tất cả các hướng dẫn của mình [PDF miễn phí]

Các dự án tốt cho Python là gì?

Ý tưởng dự án Python. Cấp độ mới bắt đầu .
Tạo trình tạo mã. .
Xây dựng một máy tính đếm ngược. .
Viết phương pháp sắp xếp. .
Xây dựng một bài kiểm tra tương tác. .
Tic-Tac-Toe bằng văn bản. .
Tạo bộ chuyển đổi nhiệt độ/đo lường. .
Xây dựng một ứng dụng truy cập. .
Xây dựng trò chơi đoán số

Một dự án khoa học dữ liệu tốt là gì?

Một trong những dự án Khoa học dữ liệu nổi tiếng nhất là phân khúc khách hàng . Các công ty xây dựng các nhóm khách hàng khác nhau trước khi tung ra bất kỳ hoạt động tiếp thị nào. Phân khúc khách hàng là một ứng dụng học tập không giám sát nổi bật. Các công ty sử dụng phân cụm để khám phá các nhóm khách hàng và nhắm mục tiêu cơ sở người dùng có thể.

Một số dự án khoa học dữ liệu mới bắt đầu là gì?

20+ Dự án khoa học dữ liệu hàng đầu dành cho người mới bắt đầu với mã nguồn năm 2022 .
Xây dựng Chatbot từ đầu bằng Python bằng NLTK
Dự đoán churn trong viễn thông
Phân tích rổ thị trường bằng Apriori
Xây dựng Trình phân tích cú pháp Sơ yếu lý lịch bằng NLP -Spacy
Mô hình Bảo hiểm Yêu cầu Mức độ nghiêm trọng
Phân tích tình cảm của đánh giá sản phẩm

Các chủ đề Python cần thiết cho khoa học dữ liệu là gì?

Các khái niệm Python hàng đầu cần biết trước khi học Khoa học dữ liệu .
Số nguyên và số dấu phẩy động trong Python
Chuỗi trong Python
Giá trị Boolean trong Python
Toán tử số học trong Python
Toán tử so sánh trong Python
Toán tử logic trong Python
Toán tử thành viên trong Python
Định dạng chuỗi F trong Python

Chủ Đề