programming python

Câu hỏi và câu trả lời phỏng vấn khoa học dữ liệu python pdf

Các câu hỏi và câu trả lời đã gửi có thể được xem xét và chỉnh sửa, đồng thời có thể được chọn hoặc không để đăng, theo quyết định riêng của Knowledgehut

Tất cả các trường là bắt buộc, bằng cách nhấp vào nút, bạn đồng ý với Điều khoản và Điều kiện của knowledgehut. Chính sách bảo mật của LLC

Khoa học dữ liệu là một trong những công nghệ hàng đầu và phổ biến nhất trên thế giới hiện nay. Các tổ chức lớn đang tuyển dụng các chuyên gia trong lĩnh vực này. Với nhu cầu cao và sự sẵn có thấp của các chuyên gia này, Nhà khoa học dữ liệu là một trong những chuyên gia CNTT được trả lương cao nhất. Blog chuẩn bị Phỏng vấn Khoa học Dữ liệu này bao gồm các câu hỏi thường gặp nhất trong các cuộc phỏng vấn việc làm Khoa học Dữ liệu. Dưới đây là danh sách các câu hỏi phỏng vấn Khoa học dữ liệu phổ biến này

Q1. Khoa học dữ liệu là gì?
Q2. Phân biệt giữa Phân tích dữ liệu và Khoa học dữ liệu
Q3. Bạn hiểu gì về hồi quy tuyến tính?
Q4. Bạn hiểu gì về hồi quy logistic?
Q5. Ma trận nhầm lẫn là gì?
Q6. Bạn hiểu gì về tỷ lệ dương tính thật và tỷ lệ dương tính giả?
Q7. Khoa học dữ liệu khác với lập trình ứng dụng truyền thống như thế nào?
Q8. Giải thích sự khác biệt giữa Học có giám sát và Học không giám sát.
Q9. Sự khác biệt giữa dữ liệu định dạng dài và dữ liệu định dạng rộng là gì?
Q10. Nêu một số kỹ thuật lấy mẫu. Ưu điểm chính của việc lấy mẫu là gì?
Q11. Xu hướng trong Khoa học dữ liệu là gì?

Sau đây là ba loại mà các câu hỏi phỏng vấn Khoa học dữ liệu này được chia thành.
1. Cấp độ cơ bản

2. Trình độ trung cấp

3. Trình độ cao

Xem video này về Câu hỏi phỏng vấn Khoa học dữ liệu

81 câu hỏi phỏng vấn khoa học dữ liệu hàng đầu năm 2022 81 câu hỏi phỏng vấn khoa học dữ liệu hàng đầu năm 2022

Câu hỏi phỏng vấn khoa học dữ liệu cơ bản

1. Khoa học dữ liệu là gì?

Khoa học dữ liệu là một lĩnh vực khoa học máy tính liên quan rõ ràng đến việc biến dữ liệu thành thông tin và trích xuất những hiểu biết có ý nghĩa từ đó. Lý do tại sao Khoa học dữ liệu rất phổ biến là loại thông tin chi tiết mà nó cho phép chúng tôi rút ra từ dữ liệu có sẵn đã dẫn đến một số đổi mới lớn trong một số sản phẩm và công ty. Sử dụng những hiểu biết này, chúng tôi có thể xác định sở thích của một khách hàng cụ thể, khả năng thành công của một sản phẩm trong một thị trường cụ thể, v.v.

2. Phân biệt giữa Phân tích dữ liệu và Khoa học dữ liệu

Phân tích dữ liệuKhoa học dữ liệuPhân tích dữ liệu là một tập hợp con của Khoa học dữ liệu. Khoa học dữ liệu là một công nghệ rộng bao gồm nhiều tập hợp con khác nhau như Phân tích dữ liệu, Khai thác dữ liệu, Trực quan hóa dữ liệu, v.v. Mục tiêu của phân tích dữ liệu là minh họa các chi tiết chính xác của thông tin chi tiết được truy xuất. Mục tiêu của khoa học dữ liệu là khám phá những hiểu biết có ý nghĩa từ các bộ dữ liệu khổng lồ và đưa ra các giải pháp tốt nhất có thể để giải quyết các vấn đề kinh doanh. Chỉ yêu cầu các ngôn ngữ lập trình cơ bản. Yêu cầu kiến thức về ngôn ngữ lập trình nâng cao. Nó chỉ tập trung vào việc tìm kiếm các giải pháp. Khoa học dữ liệu không chỉ tập trung vào việc tìm kiếm giải pháp mà còn dự đoán tương lai bằng các mô hình hoặc hiểu biết trong quá khứ. Công việc của nhà phân tích dữ liệu là phân tích dữ liệu để đưa ra quyết định. Công việc của nhà khoa học dữ liệu là cung cấp trực quan hóa dữ liệu sâu sắc từ dữ liệu thô dễ hiểu

3. Bạn hiểu gì về hồi quy tuyến tính?

Hồi quy tuyến tính giúp hiểu được mối quan hệ tuyến tính giữa các biến phụ thuộc và biến độc lập. Hồi quy tuyến tính là một thuật toán học có giám sát, giúp tìm ra mối quan hệ tuyến tính giữa hai biến. Một là yếu tố dự đoán hoặc biến độc lập và một là phản hồi hoặc biến phụ thuộc. Trong Hồi quy tuyến tính, chúng tôi cố gắng hiểu cách biến phụ thuộc thay đổi w. r. t biến độc lập. Nếu chỉ có một biến độc lập thì nó được gọi là hồi quy tuyến tính đơn giản và nếu có nhiều hơn một biến độc lập thì nó được gọi là hồi quy tuyến tính bội

Quan tâm đến việc học Khoa học dữ liệu?

Tăng 100%

Nắm vững các kỹ năng được yêu cầu nhiều nhất ngay bây giờ

4. Bạn hiểu gì về hồi quy logistic?

Hồi quy logistic là một thuật toán phân loại có thể được sử dụng khi biến phụ thuộc là nhị phân. Hãy lấy một ví dụ. Ở đây, chúng tôi đang cố gắng xác định xem trời có mưa hay không dựa trên nhiệt độ và độ ẩm

Nhiệt độ và độ ẩm là các biến độc lập và mưa sẽ là biến phụ thuộc của chúng tôi. Vì vậy, thuật toán hồi quy logistic thực sự tạo ra một đường cong hình chữ S

Bây giờ, chúng ta hãy xem xét một kịch bản khác. Giả sử rằng trục x biểu thị số lần chạy do Virat Kohli ghi được và trục y biểu thị xác suất đội Ấn Độ thắng trận đấu. Từ biểu đồ này, chúng ta có thể nói rằng nếu Virat Kohli ghi được hơn 50 lần chạy, thì đội Ấn Độ sẽ có nhiều khả năng thắng trận hơn. Tương tự, nếu anh ta ghi được ít hơn 50 lần chạy thì xác suất đội Ấn Độ thắng trận đấu là dưới 50%.

Vì vậy, về cơ bản trong hồi quy logistic, giá trị Y nằm trong phạm vi 0 và 1. Đây là cách hồi quy logistic hoạt động

5. một ma trận nhầm lẫn là gì?

Ma trận nhầm lẫn là một bảng được sử dụng để ước tính hiệu suất của một mô hình. Nó lập bảng các giá trị thực tế và các giá trị dự đoán trong ma trận 2×2

Tích cực thực sự [d]. Điều này biểu thị tất cả các bản ghi có giá trị thực tế là đúng và giá trị dự đoán cũng đúng. Vì vậy, những điều này biểu thị tất cả những điều tích cực thực sự. Âm tính giả [c]. Điều này biểu thị tất cả các bản ghi có giá trị thực tế là đúng nhưng giá trị dự đoán là sai. Dương tính giả [b]. Trong trường hợp này, các giá trị thực tế là sai, nhưng các giá trị được dự đoán là đúng. Tiêu cực thực sự [a]. Ở đây, các giá trị thực tế là sai và các giá trị dự đoán cũng sai. Vì vậy, nếu bạn muốn nhận được các giá trị chính xác, thì các giá trị chính xác về cơ bản sẽ đại diện cho tất cả các giá trị dương và âm thực. Đây là cách ma trận nhầm lẫn hoạt động

6. Bạn hiểu gì về tỷ lệ dương tính thật và tỷ lệ dương tính giả?

Tỷ lệ tích cực thực sự. Trong Machine Learning, tỷ lệ dương tính thực, còn được gọi là độ nhạy hoặc thu hồi, được sử dụng để đo tỷ lệ phần trăm dương tính thực tế được xác định chính xác. Công thức. Tỷ lệ tích cực thực sự = Tỷ lệ tích cực thực sự / Tích cực Tỷ lệ tích cực sai. Tỷ lệ dương tính giả về cơ bản là xác suất bác bỏ sai giả thuyết khống đối với một thử nghiệm cụ thể. Tỷ lệ dương tính giả được tính bằng tỷ lệ giữa số sự kiện tiêu cực bị phân loại sai thành tích cực [dương tính giả] trên tổng số sự kiện thực tế. Công thức. Tỷ lệ dương tính giả = dương tính giả/âm tính

Hãy xem Khóa học Khoa học Dữ liệu toàn diện này ở Ấn Độ

7. Khoa học dữ liệu khác với lập trình ứng dụng truyền thống như thế nào?

Khoa học dữ liệu có một cách tiếp cận khác về cơ bản trong việc xây dựng các hệ thống cung cấp giá trị so với phát triển ứng dụng truyền thống

Trong các mô hình lập trình truyền thống, chúng ta thường phân tích đầu vào, tìm ra đầu ra mong đợi và viết mã chứa các quy tắc và câu lệnh cần thiết để chuyển đổi đầu vào được cung cấp thành đầu ra mong đợi. Như chúng ta có thể tưởng tượng, các quy tắc này không dễ viết, đặc biệt là đối với dữ liệu mà ngay cả máy tính cũng khó hiểu, e. g. , hình ảnh, video, v.v.

Khoa học dữ liệu thay đổi quá trình này một chút. Trong đó, chúng tôi cần truy cập vào khối lượng lớn dữ liệu chứa các đầu vào cần thiết và ánh xạ của chúng tới các đầu ra mong đợi. Sau đó, chúng tôi sử dụng thuật toán Khoa học dữ liệu, sử dụng phân tích toán học để tạo quy tắc ánh xạ đầu vào đã cho thành đầu ra

Quá trình tạo quy tắc này được gọi là đào tạo. Sau khi đào tạo, chúng tôi sử dụng một số dữ liệu đã được đặt sang một bên trước giai đoạn đào tạo để kiểm tra và kiểm tra độ chính xác của hệ thống. Các quy tắc được tạo là một loại hộp đen và chúng tôi không thể hiểu cách thức các đầu vào được chuyển đổi thành đầu ra

Tuy nhiên, nếu độ chính xác đủ tốt thì chúng ta có thể sử dụng hệ thống [còn gọi là mô hình]

Như đã mô tả ở trên, trong lập trình truyền thống, chúng ta phải viết các quy tắc để ánh xạ đầu vào thành đầu ra, nhưng trong Khoa học dữ liệu, các quy tắc được tự động tạo hoặc học từ dữ liệu đã cho. Điều này đã giúp giải quyết một số thách thức thực sự khó khăn mà một số công ty đang phải đối mặt

8. Giải thích sự khác biệt giữa học có giám sát và học không giám sát

Học có giám sát và học không giám sát là hai loại kỹ thuật Học máy. Cả hai đều cho phép chúng tôi xây dựng các mô hình. Tuy nhiên, chúng được sử dụng để giải quyết các loại vấn đề khác nhau.

Học có giám sát Học không giám sát Hoạt động trên dữ liệu chứa cả đầu vào và đầu ra dự kiến, tôi. e. , dữ liệu được gắn nhãn Hoạt động trên dữ liệu không chứa ánh xạ từ đầu vào đến đầu ra, i. e. , dữ liệu chưa được gắn nhãn Được sử dụng để tạo các mô hình có thể được sử dụng để dự đoán hoặc phân loại mọi thứ Được sử dụng để trích xuất thông tin có ý nghĩa từ khối lượng lớn dữ liệu Các thuật toán học có giám sát thường được sử dụng. Hồi quy tuyến tính, cây quyết định, v.v. Các thuật toán học không giám sát thường được sử dụng. K-nghĩa là phân cụm, thuật toán Apriori, v.v.

9. Sự khác biệt giữa dữ liệu định dạng dài và dữ liệu định dạng rộng là gì?

Dữ liệu định dạng dài Dữ liệu định dạng rộng Dữ liệu định dạng dài có một cột dành cho các loại biến có thể có và một cột dành cho các giá trị của các biến đó. Trong khi đó, Dữ liệu rộng có một cột cho mỗi biến. Mỗi hàng ở định dạng dài đại diện cho một điểm thời gian cho mỗi chủ đề. Kết quả là mỗi chủ đề sẽ chứa nhiều hàng dữ liệu. Các câu trả lời lặp lại của một chủ đề sẽ nằm trong một hàng, với mỗi câu trả lời trong cột riêng của nó, ở định dạng rộng. Định dạng dữ liệu này thường được sử dụng nhiều nhất trong phân tích R và để ghi vào tệp nhật ký ở cuối mỗi thử nghiệm. Định dạng dữ liệu này được sử dụng rộng rãi nhất trong các thao tác dữ liệu, các chương trình thống kê cho các phép đo lặp lại ANOVAs và hiếm khi được sử dụng trong phân tích R. Định dạng dài chứa các giá trị lặp lại trong cột đầu tiên. Định dạng rộng chứa các giá trị không lặp lại trong cột đầu tiên. sử dụng df. melt[] để chuyển dạng rộng sang dạng dài df. trục[]. reset_index[] để chuyển dạng dài thành dạng rộng

10. Nêu một số kỹ thuật lấy mẫu. Ưu điểm chính của lấy mẫu là gì?

Lấy mẫu được định nghĩa là quá trình chọn mẫu từ một nhóm người hoặc từ bất kỳ loại cụ thể nào cho mục đích nghiên cứu. Là một trong những yếu tố quan trọng quyết định độ chính xác của một kết quả nghiên cứu/khảo sát

Chủ yếu, có hai loại kỹ thuật lấy mẫu

Lấy mẫu xác suất. Nó liên quan đến lựa chọn ngẫu nhiên khiến mọi yếu tố đều có cơ hội được chọn. Lấy mẫu xác suất có nhiều kiểu con khác nhau trong đó, như được đề cập bên dưới

Phương pháp lấy mẫu ngẫu nhiên đơn giản
lấy mẫu phân tầng
Lấy mẫu hệ thống
Lấy mẫu cụm
Lấy mẫu nhiều giai đoạn

Lấy mẫu phi xác suất. Lấy mẫu phi xác suất tuân theo lựa chọn không ngẫu nhiên, có nghĩa là lựa chọn được thực hiện dựa trên sự dễ dàng của bạn hoặc bất kỳ tiêu chí bắt buộc nào khác. Điều này giúp thu thập dữ liệu dễ dàng. Sau đây là các loại lấy mẫu khác nhau trong đó
- Lấy mẫu thuận tiện
- Lấy mẫu có mục đích
- Lấy mẫu hạn ngạch
- Giới thiệu / Lấy mẫu quả cầu tuyết

11. Xu hướng trong Khoa học dữ liệu là gì?

Xu hướng là một loại lỗi xảy ra trong mô hình Khoa học dữ liệu do sử dụng thuật toán không đủ mạnh để nắm bắt các mẫu hoặc xu hướng cơ bản tồn tại trong dữ liệu. Nói cách khác, lỗi này xảy ra khi dữ liệu quá phức tạp để thuật toán có thể hiểu được, do đó, cuối cùng nó sẽ xây dựng một mô hình đưa ra các giả định đơn giản. Điều này dẫn đến độ chính xác thấp hơn do thiếu trang bị. Các thuật toán có thể dẫn đến sai lệch cao là hồi quy tuyến tính, hồi quy logistic, v.v. ==

12. Giảm kích thước là gì?

Giảm kích thước là quá trình chuyển đổi tập dữ liệu có số thứ nguyên [trường] cao thành tập dữ liệu có số thứ nguyên thấp hơn. Điều này được thực hiện bằng cách loại bỏ một số trường hoặc cột khỏi tập dữ liệu. Tuy nhiên, điều này không được thực hiện một cách ngẫu nhiên. Trong quy trình này, các kích thước hoặc trường chỉ bị loại bỏ sau khi đảm bảo rằng thông tin còn lại sẽ vẫn đủ để mô tả ngắn gọn thông tin tương tự

13. Tại sao Python được sử dụng để làm sạch dữ liệu trong DS?

Các nhà khoa học dữ liệu phải làm sạch và chuyển đổi các tập dữ liệu khổng lồ thành dạng mà họ có thể làm việc với. Điều quan trọng là phải xử lý dữ liệu dư thừa để có kết quả tốt hơn bằng cách loại bỏ các ngoại lệ vô nghĩa, bản ghi không đúng định dạng, giá trị bị thiếu, định dạng không nhất quán, v.v.

Các thư viện Python như Matplotlib, Pandas, Numpy, Keras và SciPy được sử dụng rộng rãi để làm sạch và phân tích dữ liệu. Các thư viện này được sử dụng để tải và làm sạch dữ liệu và phân tích hiệu quả. Ví dụ: tệp CSV có tên “Sinh viên” có thông tin về sinh viên của một học viện như tên, tiêu chuẩn, địa chỉ, số điện thoại, lớp, điểm, v.v.

Tìm hiểu thêm về Làm sạch dữ liệu trong Hướng dẫn về khoa học dữ liệu

14. Tại sao R được sử dụng trong Trực quan hóa dữ liệu?

R cung cấp hệ sinh thái tốt nhất để phân tích và trực quan hóa dữ liệu với hơn 12.000 gói trong kho nguồn mở. Nó có sự hỗ trợ cộng đồng rất lớn, có nghĩa là bạn có thể dễ dàng tìm ra giải pháp cho các vấn đề của mình trên nhiều nền tảng khác nhau như StackOverflow

Nó có khả năng quản lý dữ liệu tốt hơn và hỗ trợ tính toán phân tán bằng cách phân chia các hoạt động giữa nhiều tác vụ và nút, điều này cuối cùng làm giảm độ phức tạp và thời gian thực hiện của các bộ dữ liệu lớn

15. Các thư viện phổ biến được sử dụng trong Khoa học dữ liệu là gì?

Dưới đây là các thư viện phổ biến được sử dụng để trích xuất dữ liệu, làm sạch, trực quan hóa và triển khai các mô hình DS

TenorFlow. Hỗ trợ tính toán song song với quản lý thư viện hoàn hảo do Google hỗ trợ
khoa học viễn tưởng. Chủ yếu được sử dụng để giải các phương trình vi phân, lập trình đa chiều, thao tác dữ liệu và trực quan hóa thông qua đồ thị và biểu đồ
gấu trúc. Được sử dụng để triển khai các khả năng ETL [Trích xuất, Chuyển đổi và Tải bộ dữ liệu] trong các ứng dụng kinh doanh
Matplotlib. Là mã nguồn mở và miễn phí, nó có thể được sử dụng để thay thế cho MATLAB, mang lại hiệu suất tốt hơn và mức tiêu thụ bộ nhớ thấp
PyTorch. Tốt nhất cho các dự án liên quan đến thuật toán Machine Learning và Deep Neural Networks

Muốn tìm hiểu thêm về Khoa học dữ liệu, hãy xem Khóa học về khoa học dữ liệu của chúng tôi ở New York

16. Phương sai trong Khoa học dữ liệu là gì?

Phương sai là một loại lỗi xảy ra trong mô hình Khoa học dữ liệu khi mô hình kết thúc quá phức tạp và học các tính năng từ dữ liệu, cùng với tiếng ồn tồn tại trong đó. Loại lỗi này có thể xảy ra nếu thuật toán được sử dụng để đào tạo mô hình có độ phức tạp cao, mặc dù dữ liệu cũng như các mẫu và xu hướng cơ bản khá dễ phát hiện. Điều này làm cho mô hình trở nên rất nhạy cảm, hoạt động tốt trên tập dữ liệu huấn luyện nhưng kém trên tập dữ liệu thử nghiệm và trên bất kỳ loại dữ liệu nào mà mô hình chưa thấy. Phương sai thường dẫn đến độ chính xác kém trong thử nghiệm và dẫn đến trang bị quá mức

17. Cắt tỉa trong thuật toán cây quyết định là gì?

Cắt tỉa cây quyết định là quá trình loại bỏ các phần của cây không cần thiết hoặc dư thừa. Cắt tỉa dẫn đến một cây quyết định nhỏ hơn, hoạt động tốt hơn và cho độ chính xác và tốc độ cao hơn

18. Entropy trong thuật toán cây quyết định là gì?

Trong thuật toán cây quyết định, entropy là thước đo của tạp chất hoặc tính ngẫu nhiên. Entropy của một tập dữ liệu nhất định cho chúng ta biết các giá trị của tập dữ liệu đó thuần khiết hay không thuần khiết như thế nào. Nói một cách đơn giản, nó cho chúng ta biết về phương sai trong tập dữ liệu.
Ví dụ: giả sử chúng ta được tặng một hộp có 10 viên bi xanh. Khi đó, entropi của hộp bằng 0 vì nó chứa các viên bi cùng màu, i. e. , không có tạp chất. Nếu chúng ta cần lấy một viên bi từ hộp, xác suất để nó có màu xanh là 1. 0. Tuy nhiên, nếu chúng ta thay 4 viên bi xanh trong hộp bằng 4 viên bi đỏ trong hộp thì entropy tăng lên 0. 4 để vẽ viên bi màu xanh.

19. Thông tin nào thu được trong thuật toán cây quyết định?

Khi xây dựng cây quyết định, tại mỗi bước, chúng ta phải tạo một nút quyết định xem nên sử dụng tính năng nào để phân chia dữ liệu, i. e. , tính năng nào sẽ phân tách dữ liệu của chúng tôi tốt nhất để chúng tôi có thể đưa ra dự đoán. Quyết định này được đưa ra bằng cách sử dụng mức tăng thông tin, là thước đo mức độ giảm entropy khi một tính năng cụ thể được sử dụng để phân tách dữ liệu. Tính năng mang lại mức tăng thông tin cao nhất là tính năng được chọn để phân chia dữ liệu

Khám phá Khóa học khoa học dữ liệu này ở Delhi và làm chủ thuật toán cây quyết định

20. Xác thực chéo k-fold là gì?

Trong xác thực chéo k-fold, chúng tôi chia tập dữ liệu thành k phần bằng nhau. Sau đó, chúng tôi lặp lại toàn bộ tập dữ liệu k lần. Trong mỗi lần lặp của vòng lặp, một trong k phần được dùng để kiểm tra và k - 1 phần còn lại được dùng để huấn luyện. Sử dụng xác thực chéo k-fold, mỗi phần trong số k phần của tập dữ liệu sẽ được sử dụng cho mục đích đào tạo và thử nghiệm

21. Giải thích cách thức hoạt động của một hệ thống gợi ý

Hệ thống đề xuất là một hệ thống mà nhiều nền tảng trực tuyến, hướng đến nội dung, hướng tới người tiêu dùng sử dụng để tạo đề xuất cho người dùng từ thư viện nội dung có sẵn. Các hệ thống này đưa ra các đề xuất dựa trên những gì họ biết về sở thích của người dùng từ các hoạt động của họ trên nền tảng

Ví dụ: hãy tưởng tượng rằng chúng ta có một nền tảng phát trực tuyến phim, tương tự như Netflix hoặc Amazon Prime. Nếu trước đây người dùng đã xem và thích phim thuộc thể loại hành động và kinh dị, thì điều đó có nghĩa là người dùng thích xem phim thuộc thể loại này. Trong trường hợp đó, sẽ tốt hơn nếu giới thiệu những bộ phim như vậy cho người dùng cụ thể này. Những đề xuất này cũng có thể được tạo dựa trên những gì người dùng có sở thích tương tự thích xem

22. một phân phối bình thường là gì?

Phân phối dữ liệu là một công cụ trực quan để phân tích cách dữ liệu được trải ra hoặc phân phối. Dữ liệu có thể được phân phối theo nhiều cách khác nhau. Chẳng hạn, nó có thể nghiêng về bên trái hoặc bên phải, hoặc tất cả có thể lộn xộn

Dữ liệu cũng có thể được phân phối xung quanh một giá trị trung tâm, tôi. e. , trung bình, trung bình, v.v. Loại phân phối này không có sai lệch về bên trái hoặc bên phải và có dạng đường cong hình chuông. Phân phối này cũng có giá trị trung bình bằng trung vị. Loại phân phối này được gọi là phân phối chuẩn

23. Học sâu là gì?

Deep Learning là một loại Machine Learning, trong đó các mạng thần kinh được sử dụng để bắt chước cấu trúc của bộ não con người và giống như cách bộ não học từ thông tin, máy móc cũng được tạo ra để học từ thông tin được cung cấp cho chúng

Deep Learning là phiên bản nâng cao của mạng thần kinh giúp máy học từ dữ liệu. Trong Deep Learning, các mạng thần kinh bao gồm nhiều lớp ẩn [đó là lý do tại sao nó được gọi là 'deep' learning] được kết nối với nhau và đầu ra của lớp trước là đầu vào của lớp hiện tại

24. RNN [mạng thần kinh tái phát] là gì?

Mạng thần kinh hồi quy, viết tắt là RNN, là một loại thuật toán Học máy sử dụng mạng thần kinh nhân tạo. RNN được sử dụng để tìm các mẫu từ một chuỗi dữ liệu, chẳng hạn như chuỗi thời gian, thị trường chứng khoán, nhiệt độ, v.v. RNN là một loại mạng feedforward, trong đó thông tin từ lớp này chuyển sang lớp khác và mỗi nút trong mạng thực hiện các phép toán trên dữ liệu. Các hoạt động này là tạm thời, tôi. e. , RNN lưu trữ thông tin theo ngữ cảnh về các tính toán trước đó trong mạng. Nó được gọi là lặp lại vì nó thực hiện các thao tác giống nhau trên một số dữ liệu mỗi khi nó được truyền. Tuy nhiên, đầu ra có thể khác dựa trên các tính toán trước đây và kết quả của chúng

25. Giải thích xu hướng lựa chọn

Sai lệch lựa chọn là sai lệch xảy ra trong quá trình lấy mẫu dữ liệu. Loại sai lệch này xảy ra khi một mẫu không đại diện cho dân số sẽ được phân tích trong một nghiên cứu thống kê

Câu hỏi phỏng vấn khoa học dữ liệu trung cấp

26. Đường cong ROC là gì?

Nó là viết tắt của Đặc điểm hoạt động của máy thu. Về cơ bản, đây là một biểu đồ giữa tỷ lệ dương thực và tỷ lệ dương tính giả và nó giúp chúng tôi tìm ra sự đánh đổi phù hợp giữa tỷ lệ dương thực và tỷ lệ dương tính giả đối với các ngưỡng xác suất khác nhau của các giá trị dự đoán. Vì vậy, đường cong càng gần góc trên bên trái thì mô hình càng tốt. Nói cách khác, bất kỳ đường cong nào có diện tích bên dưới nó lớn hơn sẽ là mô hình tốt hơn. Bạn có thể thấy điều này trong biểu đồ dưới đây.

27. Bạn hiểu gì về cây quyết định?

Cây quyết định là thuật toán học có giám sát được sử dụng cho cả phân loại và hồi quy. Do đó, trong trường hợp này, biến phụ thuộc có thể là cả giá trị số và giá trị phân loại. Ở đây, mỗi nút biểu thị phép thử trên một thuộc tính và mỗi cạnh biểu thị kết quả của thuộc tính đó và mỗi nút lá chứa nhãn lớp. Vì vậy, trong trường hợp này, chúng tôi có một loạt các điều kiện kiểm tra đưa ra quyết định cuối cùng theo điều kiện.

Bạn có muốn học Khoa học dữ liệu từ các chuyên gia không?

28. Bạn hiểu gì về một mô hình rừng ngẫu nhiên?

Nó kết hợp nhiều mô hình lại với nhau để có được kết quả cuối cùng hay nói chính xác hơn là nó kết hợp nhiều cây quyết định lại với nhau để có được kết quả cuối cùng. Vì vậy, cây quyết định là khối xây dựng của mô hình rừng ngẫu nhiên

29. Hai ứng viên, Aman và Mohan xuất hiện trong cuộc phỏng vấn Việc làm Khoa học dữ liệu. Xác suất để Aman vượt qua cuộc phỏng vấn là 1/8 và của Mohan là 5/12. Xác suất mà ít nhất một trong số họ sẽ vượt qua cuộc phỏng vấn là gì?

Xác suất để Aman được chọn phỏng vấn là 1/8

P[A] = 1/8

Xác suất Mohan được chọn cho cuộc phỏng vấn là 5/12

P[B]=5/12

Bây giờ, xác suất để ít nhất một trong số họ được chọn có thể được biểu thị bằng Hợp của A và B, có nghĩa là

P[A U B] =P[A]+ P[B] – [P[A ∩ B]] ………………………[1]

Trong đó P[A ∩ B] là xác suất để cả Aman và Mohan được chọn vào công việc

Để tính toán câu trả lời cuối cùng, trước tiên chúng ta phải tìm ra giá trị của P[A ∩ B]

Vì vậy, P[A ∩ B] = P[A] * P[B]

1/8 * 5/12

5/96

Bây giờ, đặt giá trị của P[A ∩ B] vào phương trình [1]

P[A U B] =P[A]+ P[B] – [P[A ∩ B]]

1/8 + 5/12 -5/96

Vậy đáp án sẽ là 47/96

30. Mô hình hóa dữ liệu khác với thiết kế cơ sở dữ liệu như thế nào?

Mô hình hóa dữ liệu. Nó có thể được coi là bước đầu tiên hướng tới việc thiết kế một cơ sở dữ liệu. Mô hình hóa dữ liệu tạo ra một mô hình khái niệm dựa trên mối quan hệ giữa các mô hình dữ liệu khác nhau. Quá trình bao gồm việc chuyển từ giai đoạn khái niệm sang mô hình logic sang lược đồ vật lý. Nó liên quan đến phương pháp có hệ thống để áp dụng các kỹ thuật mô hình hóa dữ liệu

Thiết kế cơ sở dữ liệu. Đây là quá trình thiết kế cơ sở dữ liệu. Thiết kế cơ sở dữ liệu tạo ra đầu ra là mô hình dữ liệu chi tiết của cơ sở dữ liệu. Nói một cách chính xác, thiết kế cơ sở dữ liệu bao gồm mô hình logic chi tiết của cơ sở dữ liệu nhưng nó cũng có thể bao gồm các lựa chọn thiết kế vật lý và tham số lưu trữ

31. Độ chính xác là gì?

Độ chính xác. Khi chúng tôi đang triển khai các thuật toán để phân loại dữ liệu hoặc truy xuất thông tin, độ chính xác giúp chúng tôi nhận được một phần giá trị lớp tích cực được dự đoán tích cực. Về cơ bản, nó đo lường độ chính xác của các dự đoán tích cực chính xác. Dưới đây là công thức tính độ chụm

32. Thu hồi là gì?

Nhớ lại. Nó là tập hợp tất cả các dự đoán tích cực trong tổng số trường hợp tích cực. Thu hồi giúp chúng tôi xác định các dự đoán tích cực bị phân loại sai. Chúng tôi sử dụng công thức dưới đây để tính toán thu hồi

33. Điểm F1 là gì và cách tính điểm?

Điểm F1 giúp chúng tôi tính toán giá trị trung bình điều hòa của độ chính xác và khả năng thu hồi mang lại cho chúng tôi độ chính xác của bài kiểm tra. Nếu F1 = 1 thì độ chính xác và thu hồi là chính xác. Nếu F1 < 1 hoặc bằng 0, thì độ chính xác hoặc thu hồi kém chính xác hơn hoặc chúng hoàn toàn không chính xác. Xem bên dưới để biết công thức tính điểm F1.

34. Giá trị p là gì?

Giá trị P là thước đo tầm quan trọng thống kê của một quan sát. Đó là xác suất cho thấy tầm quan trọng của đầu ra đối với dữ liệu. Chúng tôi tính toán giá trị p để biết thống kê thử nghiệm của một mô hình. Thông thường, nó giúp chúng ta chọn xem chúng ta có thể chấp nhận hay bác bỏ giả thuyết không

35. Tại sao chúng ta sử dụng giá trị p?

Chúng tôi sử dụng giá trị p để hiểu liệu dữ liệu đã cho có thực sự mô tả hiệu ứng quan sát được hay không. Chúng tôi sử dụng công thức dưới đây để tính giá trị p cho hiệu ứng 'E' và giả thuyết khống 'H0' là đúng

36. Sự khác biệt giữa một lỗi và một lỗi còn lại là gì?

Một lỗi xảy ra trong các giá trị trong khi dự đoán cho chúng ta sự khác biệt giữa các giá trị được quan sát và giá trị thực của tập dữ liệu. Trong khi đó, lỗi còn lại là sự khác biệt giữa các giá trị quan sát được và các giá trị dự đoán. Lý do chúng tôi sử dụng lỗi còn lại để đánh giá hiệu suất của thuật toán là các giá trị thực không bao giờ được biết. Do đó, chúng tôi sử dụng các giá trị quan sát được để đo lỗi bằng cách sử dụng phần dư. Nó giúp chúng tôi có được ước tính chính xác về lỗi

37. Tại sao chúng ta sử dụng chức năng tóm tắt?

Hàm tóm tắt trong R cung cấp cho chúng ta số liệu thống kê của thuật toán đã triển khai trên một tập dữ liệu cụ thể. Nó bao gồm nhiều đối tượng, biến, thuộc tính dữ liệu, v.v. Nó cung cấp số liệu thống kê tóm tắt cho các đối tượng riêng lẻ khi được đưa vào hàm. Chúng tôi sử dụng hàm tóm tắt khi muốn có thông tin về các giá trị có trong tập dữ liệu. Nó cung cấp cho chúng tôi số liệu thống kê tóm tắt ở dạng sau. Ở đây, nó cung cấp các giá trị tối thiểu và tối đa từ một cột cụ thể của tập dữ liệu. Ngoài ra, nó cung cấp các giá trị trung bình, trung bình, phần tư thứ nhất và phần tư thứ 3 giúp chúng tôi hiểu các giá trị tốt hơn.

38. Khoa học dữ liệu và Học máy có liên quan với nhau như thế nào?

Khoa học dữ liệu và Học máy là hai thuật ngữ có liên quan chặt chẽ với nhau nhưng thường bị hiểu sai. Cả hai đều xử lý dữ liệu. Tuy nhiên, có một số khác biệt cơ bản cho chúng ta thấy chúng khác nhau như thế nào

Khoa học dữ liệu là một lĩnh vực rộng lớn xử lý khối lượng dữ liệu lớn và cho phép chúng tôi rút ra những hiểu biết sâu sắc về dữ liệu đồ sộ này. Toàn bộ quá trình Khoa học dữ liệu xử lý nhiều bước liên quan đến việc rút ra những hiểu biết sâu sắc về dữ liệu có sẵn. Quá trình này bao gồm các bước quan trọng như thu thập dữ liệu, phân tích dữ liệu, thao tác dữ liệu, trực quan hóa dữ liệu, v.v.

Mặt khác, Machine Learning có thể được coi là một lĩnh vực con của Khoa học dữ liệu. Nó cũng xử lý dữ liệu, nhưng ở đây, chúng tôi chỉ tập trung vào việc tìm hiểu cách chuyển đổi dữ liệu đã xử lý thành một mô hình chức năng, mô hình này có thể được sử dụng để ánh xạ đầu vào thành đầu ra, e. g. , một mô hình có thể mong đợi một hình ảnh làm đầu vào và cho chúng tôi biết liệu hình ảnh đó có chứa một bông hoa làm đầu ra hay không

Nói tóm lại, Khoa học dữ liệu liên quan đến việc thu thập dữ liệu, xử lý dữ liệu và cuối cùng là rút ra những hiểu biết sâu sắc từ dữ liệu đó. Lĩnh vực Khoa học dữ liệu liên quan đến việc xây dựng các mô hình bằng thuật toán được gọi là Học máy. Do đó, Machine Learning là một phần không thể thiếu của Khoa học dữ liệu

39. Giải thích các phân tích đơn biến, hai biến và đa biến

Khi xử lý phân tích dữ liệu, chúng ta thường bắt gặp các thuật ngữ như đơn biến, hai biến và đa biến. Hãy thử và hiểu ý nghĩa của chúng

phân tích đơn biến. Phân tích đơn biến liên quan đến việc phân tích dữ liệu chỉ với một biến hay nói cách khác là một cột hoặc một vectơ của dữ liệu. Phân tích này cho phép chúng tôi hiểu dữ liệu và trích xuất các mẫu và xu hướng từ đó. Ví dụ. Phân tích trọng lượng của một nhóm người
phân tích hai biến. Phân tích hai biến liên quan đến việc phân tích dữ liệu với chính xác hai biến hay nói cách khác, dữ liệu có thể được đưa vào bảng hai cột. Loại phân tích này cho phép chúng ta tìm ra mối quan hệ giữa các biến. Ví dụ. Phân tích dữ liệu có chứa nhiệt độ và độ cao
phân tích đa biến. Phân tích đa biến liên quan đến việc phân tích dữ liệu với nhiều hơn hai biến. Số lượng cột của dữ liệu có thể nhiều hơn hai. Kiểu phân tích này cho phép chúng ta tìm ra tác động của tất cả các biến khác [biến đầu vào] lên một biến duy nhất [biến đầu ra]

Ví dụ. Phân tích dữ liệu về giá nhà, bao gồm các thông tin về nhà như địa phương, tỷ lệ tội phạm, diện tích, số tầng, v.v.

40. Làm thế nào chúng ta có thể xử lý dữ liệu bị thiếu?

Để có thể xử lý dữ liệu bị thiếu, trước tiên chúng ta cần biết tỷ lệ phần trăm dữ liệu bị thiếu trong một cột cụ thể để có thể đưa ra chiến lược xử lý tình huống phù hợp.

Ví dụ: nếu trong một cột, phần lớn dữ liệu bị thiếu, thì việc loại bỏ cột là tùy chọn tốt nhất, trừ khi chúng ta có một số phương tiện để đưa ra các phỏng đoán có cơ sở về các giá trị bị thiếu. Tuy nhiên, nếu lượng dữ liệu bị thiếu ít, thì chúng tôi có một số chiến lược để lấp đầy chúng

Một cách là lấp đầy tất cả chúng bằng một giá trị mặc định hoặc giá trị có tần suất cao nhất trong cột đó, chẳng hạn như 0 hoặc 1, v.v. Điều này có thể hữu ích nếu phần lớn dữ liệu trong cột đó chứa các giá trị này

Một cách khác là điền vào các giá trị còn thiếu trong cột bằng giá trị trung bình của tất cả các giá trị trong cột đó. Kỹ thuật này thường được ưa thích vì các giá trị bị thiếu có cơ hội gần với giá trị trung bình hơn là với chế độ

Cuối cùng, nếu chúng ta có một tập dữ liệu khổng lồ và một vài hàng bị thiếu giá trị trong một số cột, thì cách dễ nhất và nhanh nhất là loại bỏ các cột đó. Vì tập dữ liệu lớn, nên dù sao thì việc bỏ một vài cột cũng không thành vấn đề

41. Lợi ích của việc giảm kích thước là gì?

Giảm kích thước làm giảm kích thước và kích thước của toàn bộ tập dữ liệu. Nó loại bỏ các tính năng không cần thiết trong khi vẫn giữ nguyên thông tin tổng thể trong dữ liệu. Giảm kích thước dẫn đến xử lý dữ liệu nhanh hơn

Lý do tại sao dữ liệu có kích thước lớn được coi là rất khó xử lý là vì nó dẫn đến tiêu tốn nhiều thời gian trong khi xử lý dữ liệu và đào tạo một mô hình trên đó. Việc giảm kích thước sẽ tăng tốc quá trình này, loại bỏ nhiễu và cũng dẫn đến độ chính xác của mô hình tốt hơn

42. Sự đánh đổi sai lệch-phương sai trong Khoa học dữ liệu là gì?

Khi xây dựng mô hình bằng Khoa học dữ liệu hoặc Máy học, mục tiêu của chúng tôi là xây dựng mô hình có độ lệch và phương sai thấp. Chúng tôi biết rằng sai lệch và phương sai đều là lỗi xảy ra do mô hình quá đơn giản hoặc mô hình quá phức tạp. Do đó, khi chúng ta xây dựng một mô hình, mục tiêu đạt được độ chính xác cao sẽ chỉ đạt được nếu chúng ta nhận thức được sự đánh đổi giữa sai lệch và phương sai.
Xu hướng là lỗi xảy ra khi một mô hình quá đơn giản để nắm bắt các mẫu trong tập dữ liệu. Để giảm sai lệch, chúng ta cần làm cho mô hình của mình phức tạp hơn. Mặc dù việc làm cho mô hình trở nên phức tạp hơn có thể dẫn đến giảm sai lệch và nếu chúng ta làm cho mô hình quá phức tạp, nó có thể trở nên quá cứng nhắc, dẫn đến phương sai cao. Vì vậy, sự cân bằng giữa sai lệch và phương sai là nếu chúng ta tăng độ phức tạp, thì sai lệch giảm và phương sai tăng lên, và nếu chúng ta giảm độ phức tạp, thì sai lệch tăng lên và phương sai giảm xuống. Mục tiêu của chúng tôi là tìm ra một điểm mà tại đó mô hình của chúng tôi đủ phức tạp để tạo ra độ lệch thấp nhưng không quá phức tạp để cuối cùng có phương sai cao.

43. RMSE là gì?

RMSE là viết tắt của lỗi bình phương trung bình gốc. Nó là thước đo độ chính xác trong hồi quy. RMSE cho phép chúng tôi tính toán mức độ lỗi do mô hình hồi quy tạo ra. Cách tính RMSE như sau

Đầu tiên, chúng tôi tính toán các lỗi trong các dự đoán được thực hiện bởi mô hình hồi quy. Đối với điều này, chúng tôi tính toán sự khác biệt giữa các giá trị thực tế và dự đoán. Sau đó, chúng tôi bình phương các lỗi

Sau bước này, chúng tôi tính giá trị trung bình của các lỗi bình phương và cuối cùng, chúng tôi lấy căn bậc hai của giá trị trung bình của các lỗi bình phương này. Con số này là RMSE và một mô hình có giá trị RMSE thấp hơn được coi là tạo ra các lỗi thấp hơn, i. e. , mô hình sẽ chính xác hơn

44. Chức năng hạt nhân trong SVM là gì?

Trong thuật toán SVM, hàm nhân là một hàm toán học đặc biệt. Nói một cách đơn giản, một hàm kernel lấy dữ liệu làm đầu vào và chuyển đổi nó thành một dạng bắt buộc. Việc chuyển đổi dữ liệu này dựa trên một thứ gọi là thủ thuật hạt nhân, đây là thứ đặt tên cho chức năng hạt nhân. Sử dụng hàm kernel, chúng ta có thể chuyển đổi dữ liệu không thể phân tách tuyến tính [không thể phân tách bằng đường thẳng] thành dữ liệu có thể phân tách tuyến tính

45. Làm thế nào chúng ta có thể chọn một giá trị thích hợp của k trong k-means?

Chọn đúng giá trị của k là một khía cạnh quan trọng của phân cụm k-means. Chúng ta có thể sử dụng phương pháp khuỷu tay để chọn giá trị k thích hợp. Để làm điều này, chúng tôi chạy thuật toán k-means trên một loạt các giá trị, e. g. , 1 đến 15. Đối với mỗi giá trị của k, chúng tôi tính điểm trung bình. Điểm số này còn được gọi là quán tính hoặc phương sai giữa các nhóm

Điều này được tính bằng tổng bình phương khoảng cách của tất cả các giá trị trong một cụm. Khi k bắt đầu từ giá trị thấp và tăng lên giá trị cao, chúng ta bắt đầu thấy giá trị quán tính giảm mạnh. Sau một giá trị nhất định của k, trong phạm vi, giá trị quán tính giảm xuống khá nhỏ. Đây là giá trị của k mà chúng ta cần chọn cho thuật toán phân cụm k-means

46. Làm thế nào chúng ta có thể đối phó với các ngoại lệ?

Ngoại lệ có thể được xử lý theo nhiều cách. Một cách là bỏ chúng. Chúng tôi chỉ có thể loại bỏ các ngoại lệ nếu chúng có giá trị không chính xác hoặc cực đoan. Ví dụ: nếu tập dữ liệu có trọng lượng của trẻ sơ sinh có giá trị 98. 6 độ Fahrenheit thì không chính xác. Bây giờ, nếu giá trị là 187 kg, thì đó là một giá trị cực đoan, không hữu ích cho mô hình của chúng tôi

Trong trường hợp các ngoại lệ không quá lớn, thì chúng ta có thể thử

Một loại mô hình khác nhau. Ví dụ: nếu chúng ta đang sử dụng mô hình tuyến tính, thì chúng ta có thể chọn mô hình phi tuyến tính
Chuẩn hóa dữ liệu, điều này sẽ dịch chuyển các giá trị cực đoan đến gần các điểm dữ liệu khác
Sử dụng các thuật toán không bị ảnh hưởng bởi các ngoại lệ, chẳng hạn như rừng ngẫu nhiên, v.v.

47. How to calculate the accuracy of a binary classification algorithm using its confusion matrix?

Trong thuật toán phân loại nhị phân, chúng ta chỉ có hai nhãn là Đúng và Sai. Trước khi có thể tính toán độ chính xác, chúng ta cần hiểu một số thuật ngữ chính

Tích cực thực sự. Số quan sát được phân loại chính xác là Đúng
Tiêu cực thực sự. Số quan sát được phân loại đúng là Sai
False positives. Số lượng quan sát được phân loại không chính xác là Đúng
Âm tính giả. Number of observations incorrectly classified as False

Để tính toán độ chính xác, chúng ta cần chia tổng các quan sát được phân loại chính xác cho tổng số quan sát. Điều này có thể được thể hiện như sau

48. What is ensemble learning?

When we are building models using Data Science and Machine Learning, our goal is to get a model that can understand the underlying trends in the training data and can make predictions or classifications with a high level of accuracy

However, sometimes some datasets are very complex, and it is difficult for one model to be able to grasp the underlying trends in these datasets. In such situations, we combine several individual models together to improve performance. This is what is called ensemble learning

49. Explain collaborative filtering in recommender systems

Collaborative filtering is a technique used to build recommender systems. In this technique, to generate recommendations, we make use of data about the likes and dislikes of users similar to other users. This similarity is estimated based on several varying factors, such as age, gender, locality, etc

If User A, similar to User B, watched and liked a movie, then that movie will be recommended to User B, and similarly, if User B watched and liked a movie, then that would be recommended to User A

In other words, the content of the movie does not matter much. When recommending it to a user what matters is if other users similar to that particular user liked the content of the movie or not

50. Explain content-based filtering in recommender systems

Content-based filtering is one of the techniques used to build recommender systems. In this technique, recommendations are generated by making use of the properties of the content that a user is interested in

For example, if a user is watching movies belonging to the action and mystery genre and giving them good ratings, it is a clear indication that the user likes movies of this kind. If shown movies of a similar genre as recommendations, there is a higher probability that the user would like those recommendations as well

In other words, here, the content of the movie is taken into consideration when generating recommendations for users

51. Explain bagging in Data Science

Bagging is an ensemble learning method. It stands for bootstrap aggregating. In this technique, we generate some data using the bootstrap method, in which we use an already existing dataset and generate multiple samples of the N size. This bootstrapped data is then used to train multiple models in parallel, which makes the bagging model more robust than a simple model

Once all the models are trained, when it’s time to make a prediction, we make predictions using all the trained models and then average the result in the case of regression, and for classification, we choose the result, generated by models, that have the highest frequency

52. Explain boosting in Data Science

Boosting is one of the ensemble learning methods. Unlike bagging, it is not a technique used to parallelly train our models. In boosting, we create multiple models and sequentially train them by combining weak models iteratively in a way that training a new model depends on the models trained before it

In doing so, we take the patterns learned by a previous model and test them on a dataset when training the new model. In each iteration, we give more importance to observations in the dataset that are incorrectly handled or predicted by previous models. Boosting is useful in reducing bias in models as well

53. Explain stacking in Data Science

Just like bagging and boosting, stacking is also an ensemble learning method. Trong đóng gói và tăng tốc, chúng tôi chỉ có thể kết hợp các mô hình yếu sử dụng cùng một thuật toán học tập, e. g. , logistic regression. These models are called homogeneous learners

Tuy nhiên, trong xếp chồng, chúng ta cũng có thể kết hợp các mô hình yếu sử dụng các thuật toán học khác nhau. Những người học này được gọi là người học không đồng nhất. Xếp chồng hoạt động bằng cách đào tạo nhiều mô hình hoặc người học yếu [và khác nhau], sau đó sử dụng chúng cùng nhau bằng cách đào tạo một mô hình khác, được gọi là siêu mô hình, để đưa ra dự đoán dựa trên nhiều kết quả dự đoán được trả về bởi nhiều mô hình yếu này

54. Giải thích Machine Learning khác với Deep Learning như thế nào

Một lĩnh vực khoa học máy tính, Học máy là một lĩnh vực con của Khoa học dữ liệu liên quan đến việc sử dụng dữ liệu hiện có để giúp các hệ thống tự động học các kỹ năng mới để thực hiện các tác vụ khác nhau mà không cần lập trình các quy tắc rõ ràng

Mặt khác, Deep Learning là một lĩnh vực trong Machine Learning liên quan đến việc xây dựng các mô hình Machine Learning bằng các thuật toán cố gắng bắt chước quá trình bộ não con người học từ thông tin trong một hệ thống để đạt được các khả năng mới. Trong Deep Learning, chúng tôi sử dụng rất nhiều mạng thần kinh được kết nối sâu với nhiều lớp

55. Từ 'Naive' có nghĩa là gì trong Naive Bayes?

Naive Bayes là một thuật toán Khoa học dữ liệu. Nó có từ 'Bayes' trong đó bởi vì nó dựa trên định lý Bayes, liên quan đến xác suất của một sự kiện xảy ra khi một sự kiện khác đã xảy ra

Nó có 'ngây thơ' trong đó vì nó đưa ra giả định rằng mỗi biến trong tập dữ liệu là độc lập với biến khác. Loại giả định này là không thực tế đối với dữ liệu trong thế giới thực. Tuy nhiên, ngay cả với giả định này, nó vẫn rất hữu ích để giải quyết một loạt các vấn đề phức tạp, chẳng hạn như. g. , phân loại thư rác, v.v.

Để tìm hiểu thêm về Khoa học dữ liệu, hãy xem Khóa học về khoa học dữ liệu của chúng tôi ở Hyderabad

Câu hỏi phỏng vấn khoa học dữ liệu nâng cao

56. Từ tập dữ liệu 'kim cương' được cung cấp bên dưới, chỉ trích xuất những hàng có giá trị 'giá' lớn hơn 1000 và 'cắt' là lý tưởng

Đầu tiên, chúng tôi sẽ tải gói ggplot2

library[ggplot2]

Tiếp theo, chúng ta sẽ sử dụng gói dplyr

library[dplyr]// It is based on the grammar of data manipulation.

Để trích xuất các bản ghi cụ thể đó, hãy sử dụng lệnh bên dưới

diamonds %>% filter[price>1000 & cut==”Ideal”]-> diamonds_1000_idea

57. Tạo biểu đồ phân tán giữa 'giá' và 'carat' bằng ggplot. 'Giá' phải nằm trên trục y, 'carat' phải nằm trên trục x và 'màu sắc' của các điểm phải được xác định bằng 'cắt. ’

Chúng tôi sẽ triển khai biểu đồ phân tán bằng ggplot

ggplot dựa trên ngữ pháp trực quan hóa dữ liệu và nó giúp chúng ta xếp chồng nhiều lớp lên nhau

Vì vậy, chúng tôi sẽ bắt đầu với lớp dữ liệu và trên lớp dữ liệu, chúng tôi sẽ xếp lớp thẩm mỹ. Cuối cùng, trên lớp thẩm mỹ, chúng ta sẽ xếp lớp hình học

Mã số

>ggplot[data=diamonds, aes[x=caret, y=price, col=cut]]+geom_point[]

58. Giới thiệu 25 phần trăm giá trị còn thiếu trong tập dữ liệu 'iris' này và gán giá trị 'Sepal. Cột chiều dài với 'trung bình' và 'Cánh hoa'. Cột chiều dài với 'trung bình. ’

Để giới thiệu các giá trị còn thiếu, chúng tôi sẽ sử dụng gói missForest

library[missForest]

Sử dụng chức năng prodNA, chúng tôi sẽ giới thiệu 25 phần trăm giá trị còn thiếu

Iris.misggplot[data=diamonds, aes[x=caret, y=price, col=cut]]+geom_point[]

In the structure of this dataframe, most of the values are integers. However, since we are building a logistic regression model on top of this dataset, the final target column is supposed to be categorical. It cannot be an integer. So, we will go ahead and convert them into a factor.
Thus, we will use the as. factor function and convert these integer values into categorical data.
We will pass on heart$target column over here and store the result in heart$target as follows.

>ggplot[data=diamonds, aes[x=caret, y=price, col=cut]]+geom_point[]

Now, we will build a logistic regression model and see the different probability values for the person to have heart disease on the basis of different age values

To build a logistic regression model, we will use the glm function

>ggplot[data=diamonds, aes[x=caret, y=price, col=cut]]+geom_point[]

Here, target~age indicates that the target is the dependent variable and the age is the independent variable, and we are building this model on top of the dataframe

family=”binomial” means we are basically telling R that this is the logistic regression model, and we will store the result in log_mod1

We will have a glance at the summary of the model that we have just built

>ggplot[data=diamonds, aes[x=caret, y=price, col=cut]]+geom_point[]

We can see Pr value here, and there are three stars associated with this Pr value. This basically means that we can reject the null hypothesis which states that there is no relationship between the age and the target columns. But since we have three stars over here, this null hypothesis can be rejected. There is a strong relationship between the age column and the target column

Now, we have other parameters like null deviance and residual deviance. Lower the deviance value, the better the model

This null deviance basically tells the deviance of the model, i. e. , when we don’t have any independent variable and we are trying to predict the value of the target column with only the intercept. When that’s the case, the null deviance is 417. 64

Residual deviance is wherein we include the independent variables and try to predict the target columns. Hence, when we include the independent variable which is age, we see that the residual deviance drops. Initially, when there are no independent variables, the null deviance was 417. After we include the age column, we see that the null deviance is reduced to 401

This basically means that there is a strong relationship between the age column and the target column and that is why the deviance is reduced

As we have built the model, it’s time to predict some values

>ggplot[data=diamonds, aes[x=caret, y=price, col=cut]]+geom_point[]

Now, we will divide this dataset into train and test sets and build a model on top of the train set and predict the values on top of the test set

>ggplot[data=diamonds, aes[x=caret, y=price, col=cut]]+geom_point[]

63. Build an ROC curve for the model built

The below code will help us in building the ROC curve

>ggplot[data=diamonds, aes[x=caret, y=price, col=cut]]+geom_point[]

Graph.

Go through this Data Science Course in London to get a clear understanding of Data Science

64. Build a confusion matrix for the model where the threshold value for the probability of predicted values is 0. 6, and also find the accuracy of the model

Accuracy is calculated as

Accuracy = [True positives + true negatives]/[True positives+ true negatives + false positives + false negatives]

To build a confusion matrix in R, we will use the table function

>ggplot[data=diamonds, aes[x=caret, y=price, col=cut]]+geom_point[]

Here, we are setting the probability threshold as 0. 6. So, wherever the probability of pred_heart is greater than 0. 6, it will be classified as 0, and wherever it is less than 0. 6 it will be classified as 1

Then, we calculate the accuracy by the formula for calculating Accuracy

65. Build a logistic regression model on the ‘customer_churn’ dataset in Python. The dependent variable is ‘Churn’ and the independent variable is ‘MonthlyCharges. ’ Find the log_loss of the model

First, we will load the pandas dataframe and the customer_churn. csv file

library[missForest]

After loading this dataset, we can have a glance at the head of the dataset by using the following command

library[missForest]

Now, we will separate the dependent and the independent variables into two separate objects

library[missForest]

Now, we will see how to build the model and calculate log_loss

library[missForest]

As we are supposed to calculate the log_loss, we will import it from sklearn. metrics

library[missForest]

đầu ra

library[missForest]

Become a master of Data Science by going through this online Data Science Course in Toronto

66. Build a decision tree model on ‘Iris’ dataset where the dependent variable is ‘Species,’ and all other columns are independent variables. Find the accuracy of the model built

To build a decision tree model, we will be loading the party package

library[missForest]

Now we will plot the model

library[missForest]

Model

library[missForest]

After this, we will predict the confusion matrix and then calculate the accuracy using the table function

library[missForest]

67. Xây dựng mô hình rừng ngẫu nhiên trên tập dữ liệu 'CTG' này, trong đó 'NSP' là biến phụ thuộc và tất cả các cột khác là biến độc lập

We will load the CTG dataset by using read. csv

Iris.mis