Nhận dạng giọng nói tiếng việt trăn
Bạn đã bao giờ tự hỏi làm thế nào để thêm nhận dạng giọng nói vào dự án Python của mình? . Nó dễ dàng hơn bạn nghĩ Show
Không còn là lỗi thứ nhất, sự thành công vượt bậc của các sản phẩm hỗ trợ giọng nói như Amazon Alexa đã chứng minh rằng hỗ trợ giọng nói ở mức độ nào đó sẽ là một khía cạnh thiết yếu của công nghệ gia dụng . Nếu bạn nghĩ về nó, lý do tại sao là rõ ràng. Kết hợp tính năng nhận dạng giọng nói vào ứng dụng Python của bạn mang lại mức độ tương tác và khả năng truy cập mà ít công nghệ nào có thể so sánh được Chỉ riêng các cải tiến về khả năng tiếp cận cũng đáng được xem xét Nhận định dạng âm thanh nói cho phép người già và người trưởng thành tương tác với các sản phẩm và dịch vụ hiện đại một cách nhanh chóng và tự nhiên — không cần GUI Hơn hết, bao gồm cả nhận dạng giọng nói trong một dự án Python thực sự đơn giản. Trong hướng dẫn này, bạn sẽ tìm hiểu cách thực hiện. You will learn
Cuối cùng, bạn sẽ áp dụng những gì bạn đã học được vào trò chơi “Đoán từ” đơn giản và xem tất cả kết hợp với nhau như thế nào Cách hoạt động của tính năng Nhận dạng giọng nói - Tổng quanTrước khi chúng ta đi đến thực tế của việc thực hiện nhận dạng giọng nói bằng Python, hãy dành một chút thời gian để nói về cách hoạt động của nhận dạng giọng nói. Một cuộc thảo luận đầy đủ sẽ bao gồm đầy đủ một cuốn sách, vì vậy tôi sẽ không cung cấp cho bạn tất cả các chi tiết kỹ thuật ở đây. Trên thực tế, phần này không bắt buộc đối với phần còn lại của hướng dẫn. Nếu bạn muốn đi thẳng vào vấn đề, vui lòng bỏ qua Nhận dạng giọng nói bắt nguồn từ nghiên cứu được thực hiện tại Bell Labs vào đầu những năm 1950. Các hệ thống ban đầu chỉ giới hạn ở một người nói duy nhất và có lượng từ vựng giới hạn khoảng một số lượng từ. Các hệ thống nhận dạng giọng nói hiện đại đã có một làn gió dài kể từ những hệ thống cổ xưa của họ. Họ có thể nhận dạng bài phát biểu từ nhiều người nói và có vốn từ vựng và nhiều ngôn ngữ Tất nhiên, thành phần đầu tiên của nhận dạng giọng nói là giọng nói. Lời nói phải được chuyển đổi từ âm thanh vật lý sang tín hiệu điện bằng nơ, sau đó sang dữ liệu kỹ thuật số bằng bộ chuyển đổi tương tự sang kỹ thuật số. Sau khi được số hóa, một số mô hình có thể được sử dụng để chuyển âm thanh thành văn bản Hầu hết các hệ thống nhận dạng giọng nói hiện đại dựa trên cái được gọi là Mô hình Markov ẩn (HMM). Cách tiếp cận này hoạt động dựa trên giả định rằng một tín hiệu âm thanh nói, khi được xem trong một khoảng thời gian đủ ngắn (ví dụ, mười mili giây), có thể gần đúng một cách hợp lý như một quá trình tĩnh — Trong HMM điển hình, tín hiệu lời nói được chia thành các đoạn dài 10 mili giây. Phổ công suất của mỗi đoạn, về cơ bản là một đồ thị công suất của tín hiệu như một hàm của tần số, được ánh xạ tới một góc nhìn của các số thực được gọi là hệ thống số cepstral. Thứ nguyên của màn hình này thường nhỏ — đôi khi thấp nhất là 10, mặc dù các hệ thống chính xác hơn có thể có thứ nguyên 32 trở lên. Đầu ra cuối cùng của HMM là một chuỗi các màn hình này Để giải mã lời nói thành văn bản, các nhóm màn hình được đối chiếu với một hoặc nhiều âm vị —một đơn vị cơ bản của lời nói. Việc tính toán này yêu cầu phải được đào tạo, vì âm thanh của một vị trí âm thanh thay đổi từ người nói này sang người nói khác, và thậm chí thay đổi từ cách phát âm này sang cách phát âm khác của cùng một người nói. Một thuật toán đặc biệt sau đó được áp dụng để xác định từ (hoặc các từ) có nhiều khả năng nhất để tạo ra chuỗi âm thanh định vị nhất Người ta có thể tưởng tượng rằng toàn bộ quá trình này có thể tốn kém về mặt tính toán. Trong nhiều hệ thống nhận dạng tín hiệu nói hiện đại, mạng nơ-ron được sử dụng để đơn giản hóa tín hiệu nói giọng bằng cách sử dụng các kỹ thuật chuyển đổi đặc trưng và kích thước trước khi giảm định dạng HMM. Bộ phát hiện hoạt động giọng nói (VAD) cũng được sử dụng để giảm tín hiệu âm thanh xuống chỉ những phần có khả năng bao gồm giọng nói. Điều này ngăn bộ nhận dạng mất thời gian phân tích các phần không cần thiết của tín hiệu May mắn thay, là một lập trình viên Python, bạn không cần phải lo lắng về bất kỳ điều gì trong số này. Một số dịch vụ nhận định dạng giọng nói có sẵn để sử dụng API thông tin trực tuyến và nhiều dịch vụ trong số này cung cấp SDK Python Chọn gói nhận dạng giọng nói PythonCó một số gói để nhận định dạng giọng nói trên PyPI. Một vài trong số họ bao gồm
Một số gói này — chẳng hạn như wit và apiai — cung cấp các tính năng hợp nhất vượt trội, như lý do ngôn ngữ tự nhiên để xác định ý định của người nói, xử lý ra bên ngoài nhận dạng giọng nói cơ bản. Những người khác, chẳng hạn như google-cloud-speech, chỉ tập trung vào chuyển giọng nói thành văn bản Có một gói nổi bật về tính năng dễ sử dụng. Nhận dạng giọng nói Nhận dạng giọng nói yêu cầu đầu vào âm thanh và SpeechRecognition giúp việc truy xuất đầu vào này thực sự dễ dàng. Thay vì phải xây dựng các tập lệnh để truy cập ẩn và xử lý các tập tin âm thanh từ đầu, SpeechRecognition sẽ giúp bạn thiết lập và chạy chỉ trong vài phút Thư viện SpeechRecognition hoạt động như một trình bao bọc cho một số API giọng nói phổ biến và làm điều đó cực kỳ linh hoạt. Một trong số này — API Web Speech của Google — Hỗ trợ khóa API mặc định được mã hóa phần cứng vào thư viện SpeechRecognition. Điều đó có nghĩa là bạn có thể xuống chân mà không cần phải đăng ký dịch vụ Tính linh hoạt và dễ sử dụng của gói SpeechRecognition khiến nó trở thành lựa chọn tuyệt vời cho bất kỳ dự án Python nào. Tuy nhiên, không đảm bảo hỗ trợ cho mọi tính năng của mỗi API mà nó kết thúc. Bạn sẽ cần dành một chút thời gian nghiên cứu các tùy chọn có sẵn để tìm hiểu xem liệu SpeechRecognition có hoạt động trong trường hợp cụ thể của bạn hay không Vì vậy, bây giờ bạn đã thuyết phục rằng bạn nên thử SpeechRecognition, bước tiếp theo là cài đặt nó trong môi trường của bạn Cài đặt SpeechRecognitionSpeechRecognition tương thích với Python 2. 6, 2. 7 và 3. 3+, but request a number. Đối với hướng dẫn này, tôi sẽ giả sử bạn đang sử dụng Python 3. 3+ Bạn có thể cài đặt SpeechRecognition từ một thiết bị đầu cuối bằng pip
Sau khi cài đặt, bạn phải xác minh cài đặt bằng cách mở phiên bản dịch và nhập >>>
Lưu ý. Số phiên bản bạn nhận được có thể khác nhau. Version 3. 8. 1 là phiên bản mới nhất tại thời điểm viết bài Please continue and keep for this open version. Bạn sẽ bắt đầu làm việc với nó chỉ trong vài giây SpeechRecognition sẽ hoạt động hiệu quả nếu tất cả những gì bạn cần làm đều hoạt động với các tệp âm thanh hiện có. Tuy nhiên, các trường hợp cụ thể sử dụng có thể yêu cầu một số phụ thuộc. Đáng chú ý, gói PyAudio là thiết bị cần thiết để bắt đầu nhập vào chương trình Bạn sẽ thấy những phụ thuộc nào bạn cần khi đọc thêm. Bây giờ, hãy đi sâu vào và khám phá những điều cơ bản của gói các Traceback (most recent call last):
File " |