Python ai trợ lý github ✅ 2023
Kinh Nghiệm về Python ai trợ lý github Chi Tiết
Lã Tuấn Dũng đang tìm kiếm từ khóa Python ai trợ lý github được Cập Nhật vào lúc : 2022-12-18 02:05:10 . Với phương châm chia sẻ Bí quyết Hướng dẫn trong nội dung bài viết một cách Chi Tiết 2022. Nếu sau khi tham khảo nội dung bài viết vẫn ko hiểu thì hoàn toàn có thể lại phản hồi ở cuối bài để Admin lý giải và hướng dẫn lại nha.Trang Thọ việt Mì AI hội nhật động dục chia sẻ những tài liệu hội có cho những bảnh có nhu chủ điểm tham đọc nhé. Đại ra, Đồng có ngân sách duy trì máy chạn, tên miền, Mì AI xin mộng bội trịn thị quảng cáo trong link
Nội dung chính Show- Cách thức hoạt động và sinh hoạt giải trí của tính năng Nhận dạng giọng nói - Tổng quanChọn gói nhận dạng giọng nói PythonCài đặt SpeechRecognitionLớp học Traceback (most recent call last):
File "
Xin ơn những bảnh
Tuyên bố từ chối trách nhiệm bản quyền. Trang web này sẽ không tàng trữ bất kỳ tệp nào trên sever của nó. Chúng tôi chỉ lập chỉ mục và link đến nội dung được đáp ứng bởi những trang web khác. Vui lòng liên hệ với nhà đáp ứng nội dung để xóa nội dung bản quyền nếu có và gửi email cho chúng tôi, chúng tôi sẽ xóa những link hoặc nội dung có liên quan ngay lập tức
Tuyên bố miễn phí bản sao. Trang web nào không đến đến đến đến đến trần mây của nó. Đôn đốc tị tập tục phầu và link đến dung đết đáp ứng trích xuất những trang web ảnh của bạn. Vui lộ link hội thao những bạn giải phóng nội dung để cố định và thắt chặt nội dung bản chất nếu có và email cho những người dân, nước của những link nội dung tại dung
Bạn đã bao giờ tự hỏi làm thế nào để thêm nhận dạng giọng nói vào dự án công trình bất Động sản Python của tớ chưa? . Nó thuận tiện và đơn giản hơn bạn nghĩ
Không phải là mốt nhất thời, sự thành công vượt bậc của những sản phẩm tương hỗ giọng nói như Amazon Alexa đã chứng tỏ rằng tương hỗ giọng nói ở một mức độ nào đó sẽ là một khía cạnh thiết yếu của công nghệ tiên tiến gia dụng trong tương lai gần. Nếu bạn nghĩ về nó, nguyên do tại sao khá rõ ràng. Việc phối hợp nhận dạng giọng nói vào ứng dụng Python của bạn mang lại mức độ tương tác và kĩ năng truy cập mà ít công nghệ tiên tiến hoàn toàn có thể sánh kịp
Chỉ riêng những tăng cấp cải tiến về kĩ năng truy cập cũng đáng xem xét. Tính năng nhận dạng giọng nói được cho phép người già, người khiếm thị và thể chất tương tác với những sản phẩm và dịch vụ tân tiến một cách nhanh gọn và tự nhiên—không cần GUI
Hơn hết, gồm có nhận dạng giọng nói trong một dự án công trình bất Động sản Python thực sự đơn giản. Trong hướng dẫn này, bạn sẽ tìm hiểu làm thế nào. Bạn sẽ học
- Cách hoạt động và sinh hoạt giải trí của tính năng nhận dạng giọng nóiNhững gói nào có sẵn trên PyPI; Cách setup và sử dụng gói SpeechRecognition—thư viện nhận dạng giọng nói Python đầy đủ tính năng và dễ sử dụng
Cuối cùng, bạn sẽ áp dụng những gì đã học vào một trò chơi "Đoán từ" đơn giản và xem mọi thứ kết phù phù hợp với nhau ra làm sao
Tiền thưởng miễn phí. Nhấp vào đây để tải xuống dự án công trình bất Động sản mẫu nhận dạng giọng nói Python với mã nguồn đầy đủ mà bạn hoàn toàn có thể sử dụng làm cơ sở cho những ứng dụng nhận dạng giọng nói của riêng mình
Cách thức hoạt động và sinh hoạt giải trí của tính năng Nhận dạng giọng nói - Tổng quan
Trước khi tất cả chúng ta tìm hiểu sâu về nhận dạng giọng nói trong Python, hãy dành một chút ít thời gian để nói về cách hoạt động và sinh hoạt giải trí của nhận dạng giọng nói. Một cuộc thảo luận đầy đủ sẽ lấp đầy một cuốn sách, vì vậy tôi sẽ không làm bạn nhàm chán với tất cả những cụ ông cụ bà thể kỹ thuật ở đây. Trên thực tế, phần này sẽ không phải là vấn đề kiện tiên quyết cho phần còn sót lại của hướng dẫn. Nếu bạn muốn đi thẳng vào vấn đề, xin vui lòng bỏ qua phía trước
Nhận dạng giọng nói bắt nguồn từ nghiên cứu và phân tích được thực hiện tại Bell Labs vào đầu trong năm 1950. Các khối mạng lưới hệ thống ban đầu chỉ số lượng giới hạn ở một người nói và có lượng từ vựng số lượng giới hạn khoảng chừng một chục từ. Các khối mạng lưới hệ thống nhận dạng giọng nói tân tiến đã đi một đoạn đường dài Tính từ lúc những đối tác cổ đại của chúng. Họ hoàn toàn có thể nhận ra lời nói từ nhiều người nói và có vốn từ vựng khổng lồ trong nhiều ngôn từ
Tất nhiên, thành phần đầu tiên của nhận dạng giọng nói là giọng nói. Lời nói phải được quy đổi từ âm thanh vật lý thành tín hiệu điện bằng micrô, sau đó thành tài liệu kỹ thuật số bằng bộ quy đổi tương tự sang kỹ thuật số. Sau khi được số hóa, một số trong những quy mô hoàn toàn có thể được sử dụng để chuyển âm thanh thành văn bản
Hầu hết những khối mạng lưới hệ thống nhận dạng giọng nói tân tiến đều nhờ vào cái được gọi là Mô hình Markov ẩn (HMM). Cách tiếp cận này hoạt động và sinh hoạt giải trí nhờ vào giả định rằng tín hiệu giọng nói, khi được xem trong khoảng chừng thời gian đủ ngắn (ví dụ: mười mili giây), hoàn toàn có thể được ước lượng một cách hợp lý dưới dạng một quá trình cố định và thắt chặt—tức là một quá trình trong đó những thuộc tính thống kê không thay đổi theo thời gian
Trong một HMM điển hình, tín hiệu tiếng nói được phân thành những đoạn 10 mili giây. Phổ hiệu suất của từng đoạn, về cơ bản là đồ thị hiệu suất của tín hiệu dưới dạng hàm tần số, được ánh xạ tới một vectơ số thực được gọi là thông số cepstral. Kích thước của vectơ này thường nhỏ—đôi khi thấp bằng 10, tuy nhiên những khối mạng lưới hệ thống đúng chuẩn hơn hoàn toàn có thể có kích thước từ 32 trở lên. Đầu ra ở đầu cuối của HMM là một chuỗi những vectơ này
Để giải thuật lời nói thành văn bản, những nhóm vectơ được khớp với một hoặc nhiều âm vị—đơn vị cơ bản của lời nói. Tính toán này đòi hỏi phải được đào tạo, vì âm thanh của một âm vị thay đổi từ người nói này sang người nói khác và thậm chí thay đổi từ cách phát biểu này sang cách phát biểu khác của cùng một người nói. Sau đó, một thuật toán đặc biệt được áp dụng để xác định từ (hoặc những từ) hoàn toàn có thể tạo ra chuỗi âm vị nhất định
Người ta hoàn toàn có thể tưởng tượng rằng toàn bộ quá trình này hoàn toàn có thể tốn kém về mặt tính toán. Trong nhiều khối mạng lưới hệ thống nhận dạng giọng nói tân tiến, mạng thần kinh được sử dụng để đơn giản hóa tín hiệu giọng nói bằng phương pháp sử dụng những kỹ thuật quy đổi tính năng và giảm kích thước trước khi nhận dạng HMM. Trình phát hiện hoạt động và sinh hoạt giải trí giọng nói (VAD) cũng khá được sử dụng để giảm tín hiệu âm thanh xuống chỉ những phần hoàn toàn có thể chứa lời nói. Điều này ngăn bộ nhận dạng tiêu tốn lãng phí thời gian phân tích những phần không thiết yếu của tín hiệu
May mắn thay, là một lập trình viên Python, bạn không phải lo ngại về bất kỳ điều gì trong số này. Một số dịch vụ nhận dạng giọng nói có sẵn để sử dụng trực tuyến thông qua API và nhiều dịch vụ trong số này đáp ứng Python SDK
Loại bỏ những quảng cáoChọn gói nhận dạng giọng nói Python
Một số gói nhận dạng giọng nói tồn tại trên PyPI. Một vài trong số họ gồm có
- apiailắp rápgoogle-cloud-speechnhân sư móc túiNhận dạng giọng nóiwatson-nhà phát triển-đám mâymưu mẹo
Một số gói này—ví dụ như wit và apiai—đáp ứng những tính năng tích hợp sẵn, ví dụ như xử lý ngôn từ tự nhiên để xác định ý định của người nói, vượt xa tính năng nhận dạng giọng nói cơ bản. Những người khác, như google-cloud-speech, chỉ tập trung vào quy đổi lời nói thành văn bản
Có một gói nổi bật về tính dễ sử dụng. Nhận dạng giọng nói
Nhận dạng giọng nói yêu cầu đầu vào âm thanh và Nhận dạng giọng nói giúp truy xuất đầu vào này thực sự thuận tiện và đơn giản. Thay vì phải xây dựng tập lệnh để truy cập micrô và xử lý tệp âm thanh từ đầu, Nhận dạng giọng nói sẽ giúp bạn thiết lập và chạy chỉ trong vài phút
Thư viện SpeechRecognition hoạt động và sinh hoạt giải trí như một trình bao bọc cho một số trong những API giọng nói phổ biến và do đó cực kỳ linh hoạt. Một trong số đó—Google Web Speech API—tương hỗ khóa API mặc định được mã hóa cứng vào thư viện SpeechRecognition. Điều đó nghĩa là bạn hoàn toàn có thể rời khỏi đôi chân của tớ mà tránh việc phải đăng ký dịch vụ
Tính linh hoạt và dễ sử dụng của gói SpeechRecognition khiến nó trở thành lựa chọn tuyệt vời cho bất kỳ dự án công trình bất Động sản Python nào. Tuy nhiên, tương hỗ cho mọi tính năng của từng API mà nó bao bọc không được đảm bảo. Bạn sẽ cần dành thời gian nghiên cứu và phân tích những tùy chọn có sẵn để tìm hiểu xem Nhận dạng giọng nói có hoạt động và sinh hoạt giải trí trong trường hợp rõ ràng của bạn không
Vì vậy, giờ đây bạn đã chắc như đinh rằng mình nên dùng thử Nhận dạng giọng nói, bước tiếp theo là setup nó trong môi trường tự nhiên thiên nhiên của bạn
Cài đặt SpeechRecognition
SpeechRecognition tương thích với Python 2. 6, 2. 7 và 3. 3+, nhưng yêu cầu một số trong những bước setup tương hỗ update cho Python 2. Đối với hướng dẫn này, tôi sẽ nhận định rằng bạn đang sử dụng Python 3. 3+
Bạn hoàn toàn có thể setup SpeechRecognition từ một thiết bị đầu cuối với pip
$ pip install SpeechRecognitionSau khi setup, bạn nên xác minh setup bằng phương pháp mở phiên thông dịch và gõ
>>>
>>> import speech_recognition as sr >>> sr.__version__ '3.8.1'Ghi chú. Số phiên bản bạn nhận được hoàn toàn có thể thay đổi. Phiên bản 3. 8. 1 là tiên tiến nhất tại thời điểm viết
Tiếp tục và giữ phiên này mở. Bạn sẽ khởi đầu thao tác với nó chỉ trong chốc lát
SpeechRecognition sẽ hoạt động và sinh hoạt giải trí tốt nếu tất cả những gì bạn cần làm là thao tác với những tệp âm thanh hiện có. Tuy nhiên, những trường hợp sử dụng rõ ràng yêu cầu một số trong những phụ thuộc. Đáng để ý quan tâm, gói PyAudio là thiết yếu để thu đầu vào micrô
Bạn sẽ thấy những phụ thuộc nào bạn cần khi đọc thêm. Bây giờ, hãy đi sâu vào và mày mò những điều cơ bản của gói
Lớp học Traceback (most recent call last):
File "", line 1, in
TypeError: recognize_google() missing 1 required positional argument: 'audio_data'
1
Tất cả điều kỳ diệu trong Nhận dạng giọng nói xảy ra với lớp
Traceback (most recent call last): File "Tất nhiên, mục tiêu chính của phiên bản
Traceback (most recent call last): File "Tạo một phiên bản
Traceback (most recent call last): File ">>>
>>> r = sr.Recognizer()Mỗi phiên bản
Traceback (most recent call last): File "- Traceback (most recent call last):
File "
Trong số bảy, chỉ có
>>> import speech_recognition as sr >>> sr.__version__ '3.8.1' 21 hoạt động và sinh hoạt giải trí ngoại tuyến với công cụ CMU Sphinx. Sáu cái còn sót lại đều yêu cầu link internetMột cuộc thảo luận đầy đủ về những tính năng và quyền lợi của từng API nằm ngoài phạm vi của hướng dẫn này. Vì SpeechRecognition đáp ứng một khóa API mặc định cho Google Web Speech API, bạn hoàn toàn có thể khởi đầu với nó ngay lập tức. Vì nguyên do này, chúng tôi sẽ sử dụng Web Speech API trong hướng dẫn này. Sáu API khác đều yêu cầu xác thực bằng khóa API hoặc phối hợp tên người tiêu dùng/mật khẩu. Để biết thêm thông tin, hãy tham khảo tài liệu SpeechRecognition
thận trọng. Khóa mặc định do SpeechRecognition đáp ứng chỉ dành riêng cho mục tiêu thử nghiệm và Google hoàn toàn có thể thu hồi khóa này bất kỳ lúc nào. Không nên sử dụng Google Web Speech API trong sản xuất. Ngay cả với khóa API hợp lệ, bạn sẽ chỉ được số lượng giới hạn ở 50 yêu cầu mỗi ngày và không còn cách nào để tăng hạn ngạch này. May mắn thay, giao diện của SpeechRecognition gần như thể giống hệt nhau cho từng API, vì vậy những gì bạn học ngày hôm nay sẽ thuận tiện và đơn giản chuyển sang một dự án công trình bất Động sản trong thế giới thực
Mỗi phương thức
>>> import speech_recognition as sr >>> sr.__version__ '3.8.1' 24 sẽ đưa ra một ngoại lệ >>> import speech_recognition as sr >>> sr.__version__ '3.8.1' 25 nếu API không thể truy cập được. Đối với >>> import speech_recognition as sr >>> sr.__version__ '3.8.1' 21, điều này hoàn toàn có thể xảy ra do setup Sphinx bị thiếu, hỏng hoặc không tương thích. Đối với sáu phương pháp khác, hoàn toàn có thể ném >>> import speech_recognition as sr >>> sr.__version__ '3.8.1' 27 nếu đáp ứng số lượng giới hạn hạn ngạch, sever không khả dụng hoặc không còn link internetOk, tán gẫu đủ rồi. Hãy làm bẩn tay tất cả chúng ta. Hãy tiếp tục và nỗ lực gọi cho
Traceback (most recent call last): File ">>>
Traceback (most recent call last): File "Chuyện gì đã xảy ra thế?
Bạn hoàn toàn có thể có một chiếc gì đó trông in như vậy này
Traceback (most recent call last): File "Bạn hoàn toàn có thể đoán điều này sẽ xảy ra. Làm thế nào một chiếc gì đó hoàn toàn có thể được nhận ra từ không còn gì?
Tất cả bảy phương thức
>>> import speech_recognition as sr >>> sr.__version__ '3.8.1' 24 của lớp Traceback (most recent call last): File "Có hai phương pháp để tạo một phiên bản
Traceback (most recent call last): File "Làm việc với tệp âm thanh
Trước khi tiếp tục, bạn cần tải xuống một tệp âm thanh. Cái mà tôi đã từng khởi đầu, “Harvard. wav,” hoàn toàn có thể được tìm thấy ở đây. Đảm nói rằng bạn lưu nó vào cùng thư mục mà phiên thông dịch Python của bạn đang chạy
SpeechRecognition giúp thao tác với những tệp âm thanh thuận tiện và đơn giản nhờ lớp
Traceback (most recent call last): File "Các loại tệp được tương hỗ
Hiện tại, SpeechRecognition tương hỗ những định dạng tệp sau
- WAV. phải ở định dạng PCM/LPCMAIFFAIFF-CFLAC. phải là định dạng FLAC gốc;
Nếu bạn đang thao tác trên Linux, macOS hoặc Windows nhờ vào x-86, bạn sẽ hoàn toàn có thể thao tác với những tệp FLAC mà không gặp sự cố. Trên những nền tảng khác, bạn sẽ cần setup bộ mã hóa FLAC và đảm bảo bạn có quyền truy cập vào công cụ dòng lệnh
Traceback (most recent call last): File "Sử dụng Traceback (most recent call last):
File "", line 1, in
TypeError: recognize_google() missing 1 required positional argument: 'audio_data'
57 để thu thập tài liệu từ một tệp
Nhập nội dung sau vào phiên phiên dịch của bạn để xử lý nội dung của “harvard. tập tin wav”
>>>
>>> import speech_recognition as sr >>> sr.__version__ '3.8.1' 2Trình quản lý toàn cảnh mở tệp và đọc nội dung của nó, tàng trữ tài liệu trong một phiên bản
Traceback (most recent call last): File ">>>
Traceback (most recent call last): File "Bây giờ bạn hoàn toàn có thể gọi
Traceback (most recent call last): File ">>>
Traceback (most recent call last): File "Xin chúc mừng. Bạn vừa sao chép tệp âm thanh đầu tiên của tớ
Nếu bạn đang thắc mắc những cụm từ trong "harvard. wav” đến từ đâu, chúng là những ví dụ về câu Harvard. Những cụm từ này đã được IEEE xuất bản vào năm 1965 để sử dụng trong kiểm tra độ rõ lời nói của đường dây điện thoại. Chúng vẫn được sử dụng trong VoIP và thử nghiệm di động ngày này
Các câu Harvard gồm có 72 list mười cụm từ. Bạn hoàn toàn có thể tìm thấy những bản ghi sẵn có miễn phí của những cụm từ này trên trang web Kho tàng trữ Lời nói Mở. Bản ghi có sẵn bằng tiếng Anh, tiếng Quan Thoại, tiếng Pháp và tiếng Hindi. Họ đáp ứng một nguồn tài liệu miễn phí tuyệt vời để kiểm tra mã của bạn
Chụp phân đoạn với Traceback (most recent call last):
File "", line 1, in
TypeError: recognize_google() missing 1 required positional argument: 'audio_data'
74 và Traceback (most recent call last):
File "", line 1, in
TypeError: recognize_google() missing 1 required positional argument: 'audio_data'
75
Nếu bạn chỉ muốn ghi lại một phần bài phát biểu trong một tệp thì sao?
Ví dụ: phần sau ghi lại bất kỳ lời nói nào trong bốn giây đầu tiên của tệp
>>>
Traceback (most recent call last): File "Phương thức
Traceback (most recent call last): File ">>>
Traceback (most recent call last): File "Lưu ý rằng
Traceback (most recent call last): File "Ngoài việc chỉ định thời lượng ghi, phương pháp
Traceback (most recent call last): File "Để chỉ ghi lại cụm từ thứ hai trong tệp, bạn hoàn toàn có thể khởi đầu với độ lệch bốn giây và ghi lại, ví dụ như ba giây
>>>
>>> import speech_recognition as sr >>> sr.__version__ '3.8.1' 0Các đối số từ khóa
Traceback (most recent call last): File ">>>
>>> import speech_recognition as sr >>> sr.__version__ '3.8.1' 1Bằng cách khởi đầu ghi âm lúc 4. 7 giây, bạn bỏ lỡ phần "it t" ở đầu cụm từ "nó tỏa nhiệt để tỏa mùi", vì vậy API chỉ nhận được "akes heat", khớp với "Mesquite. ”
Tương tự như vậy, ở phần cuối của đoạn ghi âm, bạn đã bắt được "a co", đó là phần đầu của cụm từ thứ ba "một đợt lạnh phục hồi sức khỏe và niềm say mê. ” Điều này đã được khớp với “Aiko” bởi API
Có một nguyên do khác khiến bạn hoàn toàn có thể nhận được bản chép lời không đúng chuẩn. Tiếng ồn. Các ví dụ trên hoạt động và sinh hoạt giải trí tốt vì tệp âm thanh khá rõ ràng. Trong thế giới thực, trừ khi bạn có thời cơ xử lý trước những tệp âm thanh, bạn không thể mong đợi âm thanh không còn tạp âm
Loại bỏ những quảng cáoẢnh hưởng của tiếng ồn đối với nhận dạng giọng nói
Tiếng ồn là một thực tế của môi trường tự nhiên thiên nhiên sống đời thường. Tất cả những bản ghi âm đều có tiếng ồn ở một mức độ nào đó và tiếng ồn không được xử lý hoàn toàn có thể làm hỏng độ đúng chuẩn của những ứng dụng nhận dạng giọng nói
Để biết tiếng ồn hoàn toàn có thể ảnh hưởng đến nhận dạng giọng nói ra làm sao, hãy tải xuống “jackhammer. wav” ở đây. Như thường lệ, hãy đảm nói rằng bạn lưu tệp này vào thư mục thao tác của phiên thông dịch viên của bạn
Tệp này còn có cụm từ "mùi hôi của bia cũ còn sót lại" được nói với tiếng búa khoan lớn trong nền
Điều gì xảy ra khi bạn nỗ lực sao chép tệp này?
>>>
>>> import speech_recognition as sr >>> sr.__version__ '3.8.1' 2đường tắt
Vì vậy, làm thế nào để bạn đối phó với điều này?
>>>
>>> import speech_recognition as sr >>> sr.__version__ '3.8.1' 3Điều đó đưa bạn đến gần hơn một chút ít với cụm từ thực tế, nhưng nó vẫn chưa hoàn hảo nhất. Ngoài ra, "the" bị thiếu ở đầu cụm từ. Tại sao vậy?
Phương pháp
Traceback (most recent call last): File "Bạn hoàn toàn có thể điều chỉnh khung thời gian mà
Traceback (most recent call last): File ">>>
>>> import speech_recognition as sr >>> sr.__version__ '3.8.1' 4Chà, điều đó khiến bạn có "the" ở đầu cụm từ, nhưng giờ đây bạn có một số trong những vấn đề mới. Đôi lúc không thể vô hiệu ảnh hưởng của nhiễu—tín hiệu quá nhiễu để xử lý thành công. Đó là trường phù phù hợp với tập tin này
Nếu bạn thấy mình thường xuyên gặp phải những sự cố này, bạn hoàn toàn có thể phải sử dụng một số trong những giải pháp xử lý trước âm thanh. Điều này hoàn toàn có thể được thực hiện bằng phần mềm sửa đổi âm thanh hoặc gói Python (ví dụ như SciPy) hoàn toàn có thể áp dụng những bộ lọc cho tệp. Phần thảo luận rõ ràng về điều này nằm ngoài phạm vi của hướng dẫn này—hãy xem cuốn sách Think DSP của Allen Downey nếu bạn quan tâm. Hiện tại, chỉ việc lưu ý rằng tiếng ồn xung quanh trong tệp âm thanh hoàn toàn có thể gây ra sự cố và phải được xử lý và xử lý để tối đa hóa độ đúng chuẩn của tính năng nhận dạng giọng nói
Khi thao tác với những tệp ồn ào, hoàn toàn có thể hữu ích khi xem phản hồi API thực tế. Hầu hết những API trả về một chuỗi JSON chứa nhiều bản sao hoàn toàn có thể. Phương thức
Traceback (most recent call last): File "Bạn hoàn toàn có thể thực hiện việc này bằng phương pháp đặt đối số từ khóa
Traceback (most recent call last): File ">>>
>>> import speech_recognition as sr >>> sr.__version__ '3.8.1' 5Như bạn hoàn toàn có thể thấy,
Traceback (most recent call last): File "Đến giờ đây, bạn đã biết khá rõ về những điều cơ bản của gói SpeechRecognition. Bạn đã biết phương pháp tạo phiên bản
Traceback (most recent call last): File "Bây giờ cho phần thú vị. Hãy quy đổi từ phiên âm những tệp âm thanh tĩnh sang làm cho dự án công trình bất Động sản của bạn có tính tương tác bằng phương pháp đồng ý đầu vào từ micrô
Loại bỏ những quảng cáoLàm việc với micrô
Để truy cập micrô của bạn bằng SpeechRecognizer, bạn sẽ phải setup gói PyAudio. Hãy tiếp tục và đóng phiên phiên dịch hiện tại của bạn và hãy làm điều đó
Cài đặt PyAudio
Quá trình setup PyAudio sẽ rất khác nhau tùy thuộc vào hệ điều hành của bạn
DebianLinuxNếu bạn đang dùng Linux nhờ vào Debian (như Ubuntu), bạn hoàn toàn có thể setup PyAudio với
>>> import speech_recognition as sr >>> sr.__version__ '3.8.1' 02>>> import speech_recognition as sr >>> sr.__version__ '3.8.1' 6Sau khi setup, bạn vẫn hoàn toàn có thể cần chạy
>>> import speech_recognition as sr >>> sr.__version__ '3.8.1' 03, đặc biệt nếu bạn đang thao tác trong môi trường tự nhiên thiên nhiên ảohệ điều hành MacĐối với macOS, trước tiên bạn cần setup PortAudio với Homebrew, sau đó setup PyAudio với
>>> import speech_recognition as sr >>> sr.__version__ '3.8.1' 04>>> import speech_recognition as sr >>> sr.__version__ '3.8.1' 7các hiên chạy cửa sốTrên Windows, bạn hoàn toàn có thể setup PyAudio với
>>> import speech_recognition as sr >>> sr.__version__ '3.8.1' 04>>> import speech_recognition as sr >>> sr.__version__ '3.8.1' 8Kiểm tra setupKhi bạn đã setup PyAudio, bạn hoàn toàn có thể kiểm tra setup từ bảng điều khiển
>>> import speech_recognition as sr >>> sr.__version__ '3.8.1' 9Đảm bảo micrô mặc định của bạn được bật và bật tiếng. Nếu quá trình setup hoạt động và sinh hoạt giải trí, bạn sẽ thấy một chiếc gì đó như vậy này
>>> r = sr.Recognizer() 0Hãy tiếp tục và chơi với nó một chút ít bằng phương pháp nói vào micrô của bạn và xem tính năng Nhận dạng giọng nói phiên âm lời nói của bạn tốt ra làm saoGhi chú. Nếu bạn đang sử dụng Ubuntu và nhận được một số trong những kết quả thú vị như 'ALSA lib … PCM không xác định', hãy tham khảo trang này để biết những mẹo chặn những thông báo này. Đầu ra này đến từ gói ALSA được setup với Ubuntu—không phải SpeechRecognition hay PyAudio. Trên thực tế, những thông báo này hoàn toàn có thể chỉ ra sự cố với thông số kỹ thuật ALSA của bạn, nhưng theo kinh nghiệm tay nghề của tôi, chúng không ảnh hưởng đến hiệu suất cao mã của bạn. Họ đa phần là một mối phiền toái
Loại bỏ những quảng cáoLớp học >>> import speech_recognition as sr >>> sr.__version__ '3.8.1' 06
Mở một phiên thông dịch khác và tạo một thể hiện của lớp trình nhận dạng
>>>
>>> r = sr.Recognizer() 1Bây giờ, thay vì sử dụng tệp âm thanh làm nguồn, bạn sẽ sử dụng micrô khối mạng lưới hệ thống mặc định. Bạn hoàn toàn có thể truy cập điều này bằng phương pháp tạo một thể hiện của lớp
>>> import speech_recognition as sr >>> sr.__version__ '3.8.1' 06>>>
>>> r = sr.Recognizer() 2Nếu khối mạng lưới hệ thống của bạn không còn micrô mặc định (ví dụ như trên Raspberry Pi) hoặc bạn muốn sử dụng micrô khác với micrô mặc định, bạn sẽ cần chỉ định micrô nào sẽ sử dụng bằng phương pháp đáp ứng chỉ mục thiết bị. Bạn hoàn toàn có thể lấy list tên micrô bằng phương pháp gọi phương thức tĩnh
>>> import speech_recognition as sr >>> sr.__version__ '3.8.1' 08 của lớp >>> import speech_recognition as sr >>> sr.__version__ '3.8.1' 06>>>
>>> r = sr.Recognizer() 3Lưu ý rằng đầu ra của bạn hoàn toàn có thể khác với ví dụ trên
Chỉ mục thiết bị của micrô là chỉ mục tên của nó trong list được trả về bởi
>>> import speech_recognition as sr >>> sr.__version__ '3.8.1' 10. Ví dụ: với đầu ra ở trên, nếu bạn muốn sử dụng micrô mang tên "phía trước", có chỉ mục 3 trong list, bạn sẽ tạo một trường hợp micrô như vậy này>>>
>>> r = sr.Recognizer() 4Tuy nhiên, đối với hầu hết những dự án công trình bất Động sản, hoàn toàn có thể bạn sẽ muốn sử dụng micrô khối mạng lưới hệ thống mặc định
Sử dụng >>> import speech_recognition as sr >>> sr.__version__ '3.8.1' 11 để thu đầu vào micrô
Bây giờ bạn đã có một phiên bản
>>> import speech_recognition as sr >>> sr.__version__ '3.8.1' 06 sẵn sàng hoạt động và sinh hoạt giải trí, đã đến lúc ghi lại một số trong những thông tin đầu vàoCũng in như lớp
Traceback (most recent call last): File ">>>
>>> r = sr.Recognizer() 5Sau khi bạn thực hiện khối
Traceback (most recent call last): File ">>>
>>> r = sr.Recognizer() 6Nếu lời nhắc không bao giờ quay lại, thì rất hoàn toàn có thể micrô của bạn đang thu quá nhiều tiếng ồn xung quanh. Bạn hoàn toàn có thể làm gián đoạn quá trình bằng phương pháp sử dụng Ctrl + C để nhận lại lời nhắc của tớ.
Để xử lý tiếng ồn xung quanh, bạn sẽ cần sử dụng phương pháp
Traceback (most recent call last): File ">>>
>>> r = sr.Recognizer() 7Sau khi chạy đoạn mã trên, hãy đợi một giây để
Traceback (most recent call last): File "Nhớ lại rằng
Traceback (most recent call last): File "Tài liệu SpeechRecognition khuyến nghị sử dụng thời lượng không nhỏ hơn 0. 5 giây. Trong một số trong những trường hợp, bạn hoàn toàn có thể thấy rằng thời lượng dài hơn thế nữa mặc định là một giây sẽ tạo ra kết quả tốt hơn. Giá trị tối thiểu bạn cần tùy thuộc vào môi trường tự nhiên thiên nhiên xung quanh của micrô. Thật rủi ro, thông tin này thường không được nghe biết trong quá trình phát triển. Theo kinh nghiệm tay nghề của tôi, thời lượng mặc định là một giây là đủ cho hầu hết những ứng dụng
Loại bỏ những quảng cáoXử lý giọng nói không thể nhận dạng
Hãy thử nhập ví dụ mã trước đó vào trình thông dịch và tạo ra một số trong những tiếng ồn khó hiểu vào micrô. Bạn sẽ nhận được một chiếc gì đó như vậy này trong phản ứng
>>> r = sr.Recognizer() 8Âm thanh không thể khớp với văn bản bởi API sẽ đưa ra một ngoại lệ
>>> import speech_recognition as sr >>> sr.__version__ '3.8.1' 24. Bạn phải luôn kết thúc những cuộc gọi tới API bằng những khối >>> import speech_recognition as sr >>> sr.__version__ '3.8.1' 25 và >>> import speech_recognition as sr >>> sr.__version__ '3.8.1' 26 để xử lý ngoại lệ nàyGhi chú. Bạn hoàn toàn có thể phải nỗ lực nhiều hơn nữa mong đợi để ném ngoại lệ. API hoạt động và sinh hoạt giải trí rất chăm chỉ để phiên âm bất kỳ âm thanh nào. Ngay cả những tiếng càu nhàu ngắn cũng khá được phiên âm thành những từ như "làm thế nào" đối với tôi. Ho, vỗ tay và tặc lưỡi sẽ liên tục làm tăng ngoại lệ
Để tất cả chúng cùng nhau. Trò chơi “Đoán chữ”
Bây giờ bạn đã thấy kiến thức cơ bản về nhận dạng giọng nói với gói SpeechRecognition, hãy vận dụng kiến thức mới tìm được của bạn và viết một trò chơi nhỏ chọn một từ ngẫu nhiên trong list và cho những người dân tiêu dùng ba lần thử đoán từ đó
Đây là ngữ cảnh đầy đủ
>>> r = sr.Recognizer() 9Hãy phá vỡ điều đó một chút ít
Hàm
>>> import speech_recognition as sr >>> sr.__version__ '3.8.1' 27 lấy một thể hiện Traceback (most recent call last): File "Đầu tiên, hàm kiểm tra xem những đối số
>>> import speech_recognition as sr >>> sr.__version__ '3.8.1' 34 và >>> import speech_recognition as sr >>> sr.__version__ '3.8.1' 35 có đúng loại không và đưa ra một >>> import speech_recognition as sr >>> sr.__version__ '3.8.1' 36 nếu một trong hai không hợp lệTraceback (most recent call last): File "Phương pháp
>>> import speech_recognition as sr >>> sr.__version__ '3.8.1' 11 sau đó được sử dụng để ghi đầu vào micrôTraceback (most recent call last): File "Phương pháp
Traceback (most recent call last): File "Tiếp theo,
Traceback (most recent call last): File "Bạn hoàn toàn có thể kiểm tra hàm
>>> import speech_recognition as sr >>> sr.__version__ '3.8.1' 27 bằng phương pháp lưu tập lệnh trên vào một tệp mang tên là “guessing_game. py” và chạy phần sau trong phiên thông dịch viên>>>
Traceback (most recent call last): File "Bản thân trò chơi khá đơn giản. Đầu tiên, một list những từ, số lần đoán tối đa được phép và số lượng giới hạn nhắc nhở được khai báo
Traceback (most recent call last): File "Tiếp theo, một phiên bản
Traceback (most recent call last): File "Sau khi in một số trong những hướng dẫn và đợi trong 3 ba giây, vòng lặp
>>> import speech_recognition as sr >>> sr.__version__ '3.8.1' 53 được sử dụng để quản lý nỗ lực đoán từ đã chọn của từng người tiêu dùng. Điều đầu tiên bên trong vòng lặp >>> import speech_recognition as sr >>> sr.__version__ '3.8.1' 53 là một vòng lặp >>> import speech_recognition as sr >>> sr.__version__ '3.8.1' 53 khác nhắc người tiêu dùng đoán nhiều nhất là >>> import speech_recognition as sr >>> sr.__version__ '3.8.1' 56 lần, nỗ lực nhận ra đầu vào mỗi lần bằng hàm >>> import speech_recognition as sr >>> sr.__version__ '3.8.1' 27 và tàng trữ từ điển được trả về biến cục bộ >>> import speech_recognition as sr >>> sr.__version__ '3.8.1' 58Nếu khóa
>>> import speech_recognition as sr >>> sr.__version__ '3.8.1' 33 của >>> import speech_recognition as sr >>> sr.__version__ '3.8.1' 58 không phải là >>> import speech_recognition as sr >>> sr.__version__ '3.8.1' 32, thì lời nói của người tiêu dùng đã được phiên âm và vòng lặp bên trong kết thúc bằng >>> import speech_recognition as sr >>> sr.__version__ '3.8.1' 62. Nếu bài phát biểu không được phiên âm và khóa >>> import speech_recognition as sr >>> sr.__version__ '3.8.1' 30 được đặt thành >>> import speech_recognition as sr >>> sr.__version__ '3.8.1' 64, thì sẽ xảy ra lỗi API và vòng lặp lại kết thúc bằng >>> import speech_recognition as sr >>> sr.__version__ '3.8.1' 62. Mặt khác, yêu cầu API đã thành công nhưng bài phát biểu không thể nhận dạng được. Người dùng được chú ý và vòng lặp >>> import speech_recognition as sr >>> sr.__version__ '3.8.1' 53 lặp lại, tạo cho những người dân tiêu dùng thuở nào cơ khác trong lần thử hiện tạiTraceback (most recent call last): File "Khi vòng lặp
>>> import speech_recognition as sr >>> sr.__version__ '3.8.1' 53 bên trong kết thúc, từ điển >>> import speech_recognition as sr >>> sr.__version__ '3.8.1' 58 được kiểm tra lỗi. Nếu có bất kỳ lỗi nào xảy ra, thông báo lỗi sẽ hiển thị và vòng lặp >>> import speech_recognition as sr >>> sr.__version__ '3.8.1' 53 bên phía ngoài bị kết thúc bằng >>> import speech_recognition as sr >>> sr.__version__ '3.8.1' 62, điều này sẽ kết thúc quá trình thực thi chương trìnhTraceback (most recent call last): File "Nếu không còn bất kỳ lỗi nào, phiên âm được so sánh với từ được chọn ngẫu nhiên. Phương thức
>>> import speech_recognition as sr >>> sr.__version__ '3.8.1' 71 cho những đối tượng chuỗi được sử dụng để đảm bảo phối hợp đoán tốt hơn với từ đã chọn. API hoàn toàn có thể trả về lời nói khớp với từ "apple" là "Apple" hoặc "apple" và một trong hai câu vấn đáp sẽ được tính là câu vấn đáp đúngNếu đoán đúng, người tiêu dùng thắng và trò chơi kết thúc. Nếu người tiêu dùng không đúng chuẩn và có bất kỳ lần thử nào còn sót lại, vòng lặp
>>> import speech_recognition as sr >>> sr.__version__ '3.8.1' 53 bên phía ngoài sẽ lặp lại và một lần đoán mới được truy xuất. Nếu không, người tiêu dùng sẽ thua trò chơiTraceback (most recent call last): File "Khi chạy, đầu ra sẽ trông in như vậy này
Traceback (most recent call last): File "Tóm tắt và Tài nguyên tương hỗ update
Trong hướng dẫn này, bạn đã biết phương pháp setup gói SpeechRecognition và sử dụng lớp
Traceback (most recent call last): File "Bạn đã thấy ảnh hưởng của tiếng ồn đối với độ đúng chuẩn của bản chép lời và đã học cách điều chỉnh độ nhạy của phiên bản
Traceback (most recent call last): File "Nhận dạng giọng nói là một chủ đề sâu sắc và những gì bạn đã học được ở đây hầu như không làm trầy xước mặt phẳng. Nếu bạn muốn tìm hiểu thêm, đây là một số trong những tài nguyên tương hỗ update
Tiền thưởng miễn phí. Nhấp vào đây để tải xuống dự án công trình bất Động sản mẫu nhận dạng giọng nói Python với mã nguồn đầy đủ mà bạn hoàn toàn có thể sử dụng làm cơ sở cho những ứng dụng nhận dạng giọng nói của riêng mình
Để biết thêm thông tin về gói SpeechRecognition
- thư viện tham khảoví dụtrang khắc phục sự cố
Một vài tài nguyên internet thú vị
- Đằng sau Mic. Khoa học nói chuyện với máy tính. Một bộ phim truyện ngắn về xử lý giọng nói của GoogleQuan điểm lịch sử về nhận dạng giọng nói của Huang, Baker và Reddy. Truyền thông của ACM (2014). Bài viết này đáp ứng một chiếc nhìn sâu sắc và học thuật về sự phát triển của công nghệ tiên tiến nhận dạng giọng nóiQuá khứ, hiện tại và tương lai của công nghệ tiên tiến nhận dạng giọng nói của Clark Boyd tại The Startup. Bài đăng trên blog này trình bày tổng quan về công nghệ tiên tiến nhận dạng giọng nói, với một số trong những suy nghĩ về tương lai
Một số sách hay về nhận dạng giọng nói
- Tiếng nói trong máy. Xây dựng máy tính hiểu lời nói, Pieraccini, MIT Press (2012). Một cuốn sách dành riêng cho độc giả phổ thông hoàn toàn có thể truy cập gồm có lịch sử cũng như những tiến bộ tân tiến trong xử lý giọng nóiNguyên tắc cơ bản của nhận dạng giọng nói, Rabiner và Juang, Prentice Hall (1993). Rabiner, một nhà nghiên cứu và phân tích tại Bell Labs, là người dân có công trong việc thiết kế một số trong những bộ nhận dạng giọng nói khả thi về mặt thương mại đầu tiên. Cuốn sách này hiện đã hơn 20 năm, nhưng rất nhiều nguyên tắc cơ bản vẫn giữ nguyênNhận dạng giọng nói tự động. Phương pháp học sâu, Yu và Deng, Springer (2014). Yu và Deng là nhà nghiên cứu và phân tích tại Microsoft và cả hai đều rất tích cực trong nghành xử lý giọng nói. Cuốn sách này đề cập đến rất nhiều phương pháp tiếp cận tân tiến và nghiên cứu và phân tích tiên tiến nhưng không dành riêng cho những người dân yếu tim về toán học.
ruột thừa. Nhận dạng giọng nói bằng những ngôn từ khác ngoài tiếng Anh
Xuyên suốt hướng dẫn này, tất cả chúng ta đã nhận dạng giọng nói bằng tiếng Anh, đây là ngôn từ mặc định cho từng phương thức
>>> import speech_recognition as sr >>> sr.__version__ '3.8.1' 24 của gói Nhận dạng giọng nói. Tuy nhiên, hoàn toàn hoàn toàn có thể nhận dạng giọng nói trong những ngôn từ khác và khá đơn giản để thực hiệnĐể nhận dạng giọng nói ở một ngôn từ khác, hãy đặt đối số từ khóa
>>> import speech_recognition as sr >>> sr.__version__ '3.8.1' 86 của phương thức >>> import speech_recognition as sr >>> sr.__version__ '3.8.1' 24 thành một chuỗi tương ứng với ngôn từ mong ước. Hầu hết những phương thức đồng ý thẻ ngôn từ BCP-47, ví dụ như >>> import speech_recognition as sr >>> sr.__version__ '3.8.1' 88 cho tiếng Anh Mỹ hoặc >>> import speech_recognition as sr >>> sr.__version__ '3.8.1' 89 cho tiếng Pháp. Ví dụ: phần sau nhận dạng giọng nói tiếng Pháp trong tệp âm thanhTraceback (most recent call last): File "Chỉ những phương pháp sau đồng ý đối số từ khóa
>>> import speech_recognition as sr >>> sr.__version__ '3.8.1' 86- Traceback (most recent call last):
File "
Để biết thẻ ngôn từ nào được API bạn đang sử dụng tương hỗ, bạn sẽ phải tham khảo tài liệu tương ứng. Có thể tìm thấy list những thẻ được đồng ý bởi
Traceback (most recent call last): File "Đánh dấu là đã hoàn thành xong
Xem ngay Hướng dẫn này còn có một khóa học video liên quan do nhóm Real Python tạo. Xem nó cùng với hướng dẫn bằng văn bản để hiểu sâu hơn. Nhận dạng giọng nói bằng Python
🐍 Thủ thuật Python 💌
Nhận một Thủ thuật Python ngắn và mê hoặc được gửi đến hộp thư đến của bạn vài ngày một lần. Không có thư rác bao giờ. Hủy đăng ký bất thần. Được quản lý bởi nhóm Real Python

Gửi cho tôi thủ thuật Python »
Giới thiệu về David Amos


David là một nhà văn, lập trình viên và nhà toán học đam mê mày mò toán học thông qua mã
» tin tức thêm về DavidMỗi hướng dẫn tại Real Python được tạo bởi một nhóm những nhà phát triển để nó đáp ứng những tiêu chuẩn rất chất lượng của chúng tôi. Các thành viên trong nhóm đã thao tác trong hướng dẫn này là

Đan
Bậc thầy Kỹ năng Python trong thế giới thực Với quyền truy cập không số lượng giới hạn vào Python thực

Tham gia với chúng tôi và có quyền truy cập vào Hàng trăm hướng dẫn, khóa học video thực hành và hiệp hội những Chuyên Viên Pythonistas
Nâng cao kỹ năng Python của bạn »
Bậc thầy Kỹ năng Python trong thế giới thực
Với quyền truy cập không số lượng giới hạn vào Python thực
Tham gia với chúng tôi và có quyền truy cập vào Hàng trăm hướng dẫn, khóa học video thực hành và hiệp hội Pythonistas Chuyên Viên
Nâng cao kỹ năng Python của bạn »
Bạn nghĩ sao?
Đánh giá nội dung bài viết này
Tweet Chia sẻ Chia sẻ E-MailBài học số 1 hoặc điều yêu thích mà bạn đã học được là gì?
Mẹo phản hồi. Những nhận xét hữu ích nhất là những nhận xét được viết với mục tiêu học hỏi hoặc giúp sức những sinh viên khác. Nhận những mẹo để đặt thắc mắc hay và nhận câu vấn đáp cho những thắc mắc phổ biến trong cổng thông tin tương hỗ của chúng tôi
Tải thêm tài liệu liên quan đến nội dung bài viết Python ai trợ lý github programming python