https://latoi.net/file/2019/12/2017.05.01-Jordan-Griffiths-Artificial-Intelligence-meets-Human-Intelligence.jpg
SHARE

Loài người đang dần tiến đến một kỉ nguyên hiện đại hơn,  các ứng dung giọng nói và nhận diện hình ảnh, một lĩnh vực con của công nghệ Trí tuệ nhân tạo (AI),   đang dần dần được hoàn thiện  để phục vụ tối ưu nhu cầu của con người. Đây là công nghệ hứa hẹn mang lại những hỗ trợ tối ưu nhất cho các doanh nghiệp với nhiều ứng dụng trong thế giới thực. Hãy nhìn vào Google Voice Input, Apple Siri hay mới đây là Microsoft Cortana là bạn sẽ dễ dàng thấy được xu hướng này.

Càng ngày những phần mềm nhận dạng giọng nói và hình ảnh càng thông minh hơn, khả năng nhận dạng chính xác hơn, thông tin trả về cũng hữu ích và đa dạng hơn. Người ta còn áp dụng cả những kĩ thuật như data mining (khai thác dữ liệu theo chiều sâu, đưa ra những phân tích về nhiều mặt), machine learning (cho phép máy móc tự học hỏi thói quen, hành vi của người dùng) nhằm cải thiện hiệu suất làm việc của công nghệ nhận dạng giọng nói và hình ảnh nữa. Song trong đó,  machine learning đang là một trong những ứng dung dẫn đầu trong công cuộc áp dụng kiến thức và đào tạo từ các bộ dữ liệu lớn để thực hiện các công việc về nhận diện khuôn mặt, nhận dạng giọng nói, … một cách xuất sắc.

1. Ứng dụng nhận diện hình ảnh
Với nhận diện hình ảnh, có rất nhiều tình huống hệ thống phân loại hình ảnh các đối tượng như một ảnh kỹ thuật số. Đối với hình ảnh số, các phép đo mô tả các kết quả đầu ra của mỗi pixel trong hình ảnh. Với ảnh đen trắng, mật độ của mỗi pixel được tính như 1 đơn vị đo. Vì thế, nếu một hình ảnh đen trắng có N * N pixels, tổng số pixel và các phép đo là N2. Với ảnh màu, mỗi pixel được tính như cung cấp 3 phép đo với mật độ của 3 thành phần màu chính là RGB. Vì vậy ảnh màu N * N có 3 phép đo N2.
Về phần nhận diện khuôn mặt – là các hạng mục có thể yêu cầu trình diện hoặc không trình diện khuôn mặt. Có thể có hạng mục riêng cho từng người trong cơ sở dữ liệu của một số cá nhân.
Về phần nhận dạng ký tự – Các đoạn văn bản có thể được phân tách thành các hình ảnh nhỏ hơn, mỗi hình có chứa một ký tự đơn. Các mục có thể bao gồm 26 chữ cái trong bảng chữ cái tiếng Anh, 10 chữ số, và một số ký tự đặc biệt.
Hệ thống nhận diện hình ảnh sử dụng công nghệ machine learning đang được Google sử dụng trong các sản phẩm của mình như Google Photos, Google Search, Google Drive… để tối ưu hóa việc phát hiện hình ảnh thông qua các từ khóa tìm kiếm của người dùng.

2. Ứng dụng nhận dạng giọng nói
Nhận dạng lời thoại (Speech Recognition – SR) là việc chuyển đổi các ngôn ngữ nói thành văn bản. Nó còn được biết với cái tên “nhận dạng giọng nói tự động” (Automatic speech recognition – ASR), “nhận dạng giọng nói qua máy tính” (computer speech recognition), hoặc speech to text – STT. Nhận dạng giọng nói được thực hiện bởi phần mềm ứng dụng. Các phép đo trong ứng dụng này có thể là một bộ số đại diện cho tín hiệu thoại. Các tín hiệu có thể được phân chia thành các phần có chứa các từ riêng biệt hoặc các âm vị. Trong mỗi phân đoạn, tín hiệu giọng nói được biểu diễn bằng mật độ hoặc năng lượng trong các dải tần suất thời gian khác nhau. Mặc dù các chi tiết về biểu diễn tín hiệu nằm ngoài phạm vi của chương trình này, chúng ta có thể biểu diễn tín hiệu bằng một tập các giá trị thực
Các ứng dụng nhận dạng giọng nói bao gồm giao diện người dùng thoại. Những ví dụ về giao diện người dùng thoại như: quay số bằng giọng nói, định tuyến cuộc gọi, kiểm soát các ứng dụng domotic. Ngoài ra, chúng cũng có thể dùng trong tiếp nhận dữ liệu đơn giản, chuẩn bị các tư liệu cấu trúc, xử lý text to speech và các hình thức tương đương.Ứng dụng công nghệ Machine learning, phòng nghiên cứu và phát triển của công ty Baidu đã chế tạo một công cụ mang tên gọi Deep Voice – một mạng lưới nơ-ron sâu có khả năng tạo ra giọng nói nhân tạo rất khó để phân biệt từ giọng nói thật của con người. Mạng lưới này có thể “học” được những nét đặc trưng trong nhịp điệu, giọng nói, cách phát âm và âm vực nhằm tạo ra giọng của người nói chính xác đến kì lạ. Ngoài ra, Google cũng sử dụng Machine learning cho các sản phẩm khác liên quan đến giọng nói và dịch thuật như Google Translate, Google Text To Speech, Google Assistant.

Bên cạnh những ứng dụng trong nhận dạng âm thanh và nhận diện hình ảnh, Machine learning còn được nghiên cứu ứng dụng trong các lĩnh vực như phân tích y khoa; sắp xếp, phân loại; phân tích dữ liệu và dự báo,… tại các ngành như chăm sóc sức khỏe, dịch vụ tài chính, vận tải, marketing & sale… Như vậy, chẳng bao lâu nữa mọi mặt của đời sống con người đều có sự xuất hiện của những thiết bị, ứng dụng có nền tảng là công nghệ Machine learning.

 

SHARE

Leave a Reply

Your email address will not be published. Required fields are marked *