Ứng dụng thoại mới có thể giúp kiểm soát cân nặng
Một đối tượng chính của việc giảm cân là đếm từng calo tiêu thụ. Mặc dù nhiệm vụ nghe có vẻ dễ dàng, nhưng việc ghi lại tất cả lượng calo sẽ trở thành một nhiệm vụ khó khăn khi ăn tối tại nhà hàng, ăn vặt khi đang di chuyển hoặc thậm chí khi ngồi ăn ở nhà.
Kỹ thuật này đòi hỏi tính nhất quán và độ chính xác, và khi nó không thành công, thường là do mọi người không có thời gian hoặc phương tiện để tìm và ghi lại tất cả thông tin họ cần.
Giờ đây, các nhà nghiên cứu từ Viện Công nghệ Massachusetts (MIT) đã phát triển một ứng dụng cho phép mọi người đăng nhập thực phẩm và đồ uống họ đã tiêu thụ bằng hệ thống điều khiển bằng giọng nói.
Khái niệm này xuất hiện cách đây vài năm khi một nhóm các chuyên gia dinh dưỡng từ Đại học Tufts tiếp cận các nhà nghiên cứu của MIT với ý tưởng về một ứng dụng ngôn ngữ nói sẽ giúp ghi nhật ký bữa ăn dễ dàng hơn.
Tuần này, tại Hội nghị Quốc tế về Âm học, Lời nói và Xử lý Tín hiệu ở Thượng Hải, các nhà nghiên cứu của MIT đang trình bày nguyên mẫu dựa trên web của họ về một hệ thống ghi chép dinh dưỡng được kiểm soát bằng giọng nói.
Với nó, người dùng mô tả bằng lời nói nội dung của một bữa ăn và hệ thống phân tích cú pháp mô tả và tự động truy xuất dữ liệu dinh dưỡng thích hợp từ cơ sở dữ liệu trực tuyến do Bộ Nông nghiệp Hoa Kỳ (USDA) duy trì.
Dữ liệu được hiển thị cùng với hình ảnh của các loại thực phẩm tương ứng và menu kéo xuống cho phép người dùng tinh chỉnh mô tả của họ - chẳng hạn như chọn số lượng thực phẩm chính xác. Nhưng những cải tiến đó cũng có thể được thực hiện bằng lời nói.
Một người dùng bắt đầu bằng cách nói: "Đối với bữa sáng, tôi đã ăn một bát bột yến mạch, chuối và một ly nước cam" sau đó có thể thực hiện sửa đổi, "Tôi đã ăn nửa quả chuối" và hệ thống sẽ cập nhật dữ liệu mà hệ thống hiển thị về chuối trong khi giữ nguyên phần còn lại.
James Glass, một nhà nghiên cứu cấp cao cho biết: “Những gì [các chuyên gia dinh dưỡng của Tufts] đã trải qua là các ứng dụng giúp mọi người cố gắng ghi lại các bữa ăn có xu hướng hơi tẻ nhạt và do đó mọi người đã không theo kịp chúng. .
“Vì vậy, họ đang tìm cách nhập thông tin chính xác và dễ dàng.”
Tác giả đầu tiên của bài báo mới là Mandy Korpusik, một sinh viên tốt nghiệp MIT về kỹ thuật điện và khoa học máy tính. Cô ấy tham gia cùng Glass, người cố vấn luận án của cô ấy; sinh viên tốt nghiệp Michael Price; và của Calvin Huang, một nhà nghiên cứu đại học trong nhóm của Glass.
Trong bài báo, các nhà nghiên cứu báo cáo kết quả của các thí nghiệm với một hệ thống nhận dạng giọng nói mà họ đã phát triển đặc biệt để xử lý các thuật ngữ liên quan đến thực phẩm.
Tuy nhiên, đó không phải là trọng tâm chính trong công việc của họ vì bản demo trực tuyến của hệ thống ghi lại bữa ăn của họ thay vào đó sử dụng ứng dụng nhận dạng giọng nói miễn phí của Google.
Nghiên cứu của họ tập trung vào hai vấn đề khác. Một là xác định vai trò chức năng của các từ: Hệ thống cần nhận ra rằng nếu người dùng ghi lại cụm từ “bát bột yến mạch” thì thông tin dinh dưỡng về bột yến mạch là phù hợp, nhưng nếu cụm từ là “bánh quy bột yến mạch” thì không.
Vấn đề khác là điều chỉnh cụm từ của người dùng với các mục nhập trong cơ sở dữ liệu USDA. Ví dụ, dữ liệu của USDA về bột yến mạch được ghi lại dưới tiêu đề “yến mạch”; từ “bột yến mạch” không xuất hiện trong mục nhập.
Để giải quyết vấn đề đầu tiên, các nhà nghiên cứu đã sử dụng máy học.
Thông qua nền tảng tìm nguồn cung ứng cộng đồng Amazon Mechanical Turk, họ đã tuyển dụng những công nhân chỉ đơn giản mô tả những gì họ đã ăn trong các bữa ăn gần đây. Sau đó, họ dán nhãn các từ thích hợp trong phần mô tả như tên của thực phẩm, số lượng, tên thương hiệu hoặc từ bổ nghĩa của tên thực phẩm.
Trong “bát bột yến mạch”, “bát” là số lượng và “bột yến mạch” là thực phẩm, nhưng trong “bánh quy bột yến mạch”, bột yến mạch là một bổ ngữ.
Sau khi họ có khoảng 10.000 mô tả bữa ăn được dán nhãn, các nhà nghiên cứu đã sử dụng các thuật toán học máy để tìm ra các mẫu trong mối quan hệ cú pháp giữa các từ sẽ xác định vai trò chức năng của chúng.
Sau đó, các nhà nghiên cứu đã sử dụng cơ sở dữ liệu nguồn mở có tên Freebase để dịch giữa mô tả của người dùng và các nhãn trong cơ sở dữ liệu USDA. Bản thân cơ sở dữ liệu này có các mục nhập về hơn 8.000 mặt hàng thực phẩm phổ biến, nhiều trong số đó bao gồm các từ đồng nghĩa.
Khi thiếu các từ đồng nghĩa, họ lại tuyển dụng công nhân Cơ khí để cung cấp cho họ.
Phiên bản của hệ thống được trình bày tại hội nghị chủ yếu nhằm chứng minh tính khả thi của phương pháp tiếp cận xử lý ngôn ngữ tự nhiên. Hệ thống báo cáo lượng calo nhưng chưa tính tổng lượng calo một cách tự động.
Tuy nhiên, một phiên bản vẫn đang được thực hiện và khi hoàn tất, các nhà nghiên cứu của Tufts dự định tiến hành một nghiên cứu về người dùng để xác định xem liệu nó có thực sự giúp ghi nhật ký dinh dưỡng dễ dàng hơn hay không.
Nguồn: MIT