Dữ liệu lớn có thể giúp máy tính ID cảm xúc gắn với hình ảnh

Các trang web phổ biến như Twitter, Facebook và các kênh khác hiện tràn ngập những bức ảnh giúp một người bày tỏ suy nghĩ và cảm xúc tốt hơn. Nghiên cứu mới cho thấy “dữ liệu lớn” - bất kỳ tập hợp dữ liệu nào lớn hoặc phức tạp đến mức khó xử lý bằng các ứng dụng xử lý dữ liệu truyền thống - có thể được sử dụng để dạy máy tính diễn giải nội dung và cảm giác liên quan đến hình ảnh.

Tiến sĩ Jiebo Luo, giáo sư khoa học máy tính tại Đại học Rochester, phối hợp với các nhà nghiên cứu tại Adobe Research gần đây đã trình bày một bài báo tại hội nghị của Hiệp hội Trí tuệ Nhân tạo Hoa Kỳ (AAAI), mô tả một mạng nơ-ron phức hợp sâu đào tạo tiến bộ (CNN) .

Sau đó, máy tính được đào tạo có thể được sử dụng để xác định những cảm xúc mà những hình ảnh này có thể gợi ra. Luo nói rằng thông tin này có thể hữu ích cho những việc đa dạng như đo lường các chỉ số kinh tế hoặc dự đoán các cuộc bầu cử.

Tuy nhiên, nhiệm vụ rất phức tạp. Phân tích cảm xúc của văn bản bằng máy tính tự nó là một nhiệm vụ đầy thách thức. Và trong phương tiện truyền thông xã hội, phân tích cảm xúc phức tạp hơn vì nhiều người thể hiện bản thân bằng cách sử dụng hình ảnh và video, mà máy tính khó hiểu hơn.

Ví dụ, trong một chiến dịch vận động chính trị, các cử tri thường sẽ chia sẻ quan điểm của họ thông qua hình ảnh.

Hai bức tranh khác nhau có thể cho thấy cùng một ứng cử viên, nhưng chúng có thể đưa ra những tuyên bố chính trị rất khác nhau. Một người có thể nhận ra một bức là chân dung tích cực của ứng viên (ví dụ: ứng viên đang mỉm cười và giơ tay) và bức còn lại là tiêu cực (ví dụ: bức ảnh của ứng viên trông bị đánh bại).

Nhưng không ai có thể nhìn vào mọi bức ảnh được chia sẻ trên mạng xã hội - đó thực sự là “dữ liệu lớn”. Để có thể đưa ra những phỏng đoán sáng suốt về mức độ phổ biến của ứng viên, máy tính cần được đào tạo để phân tích dữ liệu này, đó là điều mà cách tiếp cận của Luo và các cộng tác viên của anh ấy có thể làm chính xác hơn mức có thể cho đến thời điểm này.

Các nhà nghiên cứu coi nhiệm vụ trích xuất tình cảm từ hình ảnh như một bài toán phân loại hình ảnh. Điều này có nghĩa là bằng cách nào đó mỗi bức tranh cần được phân tích và dán nhãn cho nó.

Để bắt đầu quá trình đào tạo, Luo và các cộng sự của anh ấy đã sử dụng một số lượng lớn hình ảnh Flickr đã được gắn nhãn lỏng lẻo bởi một thuật toán máy với các cảm xúc cụ thể, trong một cơ sở dữ liệu hiện có được gọi là SentiBank (được phát triển bởi nhóm của Tiến sĩ Shih-Fu Chang tại Columbia Trường đại học).

Điều này cung cấp cho máy tính một điểm khởi đầu để bắt đầu hiểu những gì một số hình ảnh có thể truyền tải.

Nhưng các nhãn do máy tạo ra cũng bao gồm khả năng nhãn đó là đúng, tức là máy tính chắc chắn rằng nhãn đó là đúng như thế nào?

Bước quan trọng của quá trình đào tạo đến tiếp theo, khi họ loại bỏ bất kỳ hình ảnh nào mà cảm xúc hoặc tình cảm mà họ đã được gắn nhãn có thể không đúng. Vì vậy, họ chỉ sử dụng những hình ảnh được gắn nhãn "tốt hơn" để đào tạo thêm theo cách cải thiện dần dần trong khuôn khổ của mạng nơ-ron tích tụ mạnh mẽ.

Resaercher nhận thấy rằng bước bổ sung này đã cải thiện đáng kể độ chính xác của cảm xúc mà mỗi bức tranh được gắn nhãn.

Họ cũng điều chỉnh công cụ phân tích tình cảm này với một số hình ảnh trích xuất từ ​​Twitter. Trong trường hợp này, họ sử dụng "trí thông minh đám đông", với nhiều người giúp phân loại hình ảnh thông qua nền tảng Amazon Mechanical Turk.

Họ chỉ sử dụng một số lượng nhỏ hình ảnh để tinh chỉnh máy tính, tuy nhiên, bằng cách áp dụng quy trình điều chỉnh miền này, họ cho thấy họ có thể cải thiện các phương pháp hiện đại để phân tích cảm xúc của hình ảnh Twitter.

Một phát hiện đáng ngạc nhiên là độ chính xác của phân loại tình cảm hình ảnh đã vượt quá mức độ chính xác của phân loại tình cảm văn bản trên các tin nhắn Twitter tương tự.

Nguồn: Đại học Rochester

!-- GDPR -->