Sự khôn ngoan của (Chọn) Đám đông

Ngày càng có nhiều công ty khai thác sự khôn ngoan của khách hàng và người dùng của họ - một nhóm rất có chọn lọc. Họ làm điều này thông qua "dữ liệu lớn" - thu thập kho tàng dữ liệu ẩn danh và sau đó chạy các phân tích hậu kỳ về nó.

Nỗ lực này có thể dẫn đến một số hiểu biết thú vị. Nó cũng có thể khiến các công ty đề xuất rằng kết quả có thể khái quát cho toàn bộ dân số.

Và chính vấn đề thứ hai này mới là vấn đề. Bởi vì nếu bạn bắt đầu với một mẫu tự chọn, dữ liệu của bạn chỉ phù hợp với những người như họ - không phải toàn bộ dân số. Đó chỉ là một trong những vấn đề với việc đo lường - và thực hiện hành động - dựa trên thông tin từ những đám đông được chọn.

Các trang web đã thực hiện các phép đo “dữ liệu lớn” trong gần 20 năm nay. Mỗi khi bạn truy cập một trang web, nó để lại một dấu vết dữ liệu nhỏ trên máy chủ của trang web. Chủ sở hữu máy chủ lấy dữ liệu này và chạy nó thông qua nền tảng phân tích dữ liệu (như Google Analytics). Nó cung cấp cho chủ sở hữu trang web thông tin tổng hợp về các loại người truy cập trang web của họ.

Vì mỗi trang web là duy nhất, những thông tin chi tiết như vậy chỉ có liên quan đến trang web đó. Ví dụ: người dùng truy cập CNN có thể có ít điểm chung với người dùng truy cập Match.com.

Vấn đề chọn đám đông

Trong phân tích dữ liệu, các nhà thống kê gọi việc lấy mẫu như vậy là “mẫu tự chọn”, dẫn đến vấn đề “thiên vị tự chọn”. Nói một cách đơn giản, điều này có nghĩa là vì dữ liệu của bạn chỉ đến từ những người sử dụng một ứng dụng hoặc loại phương tiện truyền thông xã hội cụ thể, nó không đại diện cho toàn bộ dân số. Và vì nó không đại diện cho toàn bộ dân số, bạn không thể khái quát về dữ liệu.

Tôi gọi đây là vấn đề “chọn lọc đám đông”. Bởi vì nếu bạn đang có được sự thông thái của mình từ đám đông, thì tốt hơn bạn nên đảm bảo rằng đám đông đó là đại diện cho dân số nếu bạn đang cố gắng có được những thông tin chi tiết khái quát từ đó.

Có toàn bộ công ty không làm gì khác ngoài việc phân tích xu hướng và dữ liệu từ Twitter. Nhưng nếu bạn xem ai sử dụng Twitter - và cách họ sử dụng nó - bạn sẽ ngay lập tức lo lắng về ý nghĩa thực sự của những dữ liệu đó. Ví dụ, người dùng Twitter trẻ hơn rất nhiều so với dân số chung, và những người lớn tuổi thì ít được đại diện hơn. Nếu bạn đang điều hành một công ty xem xét xu hướng sức khỏe trên Twitter, bạn sẽ thấy điều gì đó rất khác so với khi bạn thực hiện một cuộc khảo sát ngẫu nhiên qua điện thoại.

Nói cách khác, những xu hướng trên Twitter có thể có hoặc có thể không có bất kỳ ý nghĩa nào đối với hơn 80% người Mỹ không sử dụng Twitter.

Ứng dụng không tốt hơn

Các ứng dụng thường muốn thu thập dữ liệu của người dùng, ẩn danh và sau đó sử dụng dữ liệu đó để so sánh hiệu suất của bạn với những người khác cũng đang sử dụng ứng dụng. Điều này sẽ khiến bạn cảm thấy như mình là một phần của mạng xã hội có chung ứng dụng. Đó là một ý tưởng tuyệt vời.

Bởi vì điều gì sẽ xảy ra nếu chỉ một loại người nhất định sử dụng ứng dụng cụ thể đó? Điều gì sẽ xảy ra nếu chỉ những người trầm cảm sử dụng một ứng dụng theo dõi tâm trạng để giúp mọi người thoát khỏi chứng trầm cảm bằng cách giúp họ theo dõi tâm trạng, so sánh sự tiến bộ của họ với những người khác cũng sử dụng ứng dụng này? Kết quả như vậy có thể vô tình khiến bản thân họ chán nản.

Bạn có thể tạo động lực tích cực cho ai đó thông qua so sánh xã hội không? Bạn có thể, nhưng quá thường xuyên, nghiên cứu cũng chỉ ra rằng những so sánh xã hội như vậy khiến mọi người cảm thấy tồi tệ hơn trước. Nó phải được thực hiện một cách tỉ mỉ và cẩn thận - điều mà hầu hết các nhà phát triển ứng dụng điển hình đều không hiểu.

Bỏ ra những thứ quan trọng cần đo lường

Bất kỳ ứng dụng hoặc dịch vụ nào cũng chỉ tốt bằng thứ mà nó chọn để đo lường. Bạn có thể đưa sự thiên vị - cố ý hoặc vô ý - vào kết quả của mình bằng những gì bạn chọn để đo lường - chứ không phải đo lường.

Hãy nghĩ về nó như thế này: bạn đang nghĩ đến việc chuyển đến một thành phố mới với ít mưa hơn, vì vậy bạn chỉ xem xét lượng mưa trung bình hàng năm cho các thành phố khác nhau. Bạn sẽ nhìn lên một thành phố như Miami và nghĩ, “Bạn biết đấy, tôi sẽ không chuyển đến Miami - họ có lượng mưa gần 62 inch mỗi năm! Hãy so sánh điều đó với lượng mưa ít ỏi 37 inch mà Seattle nhận được. Seattle phải trở thành nơi nhiều nắng hơn, ít mưa hơn. ” Vì bạn không bao gồm các chỉ số quan trọng khác trong đo lường của mình, bạn sẽ lựa chọn sai khi dựa trên thông tin quá hạn chế.

Điều mà một nhà phát triển ứng dụng hoặc trang web cho là quan trọng trong việc đo lường thứ gì đó có thể không thực sự quan trọng bằng thứ mà họ đã bỏ qua. Hãy tưởng tượng một ứng dụng chỉ đo phản ứng của bạn với thuốc nhưng bỏ qua tất cả các yếu tố quan trọng khác góp phần vào tâm trạng và cách điều trị của bạn.

Điều trị không diễn ra trong chân không với bạn và một loại thuốc duy nhất. Nó diễn ra trong một hệ sinh thái phức tạp, phong phú có thể bao gồm một loại thuốc, nhưng cũng bao gồm nhiều việc quan trọng khác mà bạn đang làm để giúp bản thân phục hồi. Đó có thể là mức độ bạn tập thể dục, hoặc không suy nghĩ lại, hoặc những ngày bạn đi mà không bị hoảng sợ, hoặc căng thẳng về một thành viên trong gia đình hoặc công việc.

Tóm lại, có vô số thứ cần được theo dõi bởi các ứng dụng và các dịch vụ có ý nghĩa khác, nhưng không phải vậy. Và điều này mang đến một viễn cảnh méo mó về cách một thứ đang được đo lường được kết nối với tâm trạng hoặc tiến trình phục hồi của một người. Thuốc thực sự quan trọng trong điều trị của nhiều người, nhưng có thể không - và thường thì không - điều quan trọng nhất.

!-- GDPR -->