Dữ liệu lớn: Chúng ta có thể dự đoán xu hướng dân số (giống như hạnh phúc) thông qua ứng dụng sức khỏe không?

Hơn năm năm trước, tôi đã viết một tác phẩm có tựa đề Độ tin cậy và Tính hợp lệ trong Thế giới Web 2.0. Nó nói về mối quan tâm của việc thu thập dữ liệu từ các mẫu sai lệch - mà không cần hiểu chính xác theo những cách nào, những mẫu đó có thể bị sai lệch.

Giờ đây, với sự phổ biến của các ứng dụng - các chương trình có thể tải xuống cho điện thoại thông minh của mọi người - tôi đang thấy vấn đề tương tự cũng nảy sinh. Các nhà phát triển và doanh nhân đang theo đuổi dữ liệu từ các ứng dụng này mà không hiểu những điều cơ bản về thu thập dữ liệu khoa học, đáng tin cậy. Và tại sao nó lại quan trọng - đặc biệt là khi bạn bắt đầu muốn phân tích tất cả “dữ liệu lớn” này (một thuật ngữ hơi ngớ ngẩn… trong dịch tễ học, các nhà khoa học chỉ gọi nó là “dữ liệu”).

Các ứng dụng này có thể thu thập dữ liệu sức khỏe cá nhân mà không thiên vị và bằng cách nào đó được chuyển đổi thành việc đo lường thứ gì đó lớn hơn không?

Câu trả lời ngắn gọn: không, không dễ dàng.

Chắc chắn, có những người là một phần của phong trào “bản thân được định lượng” - những người muốn theo dõi và đo lường mọi khía cạnh của sức khỏe cá nhân của họ (và giả sử là sức khỏe tâm thần). Nhưng những người đó hiện tại là 1 ngoại lệ, và không đại diện cho dân số nói chung.

Những người thiểu số như vậy có thể nhanh chóng tạo nên phần lớn nỗ lực thu thập các bộ dữ liệu lớn hơn để phân tích các xu hướng sức khỏe hoặc hạnh phúc. Mặc dù kết quả phân tích có thể cho bạn biết điều gì đó về nhóm người này, nhưng sẽ không phù hợp nếu đề xuất nó khái quát cho phần còn lại của dân số (những người, về mặt nhân khẩu học và hành vi, có thể trông và hành động rất khác).

Điều này sẽ không sớm thay đổi vì hầu hết các ứng dụng sức khỏe đều được mọi người tải xuống, sử dụng một hoặc hai lần, sau đó bị bỏ qua. Có một lý do khiến hầu hết mọi người ngừng sử dụng các ứng dụng sức khỏe - đặc biệt là những ứng dụng có tác dụng như một nhật ký dữ liệu. Bọn họ đang chán! Thu thập dữ liệu về bản thân chỉ là một công việc rất nhàm chán đối với hầu hết chúng ta để cam kết tích cực thực hiện hàng ngày (hoặc thậm chí hàng tuần).

Câu trả lời phức tạp: Ứng dụng cần trở nên thông minh hơn, được kết nối

Các ứng dụng sức khỏe nhằm thu thập dữ liệu cuối cùng không thành công vì chúng yêu cầu người dùng chủ động nhập. Đây là lý do tại sao hồ sơ sức khỏe cá nhân hầu như không bao giờ có ý nghĩa. Mọi người quá bận rộn với cuộc sống của mình để bận tâm đến việc cho một app3 biết các chỉ số hàng ngày của họ.

Để các ứng dụng sức khỏe cuối cùng thành công khi mà hầu hết các nỗ lực khác đối với phần mềm theo dõi sức khỏe cá nhân đều thất bại là họ phải thu thập dữ liệu một cách thụ động. Điều đó có nghĩa là không yêu cầu đầu vào từ người dùng.

Tất nhiên, chúng ta còn cách rất xa so với các chỉ số như vậy cung cấp dữ liệu có ý nghĩa.Chắc chắn, có những thiết bị chạy theo dõi mức độ bạn chạy (tất nhiên là của Nike). Nhưng một ứng dụng đang chạy sẽ vô dụng nếu nó không kết nối với ứng dụng ăn kiêng, ứng dụng dinh dưỡng hoặc ứng dụng tập thể dục của tôi. Hoặc ứng dụng chánh niệm của tôi. Đó là một ứng dụng đo lường một chỉ số duy nhất trong bản thể phức tạp đó là tôi. Nó chỉ đơn giản là không có nhiều thứ để tiếp tục.

Niềm tin là Nền tảng Chính

Việc áp dụng các ứng dụng nối mạng chia sẻ tất cả dữ liệu sức khỏe của bạn cũng có một trở ngại khác, ít kỹ thuật hơn - đáng tin cậy. Các công ty như Facebook và Nike cuối cùng chỉ trả lời cho một nhóm người - cổ đông của họ. Điều đó có nghĩa là nếu họ phân tích dữ liệu của bạn để tìm những thứ họ có thể kiếm tiền là vì lợi ích tốt nhất thì họ sẽ làm được.

Các công ty khởi nghiệp cũng không tốt hơn, bởi vì thay vì các cổ đông, họ chỉ trả lời cho các nhà đầu tư mạo hiểm - những người cho vay tiền, những người chỉ tìm kiếm lợi tức đầu tư tốt nhất và nhanh nhất của họ.

Tại sao tôi lại muốn tin tưởng thông tin sức khỏe của mình - dữ liệu có thể được sử dụng chống lại tôi để từ chối bảo hiểm hoặc ấn định mức bảo hiểm trong tương lai - cho những công ty ít quan tâm đến việc bảo vệ quyền riêng tư của tôi?

Điều này đưa chúng ta trở lại điểm đầu tiên - một mẫu thiên vị. Những người sẵn sàng cung cấp tất cả thông tin sức khỏe của họ cho các công ty vì lợi nhuận để phân tích, đối chiếu và cuối cùng liên kết lại với bạn (ngay cả khi dữ liệu đó ban đầu được ẩn danh) không giống như hầu hết mọi người. Hầu hết chúng ta vẫn quan tâm đến việc giữ thông tin sức khỏe của mình cho chính mình, cũng như hầu hết chúng ta vẫn muốn giữ thông tin tài chính của mình cho chính mình.

Nơi chúng ta đi từ đây

Cố gắng thu thập dữ liệu dựa trên dân số (ví dụ: thực hiện nghiên cứu dịch tễ học) từ các ứng dụng sức khỏe có một số vấn đề và cơ hội mà tôi đã xác định:

  • Lấy mẫu thiên lệch vì có một số ít người tích cực và liên tục sử dụng các ứng dụng sức khỏe
  • Việc lấy mẫu và tiếp tục sử dụng có thể được cải thiện bằng cách thụ động đấu với hoạt động thu thập dữ liệu
  • Việc lấy mẫu và sử dụng có thể được cải thiện hơn nữa bằng cách sử dụng một cơ quan có thẩm quyền đáng tin cậy để thu thập và lưu trữ dữ liệu (không phải là công ty vì lợi nhuận hoặc công ty khởi nghiệp)
  • Các ứng dụng nhận biết nhau và trao đổi dữ liệu sức khỏe liên quan về tôi là thế hệ tiếp theo - thay vì vô số ứng dụng ngu ngốc, không biết (ngu ngốc?) Hiện tại

Tôi nghĩ thật tuyệt khi các nhà phát triển xem xét một vấn đề sức khỏe, phát triển một ứng dụng cho nó và phát hành nó ra toàn thế giới. Nhưng tất cả các ứng dụng này thường không đi đến đâu, không có khán giả. Hoặc họ bị mồ côi bởi các nhà phát triển ban đầu vì thiếu quan tâm. Một số ứng dụng sức khỏe phổ biến có được lượng khán giả đông đảo là ngoại lệ, không phải là quy luật. Và ngay cả khi chúng nhận được sự chấp nhận rộng rãi, giống như các hệ thống hồ sơ y tế điện tử của đất nước chúng tôi, chúng không nói chuyện với nhau.

Nếu bạn muốn có thể nói điều gì đó có thẩm quyền hoặc có ý nghĩa về dữ liệu được thu thập từ một ứng dụng, bạn phải chứng minh rằng dữ liệu đó đến từ một mẫu dân số đại diện. Thiếu điều đó, dữ liệu của bạn chỉ cho chúng tôi biết về một nhóm nhỏ trong dân số - một nhóm trông không giống với hầu hết chúng ta.

Chú thích:

  1. Và sẽ là trong tương lai gần [↩]
  2. Và tại sao Google cuối cùng sẽ đóng cửa hồ sơ sức khỏe cá nhân của chính mình vào ngày mai. [↩]
  3. Hoặc tệ hơn - và phổ biến hơn - a toàn bộ ứng dụng không biết về người khác và không thể trao đổi dữ liệu với nhau [↩]

!-- GDPR -->