Chuyện dữ liệu lớn

Phạm Vũ Lửa Hạ

Google data center Douglas County Sáng thứ Năm, bạn ghé sạp báo đầu hẻm, chủ sạp đưa ngay tuần báo Thời Báo Kinh Tế Sài Gòn, và tờ Tuổi Trẻ. Ghé tiệm phở, bà chủ đon đả hỏi có dùng phở tái nạm thêm nước béo, và cà phê đen ít đường như thường lệ. Trưa ở văn phòng, tranh thủ giờ nghỉ, bạn lên mạng tìm mua quà tặng vợ nhân kỷ niệm ngày cưới. Vừa chọn xong món ưng ý, bạn thấy câu gợi ý “Khách mua món này cũng mua thêm…”. Việc chính hôm nay của bạn là tổng hợp và phân tích các chủng loại sản phẩm trong siêu thị để đặt hàng cho kịp đợt kinh doanh cuối mùa xuân. Chiều trên đường về, bạn đi thay nhớt xe; anh thợ quen khỏi cần hỏi cũng biết dùng loại gì. Tối đăng nhập vào mạng giải trí để cả nhà coi phim, bạn thấy hiện ra danh sách giới thiệu phim rất hợp gu của gia đình.

Một ngày trôi qua, bạn gặp lắm tình huống sử dụng dữ liệu về sinh hoạt và hành vi, ở cả vai trò cung cấp lẫn sử dụng thông tin, đều với mục đích “vui lòng khách đến, vừa lòng khách đi”. Sạp báo, quán phở và tiệm sửa xe là điển hình của cách dùng dữ liệu theo kiểu truyền thống với thông tin hữu hạn, chủ yếu dựa trên quan hệ thân tình để nắm bắt thị hiếu của khách. Việc phân tích kinh doanh của bạn xưa nay có thể chỉ dựa trên bảng biểu doanh số và lợi nhuận của từng mặt hàng, nhưng nay có thể vươn lên một tầm mới nếu kết hợp thêm những hiểu biết như tương tác của khách hàng trên trang Facebook hay tài khoản Twitter của công ty, thời điểm truy cập, thời gian dừng lại soi hàng dọ giá, kiểu khuyến mãi nào được cư dân mạng thích và chia sẻ nhiều, v.v…

Nguồn thông tin vô hạn kiểu này giúp những trang như Amazon đi guốc trong bụng bạn mà kể vanh vách bạn (nên) thích món nào, hay được khai thác như mạng coi phim trực tuyến Netflix. Netflix phân tích vô số dữ liệu tiêu dùng như thể loại nào đang hấp dẫn, khi nào khán giả hết hứng thú, hay diễn viên nào ăn khách, nhờ đó đoán trúng phóc thị hiếu khán giả, và thắng lớn với phim bộ đề tài chính trị House of Cards (Canh bạc Hạ nghị viện) với tài tử Kevin Spacey thủ vai chính.

Trào lưu dữ liệu lớn (big data) đình đám trong mấy năm qua, nhất là nhờ bước tiến vũ bão của thiết bị di động và mạng xã hội, dù công nghệ khai thác dữ liệu lớn đã có từ đầu thế kỷ 21. Cốt lõi và những hứa hẹn của trào lưu này được Kenneth Cukier, biên tập viên tạp chí The Economist, và Viktor Mayer-Schoenberger, giáo sư Đại học Oxford, lột tả qua nhan đề cuốn sách “Dữ liệu lớn: Cuộc cách mạng sẽ biến đổi cách chúng ta sống, làm việc, và suy nghĩ” in năm 2013.

Có nhiều định nghĩa khác nhau, nhưng có thể hình dung về dữ liệu lớn qua đặc tính 3V theo nhận xét của hãng phân tích công nghệ Gartner. Đó là high volume (khối lượng dữ liệu khổng lồ), high velocity (tốc độ cực nhanh thu thập và truyền thông tin đến người sử dụng), và high variety (chủng loại dữ liệu rất đa dạng). Giới quan sát còn đặt thêm vài chữ V nữa như veracity (tính xác thực) và value (giá trị).

Hiện nay dữ liệu được lưu trữ với chi phí ngày càng rẻ, và tăng ở mức trước nay chưa từng thấy. Cách đây hai thập niên để chứa một gigabyte dữ liệu (đủ cho khoảng 260 bản nhạc số) cần máy to bằng tủ lạnh. Ngày nay điện thoại thông minh có thể mang cả chục gigabyte như chơi. Giá thiết bị lưu trữ giảm mạnh trong cùng thời kỳ này; lưu trữ một gigabyte xưa tốn hơn ngàn đô nay chỉ còn 5 hoặc 6 xu. Eric Schmidt, chủ tịch Google, nói rằng trong năm 2010 cứ hai ngày thế giới tạo ra khoảng 5 exabyte (1 exabyte = 1 tỉ gigabyte) dữ liệu, tương đương 250.000 năm video chất lượng DVD. Một số ước tính khác cho rằng trong năm tới chỉ cần 10 phút để tạo ra chừng đó dữ liệu.

Cuốn “Dữ liệu lớn …” nêu một ví dụ cho thấy số lượng khổng lồ hiện nay. Vào thế kỷ thứ ba trước CN, Thư viện Alexandria được xem là nơi chứa đựng toàn bộ tri thức nhân loại. Ngày nay, thế giới dư sức cung cấp cho mỗi người đang sống gấp 320 lần lượng thông tin được cho là có trong bộ sưu tập Alexandria – khoảng 1.200 exabyte. Nếu chép số thông tin này lên đĩa, và xếp lên nhau thì được năm chồng CD riêng rẽ vươn tới tận mặt trăng.

Nhưng khối lượng đồ sộ không phải là yếu tố quan trọng nhất. Cái mới chính là nhờ chi phí lưu trữ cực rẻ và máy tính có tốc độ xử lý ngày càng nhanh và có thể xác lập mối tương quan giữa nhiều loại dữ liệu, các doanh nghiệp, tổ chức chính phủ và phi chính phủ hiện đã biết tận dụng nhiều thuật toán tinh vi để chắt lọc mớ bòng bong, lấy ra thông tin hữu ích giúp nâng cao hiệu quả hoạt động của mình. Hãng nghiên cứu thị trường IDC tiên đoán rằng thị trường dữ liệu lớn sẽ đạt giá trị 16,1 tỉ đô-la trong năm 2014, tăng nhanh gấp 6 lần so với thị trường công nghệ thông tin nói chung.

Dữ liệu lớn có nhiều ứng dụng đa dạng không chỉ trong kinh doanh, mà cả trong khoa học, y học và cả chính sách công. Hãng thẻ tín dụng nhanh chóng phát hiện những kiểu dùng thẻ khác thường, và tự động báo cho chủ thẻ khi thẻ trả số tiền lớn ở những nơi họ chưa từng tới. Công ty năng lượng dùng dữ liệu thời tiết xác định chính xác đến từng mét nơi lý tưởng để đặt tua-bin gió. Kể từ khi thủ đô Stockholm, Thụy Điển, dùng thuật toán để quản lý giao thông, thời gian lái xe qua trung tâm thành phố đã giảm một nửa và lượng khí thải giảm 10%. Năm 2010, Google tiên đoán một đợt bùng phát cúm dựa trên thông tin tìm kiếm của người sử dụng. Một số thành phố dùng phương pháp “giữ trị an bằng tiên đoán” để ước tính xác suất xảy ra tội ác ở một số khu vực và điều cảnh sát tuần tra cho hợp lý; cách làm này na ná như trong phim khoa học giả tưởng Minority Report (năm 2002) với thủ phạm tiềm năng bị bắt vì tội chưa phạm phải.

Theo một báo cáo của Viện Toàn cầu McKinsey tháng 5/2011, dữ liệu lớn có tiềm năng tạo giá trị rất lớn. Ví dụ, nếu biết tận dụng, một hãng bán lẻ có thể tăng lợi nhuận hơn 60%, hay ngành y tế Mỹ có thể tạo ra giá trị hơn 300 triệu đô-la/năm, 2/3 trong đó là nhờ giảm chi phí y tế khoảng 8%. Các cơ quan nhà nước ở những nền kinh tế tiên tiến của Châu Âu có thể tiết kiệm hơn 100 triệu euro nhờ cải thiện hiệu quả, đó là chưa kể dùng dữ liệu lớn để tránh gian lận và sai sót và tăng số thuế thu được. Còn người sử dụng các dịch vụ dựa vào dữ liệu định vị cá nhân có thể tận hưởng 600 tỉ đô-la thặng dư tiêu dùng.

Theo Gartner, giá trị của dữ liệu lớn xuất hiện dưới nhiều hình thức, nhưng có thể xếp thành ba loại cơ hội.

Ra quyết định sáng suốt

Wal-Mart muốn giúp khách mua qua mạng tìm được hàng nhanh hơn, nên đã xây dựng kỹ thuật tìm theo nghĩa và ngữ cảnh, dùng dữ liệu nhấp chuột từ 45 triệu khách trực tuyến hàng tháng kết hợp với các điểm xếp hạng sản phẩm và chủng loại lấy từ mạng xã hội. Công cụ tìm kiếm Polaris của Wal-Mart tăng 10% đến 15% số khách thực sự mua sau khi tìm (tăng doanh số khoảng 1 tỉ đô-la).

Hiểu ra nhiều điều tiềm ẩn

Climate Corp do các cựu nhân viên Google thành lập, chuyên bảo hiểm mùa màng cho những vùng không được bảo hiểm đúng mức trên thế giới. Hãng này liên tục thu thập thông tin thời tiết và số đo về đất từ 500.000 địa điểm, và đến nay nay đã có 30 ngàn tỉ mẩu dữ liệu. Kỹ thuật phân tích phức tạp tiên đoán các rủi ro thời tiết cho các loại cây trồng cụ thể ở các địa điểm cụ thể. Hãng đã ăn đứt các hãng bảo hiểm khác không thể thẩm định rủi ro chi li đến từng địa điểm, giúp nông dân ở Châu Á và Châu Phi dám mua hạt giống, đầu tư thiết bị và thuê nhân công mà trước đây họ không thể làm.

Tự động hóa quy trình

Một xưởng bánh của McDonald’s thay thế dụng cụ đo và thẻ màu bằng kỹ thuật phân tích hình ảnh tốc độ cao để kiểm định hàng ngàn cái bánh mỗi phút về màu, kích thước và cả mức phân bố hạt mè – ngay tức khắc điều chỉnh lò nướng và các biện pháp kiểm soát quy trình khác để sản xuất ra bánh đồng nhất và giảm lãng phí. Một hãng thực phẩm khác dùng kỹ thuật phân tích hình ảnh tương tự và phân loại từng miếng khoai tây chiên để tối ưu hóa chất lượng.

—

Ảnh: Trung tâm dữ liệu của Google ở ngoại ô Atlanta, Mỹ. (DPA/ Google)

Bài đăng trên Thời báo Kinh tế Sài Gòn Xuân Giáp Ngọ, 1/2014

Bài liên quan:

lên đông xuống đoài

đi một ngày đàng, học mấy sàng …

Chuyện dữ liệu lớn

Related

One thought on “Chuyện dữ liệu lớn”

Trả lời Hủy

Tiếng lành đồn xa

Related

One thought on “Chuyện dữ liệu lớn”

Trả lời Hủy