DỮ LIỆU LỚN (BIG DATA)

Dữ liệu lớn (Big Data)

1. Khái niệm:

Big data là một thuật ngữ mô tả một dữ liệu với khối lượng lớn, tốc độ cao và phức tạp. Nó yêu cầu những công nghệ và kỹ thuật để thu thập, lưu trữ, phân phối, quản lý và phân tích thông tin đặc thù.

2. Thành phần của Big data:

 • Khối lượng dữ liệu (Volume): Khối lượng của Big Data rất lớn. Ví dụ là một lượng lớn dữ liệu gồm 20 năm lịch sử trao đổi cổ phiếu của một ngân hàng, tất cả các giao dịch thẻ trong vòng 20 năm,… Khối lượng của nó có thể lên tới ngưỡng terabytes hoặc petabytes.
 • Tốc độ tạo ra dữ liệu (Velocity): Có một lượng dữ liệu lớn được tạo ra chỉ trong một khoảng thời gian ngắn. Ví dụ là dữ liệu đến từ các cảm biến tại nhà máy sản xuất xe, máy theo dõi nhịp tim,… Nó thường được gọi là luồng dữ liệu thực hoặc bán thực (real-time or semi real-time data stream.
 • Tính đa dạng của dữ liệu (Variety): Dữ liệu có thể được lưu trữ dưới những định dạng khác nhau như cơ sở dữ liệu, excel, csv, video, hình ảnh, âm thanh…
 • Độ tin cậy của dữ liệu (Veracity): Tính chất này đi ngược chiều với các đặc tính khác của Big Data, khi khối lượng dữ liệu ngày càng tăng, tính đa dạng của dữ liệu ngày càng phong phú và tính biến thiên của dữ liệu ngày càng lớn thì mức độ tin cậy của dữ liệu ngày càng giảm xuống.
 • Giá trị thu được từ dữ liệu (Value): Tất nhiên rồi, đây là tính chất quan trọng nhất của Big Data. Nó đề cập tới khả năng thu được một lượng lớn thông tin hữu ích đến người sử dụng.

3. Các kiểu của dữ liệu

 • Có cấu trúc (Structured Data): Đề cập đến dữ liệu có một cấu trúc rõ ràng, dạng dữ liệu này có thể được biểu diễn dưới dạng cơ sở dữ liệu, file csv, và dạng bảng như excel…
 • Bán cấu trúc (Semi-Structured Data): Đề cập đến dữ liệu không có cấu trúc rõ ràng, ví dụ là dữ liệu đến từ email, log file, và những tài liệu (documents)…
 • Không cấu trúc (Unstructured Data): Đề cập đến dữ liệu không có cấu trúc, như dữ liệu đến từ hình ảnh, âm thanh hay là video…

4. Big Data trong thực tế

Big Data có thể thấy ở khắp mọi nơi ngày nay. Ví dụ như ở các đại lý bán lẻ online. Các công ty như Amazon là những nơi hàng đầu trong việc xây dựng hệ thống gợi ý sản phẩm rất chính xác tới khách hàng, càng gợi ý tốt thì lượng sản phẩm bán ra cho khách hàng càng nhiều, dẫn đến doanh thu tăng. Để làm được điều đó Amazon cần một lượng lớn dữ liệu như thông tin chi trả, hành vi mua sắm, tìm kiếm sản phẩm, lịch sử mua, nhân khẩu của khách hàng…

5. Lợi ích và Thách thức

 • Lợi ích: Những lợi ích được tổng hợp từ phía trên ta có:

  Vì có một lượng lớn dữ liệu được thu về nên nó có thể trả lời được rất nhiều câu hỏi và vấn đề của doanh nghiệp, lượng thông tin cũng được cập nhật liên tục dựa vào tốc độ tạo ra dữ liệu cùng với tính đa dạng về dữ liệu chúng ta hoàn toàn có thể dùng nó để trả lời được những vấn đề mới, những thông tin tiềm ẩn mà trước đó chúng ta không nghĩ tới.
 • Thách thức: Tất nhiên rồi lợi ích luôn đi kèm với thách thức và Big Data cũng không ngoại lệ:
  • Cần tốn thời gian để làm sạch, xử lý, lưu trữ, tính toán với một lượng dữ liệu lớn như vậy.
  • Vì dữ liệu được thay đổi liên tục, các hệ thống được xây lên phải được tích hợp khả năng tương thích với những kiểu dữ liệu mới.
  • Khó xác định được nguồn thông tin nào là hữu ích.

6. Tương lai của Big Data

 • Big Data thường được sử dụng nhiều trong các lĩnh vực như Khoa học dữ liệu (Data Science) hay Trí tuệ nhân tạo (Artificial Intelligence), những lĩnh vực này yêu cầu rất nhiều dữ liệu để có thể phân tích cũng như xây dựng những mô hình phân tích dự đoán ngày nay.
 • Tuy nhiên thì nó cũng có mặt tối, có nhiều công ty đối mặt với sức ép từ chính phủ và công chúng về vấn đề bảo mật và quyền riêng tư về dữ liệu. Sự gia tăng của dữ liệu trực tuyến khiến chúng ta nguy cơ đối mặt với những cuộc tấn công mạng và việc bảo mật dữ liệu rất nên được coi trọng.

Nguồn tham khảo

 1. Big Data Explained in Plain and Simple English (https://medium.com/swlh/big-data-explained-38656c70d15d)
 2. What Exactly is Big Data in 2020? (https://towardsdatascience.com/what-exactly-is-big-data-in-2020-9acee48e8dd7)
 3. Big Data: Its Benefits, Challenges, and Future (https://towardsdatascience.com/big-data-its-benefits-challenges-and-future-6fddd69ab927)
error: Content is protected !!