KHOA HỌC DỮ LIỆU (DATA SCIENCE)

Khoa học dữ liệu (Data Science)

1. Khái niệm:

Data Science là một lĩnh vực nghiên cứu dữ liệu, là quá trình và phương pháp xử lý dữ liệu để thu được những kiến thức và thông tin hữu ích. Nó bao gồm những kiến thức toán nền tảng (giải tích, đại số tuyến tính…), kiến thức về xác suất-thống kê (Probability & Statistics) dùng trong phân tích dữ liệu (Data Analysis), kiến thức về lập trình (Python, R…), những phương pháp về thu thập, xử lý dữ liệu (Data Wrangling, Cleaning, Exploration…) và trực quan hóa dữ liệu (Data Visualization). Khoa học dữ liệu sử dụng những mô hình, thuật toán thuộc mảng trí tuệ nhân tạo (AI) như Học máy (Machine Learning) và Học sâu (Deep Learning) để đưa ra những dự đoán cũng như quyết định những giải pháp để giải quyết vấn đề.

2. Quy trình làm việc của khoa học dữ liệu (Data Science Workflow)

  • Hiểu về vấn đề đang cần được giải quyết (Business understanding): Xác định được vấn đề, mục tiêu của dự án, những yêu cầu về giải pháp của các bên liên quan…
  • Xác định phương pháp phân tích (Analytic approach): tìm phương pháp phân tích phù hợp với dữ liệu và yêu cầu đặt ra.Yêu cầu về dữ liệu (Data requirements): Xác định cần dữ liệu gì để giải quyết vấn đề.
  • Thu thập và làm sạch dữ liệu (Data collection and cleaning): Có thể kết hợp dữ liệu được lấy từ những nguồn khác nhau sau đó làm sạch và chuyển những dữ liệu thô thành dữ liệu có thể sử dụng và phân tích được
  • Hiểu dữ liệu (Data understanding): Phân tích và khám phá dữ liệu (Exploratory Data Analysis), sử dụng những phương pháp thống kê cũng như trực quan hóa dữ liệu (Data Visualization) để đánh giá chất lượng của dữ liệu và tìm hiểu những thông tin cơ bản của dữ liệu.
  • Xây dựng mô hình (Model training): Tùy vào vấn đề được đưa ra mà có thể áp dụng những thuật toán khác nhau của Machine Learning để xây dựng mô hình dự đoán hoặc xác định giải pháp sử dụng những dữ liệu đã xử lý ở trên để làm đầu vào.
  • Đánh giá mô hình (Model evaluation): Kiểm tra mô hình có thể giải quyết vấn đề cũng như có thể trả lời được những câu hỏi ban đầu đề ra được hay chưa? Đã trả lời chính xác chưa? Mô hình đã tối ưu về độ chính xác hay tối ưu về chi phí chưa?
  • Triển khai mô hình (Model deployment): Khi đã chọn được mô hình thích hợp xong thì mô hình đó phải được mang ra môi trường thử nghiệm để đánh giá hiệu suất.
  • Phản hồi và truyền đạt kết quả (Data storytelling): Bằng những kết quả thu được từ việc phân tích dữ liệu cũng như từ mô hình, thì nhà khoa học dữ liệu sử dụng nó để truyền đạt những giá trị, thông tin hữu ích của dữ liệu mà mình thu được cho những bên liên quan nghe.

3. Ứng dụng của Khoa học dữ liệu (Applied Data Science)

  • Sử dụng các phương pháp khoa học dữ liệu (Data Science) và Machine Learning để phân tích, hiểu và dự đoán hiện nay ảnh hưởng rất nhiều đến đời sống con người. Ví dụ như Google theo dõi tất cả mọi hoạt động của mọi người trên thế giới như hành vi mua sắm, mạng xã hội, sau đó phân tích dữ liệu để đưa ra những gợi ý dành cho mọi người dựa trên những hành vi đó.
  • Trong lĩnh vực y học, nó có thể cung cấp thông tin nhằm mục tiêu để giúp các chuyên gia chăm sóc sức khỏe điều trị tốt nhất cho bệnh nhân, ví dụ như áp dụng thuật toán Machine Learning có thể xác định được một bệnh nhân có bị tiểu đường hay không dựa vào lượng glucose trong người, huyết áp, độ dày của da, insulin, chỉ số BMI… của bệnh nhân.
  • Trong thương mại điện tử, ví dụ khi bạn tìm kiếm hay vừa mua một món đồ bất kì trên Shopee, Tiki.. thì ngay lập tức bạn sẽ nhận được các quảng cáo liên quan đến những món đồ mà bạn vừa tìm kiếm, đó là ứng dụng của Hệ thống khuyến nghị (Recommendation Engine).
  • Trong lĩnh vực tài chính, có thể sử dụng khoa học dữ liệu và các thuật toán học máy để xác định gian lận trong giao dịch thanh toán, quản trị rủi ro, phân tích khách hàng… Ngoài ra có thể sử dụng các thuật toán Deep Learning để đưa ra những quyết định mua bán cổ phiếu trên thị trường (Auto trading bot).

Nguồn tham khảo

  1. Data Science Methodology — How to design your data science project (https://medium.com/ml-research-lab/data-science-methodology-101-2fa9b7cf2ffe)
  2. What is Data Science? (https://towardsdatascience.com/what-is-data-science-8c8fbaef1d37)
  3. Applying Data Science in Finance (https://www.schweser.com/fdp/blog/data-science-in-finance)
error: Content is protected !!