Data Engineer và Data Scientist là hai vai trò chính trong lĩnh vực xử lý dữ liệu, nhưng chúng thường tập trung vào các khía cạnh khác nhau của linh vực này. Bên cạnh những điểm khác biệt, các nhà khoa học dữ liệu và kỹ sư dữ liệu cũng có một số điểm chung: nền tảng kiến thức về Khoa học máy tính. Sự khác biệt giữa Data Scientist và Data Engineer được thể hiện dựa trên 5 yếu tố khác nhau dưới đây:
- Công việc
- Công cụ & ngôn ngữ
- Nền tảng giáo dục
- Lương & tuyển dụng
- Triển vọng công việc.
Thứ nhất về công việc:
Data engineer - Kỹ sư dữ liệu làm gì?
Kỹ sư dữ liệu là người phát triển, xây dựng, kiểm tra và duy trì kiến trúc, chẳng hạn như cơ sở dữ liệu và hệ thống xử lý quy mô lớn. Chính cách thức biến nguồn dữ liệu thô trở thành nguồn dữ liệu có thể sử dụng được làm nên sự khác biệt giữa một Kỹ sư dữ liệu và một nhà Khoa học dữ liệu.
Kỹ sư dữ liệu xử lý các dữ liệu thô chứa lỗi của con người, máy móc hay dụng cụ. Những dữ liệu này có thể không được xác thực và chứa các lịch sử khả nghi; nó sẽ không được định dạng và có thể chứa các mã dành riêng cho hệ thống. Các kỹ sư dữ liệu sẽ cần đề xuất và đôi khi thực hiện các cách để cải thiện độ tin cậy, hiệu quả và chất lượng dữ liệu. Để làm như vậy, họ sẽ cần sử dụng nhiều ngôn ngữ và công cụ để kết hợp các hệ thống với nhau hoặc tìm mọi cách để có được dữ liệu mới từ các hệ thống khác.
Cuối cùng, để cung cấp dữ liệu cho nhóm khoa học dữ liệu, nhóm kỹ sư dữ liệu sẽ cần phát triển các quy trình thiết lập dữ liệu để mô hình hóa, khai thác và sản xuất dữ liệu.
Data Scientist - Nhà khoa học dữ liệu làm gì?
Các nhà khoa học dữ liệu thường sẽ có những dữ liệu đã được làm sạch và về cơ bản hoàn thành các thao tác đầu tiên. Họ có thể sử dụng để cung cấp cho các chương trình phân tích tinh vi, học máy và các phương pháp thống kê để lấy dữ liệu sử dụng trong các mô hình dự đoán và mô tả. Tất nhiên, để xây dựng mô hình, họ cần thực hiện các câu hỏi về ngành nghề kinh doanh, và họ sẽ cần tận dụng khối lượng lớn dữ liệu từ các nguồn bên trong và bên ngoài để đáp ứng nhu cầu kinh doanh. Điều này đôi khi cũng liên quan đến việc khám phá và kiểm tra dữ liệu để tìm các mẫu ẩn.
Khi các nhà khoa học dữ liệu thực hiện các phân tích, họ sẽ cần trình bày một câu chuyện rõ ràng cho các bên liên quan và khi kết quả được chấp nhận, họ cần đảm bảo rằng công việc được tự động hóa để có thể cung cấp thông tin chi tiết cho các bên liên quan hàng ngày, hàng tháng hoặc hàng năm.
Rõ ràng là cả hai bên cần phải làm việc cùng nhau để sắp xếp dữ liệu và cung cấp thông tin chuyên sâu về các quyết định quan trọng trong kinh doanh. Mặc dù có sự trùng lặp về nhiều kỹ năng, nhưng cả Kỹ sư dữ liệu và Khoa học dữ liệu đang dần trở nên khác biệt hơn trong ngành: trong khi kỹ sư dữ liệu sẽ làm việc với các hệ thống cơ sở dữ liệu, API dữ liệu và các công cụ cho mục đích ETL thì nhà khoa học dữ liệu cần biết về thống kê, toán học và máy học để xây dựng các mô hình dự đoán.
Thứ hai về công cụ & ngôn ngữ :
Data Engineer
- Ngôn ngữ lập trình: Thường sử dụng ngôn ngữ lập trình như Python, Java, Scala, hoặc SQL để phát triển và duy trì các pipeline xử lý dữ liệu.
- Công cụ: Sử dụng các công cụ như Apache Hadoop, Spark, Kafka, và các hệ quản lý cơ sở dữ liệu như MySQL, PostgreSQL.
Data Scientist
- Ngôn ngữ lập trình: Sử dụng ngôn ngữ như Python, R, và SQL để thực hiện phân tích dữ liệu và xây dựng mô hình.
- Công cụ: Sử dụng các công cụ như Jupyter, RStudio, và các thư viện như TensorFlow, scikit-learn, để phát triển và triển khai mô hình.
Đối với một nhà khoa học dữ liệu, R và Python là 2 công cụ phổ biến nhất. Làm việc với 2 công cụ này, bạn sẽ thường xuyên sử dụng các packages như ggplot2 để thực hiện trực quan hóa dữ liệu trong R hoặc thao tác dữ liệu thư viện Pandas Python. Tất nhiên, còn có rất nhiều gói khác sẽ có ích khi bạn làm việc trong các dự án khoa học dữ liệu, như Scikit-Learn, NumPy, Matplotlib, Statsmodels, v.v. Trong lĩnh vực này, SAS hay SPSS giúp xử lý tốt công việc, bên cạnh đó Tableau, Rapidminer, Matlab, Excel, Gephi cũng là những công cụ đắc lực của một nhà khoa học dữ liệu.
Chúng ta có thể thấy rằng, một lần nữa điểm khác biệt giữa một nhà khoa học dữ liệu và kỹ sư dữ liệu nằm ở khả năng trực quan hóa dữ liệu và kể chuyện, được phản ánh trong các công cụ được đề cập bên trên. Điểm giống nhau về công cụ, ngôn ngữ và phần mềm của 2 công việc này là Scala, Java, C#.
Thứ ba về nền tảng giáo dục:
Bạn sẽ thấy rằng các nhà khoa học dữ liệu thường nghiên cứu về kinh tế lượng, toán học, thống kê và vận hành. Họ thường có sự nhạy bén trong kinh doanh hơn một chút so với các kỹ sư dữ liệu. Các kỹ sư dữ liệu cũng đến từ nền tảng kỹ thuật, dù ít hay nhiều, họ đã có một số kiến thức trước đây về kỹ thuật máy tính. Tất nhiên, nói tất cả những điều này không có nghĩa bạn sẽ không tìm thấy các kỹ sư dữ liệu có kiến thức về vận hành hay nhạy bén trong kinh doanh. Tất cả dừng ở mức tương đối!
Thứ tư về Lương & Tuyển dụng
Nói đến lương, mức lương trung bình dành cho các nhà khoa học dữ liệu được đặt ở mức $135.000/năm, trong đó mức lương tối thiểu là $43.000/năm, mức lương tối đa rơi vào khoảng $364.000/năm.
Còn với Kỹ sư dữ liệu, mức lương trung bình có một chút thấp hơn, khoảng $124.000/năm - trong đó $34.000/năm cho mức lương tối thiểu và $341.000/năm cho mức lương tối đa. Sự khác biệt về mức lương này khó có thể xác định chính xác đến từ đâu. Một trong những yếu tố có thể căn cứ vào liên quan đến số lượng vị trí có nhu cầu tuyển dụng. Theo dữ liệu từ indeed.com, có khoảng 85.000 cơ hội việc làm cho vị trí kỹ sư dữ liệu, trong khi đó có khoảng 110.000 việc làm cho các nhà Khoa học dữ liệu trên thị trường.
Một số công ty có nhu cầu tuyển dụng Kỹ sư dữ liệu bao gồm: PlayStation, The New York Times, Bloomberg hay Verizon. Trong quá khứ, Spotify, Amazon và cả Facebook cũng đã bổ sung Kỹ sư dữ liệu vào đội ngũ nhân sự của mình. Ở phần ngược lại, các nhà khoa học dữ liệu đang được đón chào tại các tập đoàn lớn như Dropbox, Microsoft, Deloitte hay Walmart.
Thứ năm về triển vọng công việc
Hiện nay, ngoài việc quan tâm về các vấn đề quản lý dữ liệu, các công ty đang tìm kiếm các giải pháp rẻ hơn, linh hoạt và có thể mở rộng để lưu trữ và quản lý dữ liệu của họ. Họ muốn chuyển dữ liệu của mình lên đám mây và để thực hiện việc này, họ cần xây dựng "hồ dữ liệu" để bổ sung cho kho dữ liệu mà họ đã có hoặc thay thế cho kho lưu trữ dữ liệu hoạt động (ODS). Các luồng dữ liệu sẽ cần phải được chuyển hướng và thay thế trong tương lai. Do đó, nhu cầu trong việc tuyển dụng các kỹ sư dữ liệu dần tăng lên qua từng năm.
Ngày nay, các công ty đang tìm cách thành lập các nhóm khoa học dữ liệu thay vì thuê các “nhà khoa học dữ liệu kỳ lân” có kỹ năng giao tiếp, sáng tạo, thông minh, tò mò, chuyên môn kỹ thuật, v.v...Thật khó để tìm ra những người thể hiện tất cả các phẩm chất mà các công ty đang tìm kiếm và “cầu” rõ ràng vượt quá “cung”.
Có thể khẳng định rằng nhu cầu về các chuyên gia có niềm đam mê với các chủ đề khoa học dữ liệu luôn là rất lớn. Theo số liệu của McKinsey vào năm 2018, nước Mỹ có thể đối mặt với sự thiếu hụt 140.000 đến 190.000 người có kỹ năng phân tích chuyên sâu; 1,5 triệu nhà quản lý và phân tích với kỹ năng sử dụng phân tích dữ liệu (lớn) để đưa ra quyết định hiệu quả. Triển vọng công việc của Kỹ sư dữ liệu và Khoa học dữ liệu là vô cùng sáng sủa.
Tóm lại, Data Engineer chủ yếu tập trung vào việc xây dựng cơ sở hạ tầng dữ liệu, trong khi Data Scientist tập trung vào phân tích dữ liệu để tìm ra thông tin quan trọng cho quyết định kinh doanh. Cả hai vai trò này thường cần làm việc cùng nhau để đảm bảo rằng dữ liệu được xử lý và phân tích một cách hiệu quả.