Data warehousing hiện được xem như là 1 giải pháp hiệu quả cho các tổ chức dùng để tập trung dữ liệu hoạt động của mình cho mục đích phân tích và báo cáo. Triển khai 1 giải pháp data warehouse có thể mang lại cho doanh nghiệp hay các tổ chức nói chung 1 số lợi ích quan trọng như: Có được các báo cáo đầy đủ và chính xác về những thông tin kinh doanh quan trọng; Có được nguồn dữ liệu hoạt động tập trung để sẵn sàng cho việc phân tích và ra quyết định; Có nền tảng để phát triển các giải pháp doanh nghiệp thông minh (business intelligence) qui mô toàn tổ chức. Bài viết này sẽ giới thiệu các thành phần then chốt trong 1 giải pháp data warehousing cũng như 1 số lưu ý quan trọng cần nắm vững trước khi quyết định dấn thân vào các dự án data warehousing.
Phần 1: Khái quát về data warehousing
Data warehousing hiện là 1 kỹ thuật khá tốt để tập trung hóa dữ liệu của doanh nghiệp phục vụ cho các mục đích phân tích dữ liệu và báo cáo. Tuy từng dự án triển khai data warehousing cụ thể có thể sẽ rất khác nhau về chi tiết, nhưng ở hầu hết các dự án như thế cũng có một số thành phần chung. Nắm được các thành phần chung này sẽ giúp chúng ta hoạch định và phát triển 1 giải pháp data warehousing 1 cách hiệu quả hơn. Bài viết hy vọng sẽ giúp người đọc có thể:
- Nhận biết được các vấn đề của doanh nghiệp mà data warehouse có thể giải quyết
- Định nghĩa được Data Warehouse là gì?
- Mô tả các kiến trúc Data Warehouse phổ biến
- Xác định được các thành phần then chốt trong 1 giải pháp Data Warehousing
- Mô tả cách tiếp cận các dự án Data Warehousing
- Xác định các vai trò có liên quan trong 1 dự án Data Warehousing
- Mô tả các thành phần và đặc điểm của Microsoft SQL Server và các sản phẩm khác của Microsoft có thể sử dụng trong các dự án về Data Warehousing
1. Đâu là vấn đề của doanh nghiệp
Doanh nghiệp muốn hoạt động hiệu quả trong môi trường kinh doanh năng động và đầy cạnh tranh như ngày nay, thì mọi thành viên trong tổ chức cần phải có những quyết định và hành động chính xác. Tuy nhiên 1 số vấn đề sau đây có thể làm cho việc mong muốn có được những quyết định hiệu quả trở nên khó khăn:
- Các dữ liệu then chốt của doanh nghiệp bị phân tán ở nhiều hệ thống khác nhau
- Tìm kiếm được thông tin cần thiết cho quá trình ra quyết định mất nhiều thời gian và dễ mắc lỗi
- Một số câu hỏi đơn giản trong quản trị lại trở nên quá khó trả lời
Có nhiều cách để định nghĩa data warehouse, nhưng nói chung, có thể hiểu data warehouse như là 1 kho dữ liệu tập trung gồm các dữ liệu của doanh nghiệp được dùng trong việc phân tích và báo cáo hỗ trợ các quyết định trong kinh doanh.
Một data warehouse điển hình sẽ:
- Chứa 1 số lượng lớn dữ liệu có liên quan tới các giao dịch trong quá khứ
- Được tối ưu hóa cho các thao tác đọc trong các yêu cầu truy vấn dữ liệu. Điều này đối lập với các cơ sở dữ liệu trong các hệ thống xử lý tác vụ (OLTP) được thiết kế để hỗ trợ cả các thao tác thêm, xóa, sửa dữ liệu luôn.
- Được nạp các dữ liệu mới hoặc dữ liệu được cập nhật 1 cách định kỳ
- Là nguồn dữ liệu cơ bản cho các ứng dụng BI mức doanh nghiệp
3. Kiến trúc của Data Warehouse
Có nhiều cách để hiện thực giải pháp data warehouse trong 1 tổ chức. Một số cách tiếp cận phổ biến là:
- Tạo 1 kho dữ liệu tập trung duy nhất cho toàn bộ doanh nghiệp gồm tất cả các mảng hoạt động (business units - BU)
- Tạo từng kho dữ liệu nhỏ, cho từng phòng ban và các mảng hoạt động trong doanh nghiệp
- Theo kiến trúc Hub và Spoke gồm cả 1 kho dữ liệu tập trung lớn cho toàn doanh nghiệp và nhiều kho dữ liệu nhỏ (gọi là data mart trong mô hình này) cho các phòng ban. Data marts là 1 phần nhỏ của data warehouse và các dữ liệu này được đồng bộ với nhau.
Kiến trúc phù hợp cho 1 doanh nghiệp nào đó có thể là 1 trong 3 kiến trúc ở trên hoặc kết hợp các thành phần khác nhau trong cả 3 kiến trúc đó.
4. Các thành phần then chốt trong 1 giải pháp Data Warehousing
Một giải pháp data warehousing thông thường bao gồm các thành phần sau đây:
- Nguồn dữ liệu (Data source)
- Quy trình rút trích, chuyển đổi và nạp dữ liệu (extract, transform, load process - ETL)
- Vùng dữ liệu trung gian (Data staging area)
- Kho dữ liệu cuối cùng
Ngoài ra, 1 số giải pháp data warehousing cũng có thể bao gồm cả:
- Quá trình làm sạch và bỏ trùng lắp dữ liệu
- Quản trị dữ liệu gốc (MDM)
5. Tiếp cận các dự án Data Warehousing
Các dự án data warehousing thường đòi hỏi phải am hiểu rất tường tận về các mục tiêu của doanh nghiệp và những độ đo được doanh nghiệp sử dụng để đưa ra được những quyết định kinh doanh quan trọng.
Việc triển khai các dự án data warehousing thông thường sẽ trải qua các bước cơ bản như sau:
- Làm việc với đại diện phù hợp của doanh nghiệp để xác định các câu hỏi mà họ mong muốn data warehouse sẽ đáp ứng, ví dụ như:
- Tổng doanh số ở từng vùng hoạt động kinh doanh trong 1 tháng nào đó là bao nhiêu?
- Sản phẩm hay dịch vụ nào mang lại lợi nhuận nhiều nhất cho doanh nghiệp?
- Chi phí đang tăng hay giảm theo thời gian?
- Nhân viên kinh doanh nào đạt chỉ tiêu kinh doanh được giao?
- Xác định dữ liệu cần nthiết để có thể trả lời cho các câu hỏi đó.
- Xác định nguồn dữ liệu chứa các dữ liệu cần thiết đó
- Xác định mức độ ưu tiên của các câu hỏi cần đáp ứng
6. Các vai trò trong 1 dự án Data Warehousing
- Project Manager
- Solution Architect
- Data Modeler
- Database Administrator
- Infrastructure Specialist
- ETL Developer
- Business User
- Tester
- Data Steward (Data Governor)
7. Dùng Microsoft SQL Server như là 1 nền tảng cho Data Warehousing
SQL Server đã thiết kế một số thành phần và đặc tính đặc biệt để hỗ trợ triển khai các giải pháp data warehousing như:
- SQL Server database engine
- SQL Server Integration Services
- SQL Server Master Data Services
- SQL Server Data Quality Services
- Microsoft SQL Azure
- Windows Azune Marketplace DataMarket
Ngoài ra, để hoàn chỉnh giải pháp doanh nghiệp thông minh (BI) để khai thác hết giá trị của data warehouse, Microsoft còn cung cấp thêm các thành phần sau:
- SQL Server Analysis Services
- SQL Server Reporting Services
- Microsoft SharePoint Server
- Microsoft Excel
- Microsoft PowerPivot Technologies
- Microsoft Power View