Làm quen với Azure Data Factory và Azure Machine Learning

Với Azure Data Factory, bạn có thể tạo ra những luồng dữ liệu lớn (big data) để xử lý nhiều nguồn dữ liệu khác nhau và sự dụng Azure Machine Learning (AML) để phán đoán hành vi của khách hàng. Phân tích một ví dụ sau:

Hãy nghĩ rằng nếu bạn là một nhà phát hành các dịch vụ mobile và bạn muốn xác định người dùng mà có ý định bỏ dịch vụ trong một vài tháng tới. Azure Machine Learning sẽ giúp bạn thay đổi những dữ liệu gốc về người dùng thành những đề xuất thông minh (intelligent action) mà bạn có thể dùng để tìm ra cách để kéo những người dùng đang có ý định bỏ app. Ví dụ dưới đây chỉ giải pháp end-to-end để tìm ra những người dùng như thế (được gọi là customer churn)

ADF cho phép bạn dễ hàng sắp xếp tất cả các quy trình và nguồn lực cần thiết cho các việc… quản lý và vận hành các cụm HDInsight và Machine Learning và công bố những kết quả trên kho Azure blob. Các truy vấn Hive chạy trên HDInsight tổng hợp chi tiết các cuộc gọi (số phút hàng tháng người dùng gọi), trước khi kết hợp với thông tin khách hàng. Sự kết hợp dữ liệu này có thể được sử dụng làm đầu vào cho AML để tìm ra được những khách hàng có ý định ngừng sử dụng.

Trong biểu đồ dưới đây, bạn có thể thấy đường AggregateMobileCustomerUsage chạy như một tác vụ Hive để thực hiện việc tập hợp dữ liệu trên 1 cụm HDInsight. Một khi dữ liệu đã được tổng hợp vào, nó được sử dụng như là đầu vào PredictCustomerChurnPipeline – được gọi là mẫu Azure Machine Learning.

aml

Có 2 phần quan trọng cho giải pháp này:

  • Azure Machine Learning: Triển khai mô hình Customer Churn
  • Azure Data Factory: Sử dụng dịch vụ Web Azure Machine Learning

Azure Machine Learning – Triển khai mô hình Customer Churn

Hãy để chúng tôi chỉ ra những cách thức phán đoán về các dữ liệu khoa học đã được công bố. Chú ý những dịch vụ đầu vào và đầu ra (Web Service Input và Output) của web (theo ảnh dưới đây) – chúng đều được thiết lập các cách thức phán đoán. Các dịch vụ web nhận đầu vào cho phép bạn chỉ định dữ liệu nào sẽ được sử dụng làm dữ liệu phân tích tìm ra các Churn Customer. Các dịch vụ web cho đầu ra dữ liệu sẽ quy định kho chứa Azure Blob là nơi lưu lại các kết quả phán đoán. Khi bạn chọn việc tạo các phương thức phán đoán bằng cách sử dụng AML, Web Service Input và Output sẽ tự động tạo cho bạn.

aml01

Sau khi các phương thức này được triển khai như là một dịch vụ web, bạn có thể xem trên dashboard của web để lấy các API chính và Batch URI như hình dưới đây. Các API và Batch URI được sử dụng trong các bước tiếp theo khi mà bạn tạo một Azure Data Factory liên kết tới dịch vụ.

aml02

Azure Data Factory – Consuming the published Azure Machine Learning web service

Với Batch URI và API, bạn có thể sử dụng các hoạt động AzureMLBatchExecution activity trong Azure Data Factory để ghi dữ liệu đầu vào và lên lịch trình để chạy một cách thường xuyên

Để xác định các thông tin nào cần thiết để kết nối tới AML, bạn sẽ cần phải xác định một dịch vụ liên kết và nó được gọi là ADFMobileCustomerChurnML. Trong dịch vụ liên kết này, bạn sẽ sử dụng nguyên liệu mlEndpoint để trỏ đến Batch URI. Bạn cũng sẽ cần chỉ định API để thực hiện các nhiệm vụ của AML.

aml03

Tiếp theo, bạn sẽ sử dụng các dịch vụ liên kết trong một luồng Azure Data Factory. Trong luồng này, bạn sẽ thấy các hoạt động của AzureMLBatchExecution đề cập đến dịch vụ liên kết ADFMobileCustomerChurnML. Hoạt động này được lên lịch và chạy theo hàng tháng và chỉ bắt đầu khi đầu vào độc lập ( “inputs”: [ { “name” : MergedCustomerProfileCallTrendsCSV”} ] ) sẵn sàng. Điều này cho phép bạn có thể gọi các dịch vụ web chỉ khi tiến trình tải dữ liệu lên các luồng Big Data hoàn thành.

Bạn cũng sẽ nhận được thông báo về các hoạt động xạc nhận dữ liệu theo yêu cầu bởi Web Service Input để tiến hành các dịch vụ cung cấp MergedCustomerProfileCallTrendsCSV dataset. MergedCustomerProfileCallTrendsCSV dataset thường được chứa trong kho Azure blob. Sau khi các hoàng loạt các phán đoán được phân tích ra bởi AML, dữ liệu (về những người dùng Churn Customer) được ghi trên vị trí lưu trữ dự liệu theo quy định của PredictedChurnCustomersBlob dataset.

aml04

Nguồn: FPT Software

Trả lời

Thư điện tử của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *