CluedIn 架構為企業提供有關其攝取資料品質的指標,智慧地偵測髒資料,並為資料工程師和資料管理員清理做好準備。 專有的模糊邏輯機器學習演算法可協助業務使用者和策展人標記資料,並教導系統識別、糾正和防止資料品質問題。
架構
資料流程
CluedIn 解決方案是由在 AKS) 的 Kubernetes 叢集中執行Azure Kubernetes Service (各種功能層所組成。 .NET Core 微服務應用程式的組合會處理不同的函式,例如資料擷取、串流資料處理、佇列和使用者介面。
CluedIn 編目層會透過 Azure Data Factory 連接器從客戶雲端來源 (例如 Azure SQL DB、Azure Cosmos DB、PostgreSQL 和 Salesforce 資料庫) 擷取資料。
CluedIn 也會從內部部署可存取的系統 (例如 SAP、Oracle、IBM 和 Hadoop) 取得輸入,或可以使用內部部署代理程式來編目非公用資料。
企業服務匯流排透過連接埠 5672 和 15672 連線以取得管理端點。 爬蟲程式將資料傳送至匯流排,而處理層會透過連接埠 5672 取用匯流排中的資料。
交易日誌層從處理層獲取結果。
在持續性層中,資料庫會取用交易記錄檔中的資料,並持續保存它,以在不同資料存放區之間提供最終一致性。 所有存放區都會以高可用性 (HA) 模式執行。
與資料虛擬化不同,CluedIn 持續性層會擷取部分來源資料,並保留資料及其結構的最高擬真版本。 這種高保真度意味著 CluedIn Data Fabric 可以處理任何格式或模型的數據業務請求。
資料抽象層會透過每個存放區的連接埠連線到不同的資料存放區。
資料存取是透過連接埠 443 上的 GraphQL、REST 和 WebSockets 呼叫進行。 GraphQL 和 REST 使用拉取模型,而 WebSockets 使用推送模型。
CluedIn 透過節流和跨站點請求偽造 (CSRF) 預防來保護資料存取。
CluedIn ASP.NET Core Web 應用程式會透過埠 443 的 REST 和 GraphQL 呼叫組合進行通訊。
從瀏覽器到應用程式的所有通訊都使用一組輸入定義,只需要單一公用 IP 位址。 在正式作業環境中,所有通訊都是透過安全通訊端層 (SSL) 。
CluedIn 應用程式會將已清除、已處理的資料提供給 Power BI 和 Azure Synapse Analytics 等分析服務,以產生深入解析。 系統會備份所有資料並將其儲存在SQL或Redis資料庫中。
元件
CluedIn 在 Azure Kubernetes Service (AKS) 上執行,這是一種高可用性、安全且完全受控的 Kubernetes 服務,用於部署和管理容器化應用程式。 AKS 提供無伺服器 Kubernetes、整合式 CI/CD,以及企業級安全性和治理。
CluedIn 使用並支援許多資料庫來源和服務,包括:
- Azure SQL 資料庫,一種受控關聯式雲端資料庫服務,始終保持最新狀態,並可視需要自動調整資源。
- Azure SQL 受控執行個體,以取得與現有 SQL Server 應用程式的廣泛 SQL Server 引擎相容性。 SQL 受管理執行個體為內部部署資料庫基礎結構提供具有 Azure 雲端優點,例如彈性調整、統一管理和雲端計費模型。
- Azure Cosmos DB,適用於新式應用程式開發的完全受控、非關聯式 NoSQL 無伺服器資料庫。
- Azure Data Lake,可調整的資料儲存和分析服務。
- Azure Data Factory,完全受控的無伺服器資料整合解決方案,用於大規模擷取、準備和轉換資料。 CluedIn 使用 90 多個內建 Data Factory 連接器,從 Amazon Redshift、Google BigQuery、HDFS、Oracle Exadata、Teradata、Salesforce、Marketo、ServiceNow 和所有 Azure 資料服務等來源取得資料。
CluedIn 為許多分析應用程式和服務提供經過處理、受治理的資料,包括:
- Azure Databricks,快速、簡單且共同作業的 Apache Spark 型分析服務。
- Azure Synapse Analytics,一種無限的分析服務,將企業數據倉儲和巨量數據分析結合在一起。
- Log Analytics,一種 Azure 入口網站 工具,用於編輯、執行和分析來自 Azure 監視器記錄資料的查詢。
- Azure 認知服務,用於建置智慧型應用程式的全方位 AI 服務和認知 API 系列。
- Power BI,一種 Microsoft 商業分析服務,將交互式可視化和商業智能與易於使用的報告創建界面相結合。
案例詳細資料
現代企業公司將許多流程和專案建立在資料之上,但原始資料必須準備好以供使用。 從進階分析到機器學習的資料使用案例都需要類似的資料準備流程和關注。
- 資料專案從資料 探索開始,以確定資料的位置及其使用哪些系統。
- 然後,資料 整合 將多個資料來源整合成一個統一或連接的資料集。
- 下一步是對資料進行標準化、標準化、協調和清理,以便機器能夠以統一、一致和高保真的方式處理資料。
- 最後,資料必須輕鬆且隨時可滿足業務需求。
在這些過程中, 治理 必須確保資料控制和隱私保護,具有明確的所有權、完全可追溯性以及資料來源、處理和使用的稽核追蹤。
CluedIn 平台將這些資料管理流程和支柱封裝成一個連貫、一致、端對端的主資料管理 (MDM) 解決方案。 CluedIn 使用一種稱為 最終連接 的數據集成技術,該技術比傳統的 提取、轉換、加載 (ETL) 或 提取、加載、轉換 (ELT) 模型產生更好的結果。 最終連線會使用 GraphQL 查詢來無縫混合來自許多孤立資料來源的資料。
透過最終連線,資料在輸入或載入其他系統時不會聯結或混合。 相反地,CluedIn 會依原樣載入資料,並使用中繼資料來標記記錄。 最終,具有相同標籤的記錄會在圖表中合併或建立關係。
這種複雜的資料合併技術為資料驅動的解決方案奠定了基礎。 CluedIn Data Fabric 將資料整合到管道中,該管道可清理、準備、建模、管理、擴充、刪除重複資料和編目資料,使其易於存取以供業務使用。
CluedIn 為企業提供有關其攝取資料品質的指標,智慧偵測髒資料並準備由資料工程師和資料管理員清理。 專有的模糊邏輯機器學習演算法可協助業務使用者和策展人標記資料,並教導系統識別、糾正和防止資料品質問題。
CluedIn 包括企業級治理,以確保您可以安全、自信地使用數據。 CluedIn 可以將清除、受控管的數據直接流式傳輸到 Power BI、Azure Databricks、Azure Synapse Analytics 或 Azure 認知服務等分析系統,以便其他企業輕鬆使用。 自動調整的原生支援會使用 Azure 的強大功能,為最大的資料工作負載提供可調整的環境。
潛在使用案例
建置單一資料檢視
- 由於 CluedIn 的語義建模,與傳統方法相比,它使構建主數據的單一視圖變得更加容易。 CluedIn 的客戶正在使用 CluedIn 為其最關鍵的業務數據構建互聯、歷史和高質量的視圖。 CluedIn 不僅支持掌握人員、公司、供應商和產品等經典主域 - 它還支持無窮無盡的不同域以及文件、郵件、事件等非結構化域。 如果您需要一個乾淨、豐富、治理、品質控制和編目的集中式主資料儲存庫,那麼 CluedIn 非常適合您的使用案例。
資料結構
- CluedIn 是 2020 年 Gartner Cool Vendor,因為它能夠將來自 10 個、100 個和 1000 個不同複雜數據源的數據編排到一個統一的數據中心。 如果您需要輕鬆整理來自許多不同資料來源的資料,則 CluedIn 可以用作資料結構來實現此目的。 這可以為您的資料提供串流基礎結構,當資料流向下游取用者時,也可以主動清理和掌握資料。
主資料的複雜合併和連結
- CluedIn 獨特的資料建模方法利用圖形資料庫,可以輕鬆合併和連結複雜的資料。 與傳統方法不同,為了解決這一挑戰,CluedIn 添加了更多的機器學習和圖形分析,以高精度合併、匹配和鏈接記錄。
考量
這些考慮會實作 Azure Well-Architected Framework 的核心,這是一組可用來改善工作負載品質的指導原則。 如需詳細資訊,請參閱 Microsoft Azure Well-Architected Framework。
可靠性
可靠性可確保您的應用程式能夠滿足您對客戶的承諾。 如需詳細資訊,請參閱 可靠性支柱概觀。
CluedIn 每天自動備份資料庫,並預設將其長期儲存 30 天。 整個平台建立在冗餘、容錯堆疊之上,可維護所有子系統的備份。 全天候監控系統確保服務盡可能不受污染。 CluedIn 遵循基礎結構備援的業界標準做法。
CluedIn 只會顯示並儲存資料的表示法,而不是原始版本。 如果 CluedIn 偵測到破壞性資料入侵,它可以暫時從您的伺服器中擦除 CluedIn 資料。 一旦入侵消退,CluedIn 就會重新收集資料以恢復到其原始狀態。
所有資料存放區都會以高可用性模式執行。
延展性
CluedIn 在 Docker 容器 中運行,並使用 Kubernetes 來託管和協調應用程式的不同部分。 這種架構意味著 CluedIn 在彈性環境中運作良好,並且可以自動擴展到所需的大小和基礎設施。
自動調整的原生支援會套用 Azure 的強大功能,為最大的資料工作負載提供可調整的環境。
無結構描述圖形建模會自動從來源資料推斷出資料模型。 新的資料來源會自動連線到所有其他資料來源,而不必明確整合。 資料來源的數量可以無限擴展,而不會增加整合複雜性。
安全性
安全性可保證防止蓄意攻擊以及濫用您的寶貴資料和系統。 如需詳細資訊,請參閱 安全性支柱概觀。
CluedIn 安全性會透過 Azure RBAC 授與許可權並控制不同服務的存取權,以及 Azure 金鑰保存庫安全性金鑰控制和 Azure 監視器存取追蹤和記錄。
除了經過身份驗證的用戶帳戶外,CluedIn 還支持單點登錄 (SSO) 和身份框架。 對 CluedIn 應用程式的要求會使用與使用者身分識別無關的加密存取權杖。
CluedIn 管理多個防火牆和代理層後面儲存的資料表示,並使用一組唯一金鑰對其進行身份驗證。
CluedIn 會以 256 位元 AES 加密儲存所有來源資料,其強度強於或等於支援資料來源的加密層級。
節流和 CSRF 防護可保護資料存取。
DevOps
CluedIn 會使用 Azure Pipelines 持續整合和持續傳遞 (CI/CD) 管線來處理 AKS 環境的部署和滾動更新。
CluedIn 支援單元、整合和功能測試,以確保資料按預期轉換。 虛擬化處理管線可以在記憶體中執行,以進行沙箱測試。 生產級斷言可以幫助調試和追蹤資料問題。
對於測試和生產環境,CluedIn 提供了一個 Helm 套件管理器 圖表,可以在 Kubernetes 叢集中快速安裝 CluedIn。 完全腳本化的資料部署程式支援設定、測試和推出。
成本優化
成本優化是關於尋找減少不必要開支和提高營運效率的方法。 如需詳細資訊,請參閱 成本最佳化支柱概觀。
CluedIn 的定價是公開透明的。 您可以在他們的 網站上查看定價。
Azure 調整大小和開始試用
您可以在其 網站上開始 CluedIn 的 7 天試用版,這也可協助您使用不同大小環境的預先建置 Azure 預估來限定 Azure 裝載成本。
部署此案例
若要使用 Docker 部署 CluedIn 以進行開發和評估,請參閱 CluedIn 搭配 Docker。
若要在 Kubernetes 叢集中快速安裝 CluedIn,請參閱 CluedIn with Kubernetes。 Helm 圖表會安裝 CluedIn 伺服器、網站和其他必要服務,例如儲存體和佇列。
後續步驟
- 如需 CluedIn 的詳細資訊,請參閱 CluedIn 網站。
- 如需 CluedIn 文件,請參閱 CluedIn 文件。