Azure 事件中樞的可靠性

Azure Event Hubs 是原生雲端服務，能以低延遲從任何來源到任何目的地，每秒串流數百萬事件。使用事件中樞來擷取和儲存串流資料，並與針對 Apache Kafka 建置的用戶端應用程式或使用事件中樞用戶端 SDK 的應用程式整合。

當您使用 Azure 時，可靠性是共同的責任。 Microsoft 提供一系列功能來支援韌性和復原。您有責任瞭解這些功能在您使用的所有服務中如何運作，並選取符合業務目標和正常運作時間目標所需的功能。

本文說明事件中心如何對各種潛在故障與問題具備韌性，並說明如何配置其對其他故障具韌性，包括暫時故障、可用性區域故障及區域故障。同時說明備份與復原選項，並強調 Azure Event Hubs 服務水準協議（SLA）的一些重要資訊。

生產部署建議

若要瞭解如何部署事件中樞以支援解決方案的可靠性需求，並瞭解可靠性如何影響架構的其他層面，請參閱 Azure Well-Architected Framework 中事件中樞的架構最佳做法。

可靠性架構概觀

本節說明從可靠性觀點來看，事件中樞如何運作的重要層面。它介紹了邏輯架構，其中包括您部署和使用的資源和功能。它也會說明實體架構，其中提供服務如何在內部管理作業的詳細資料。

邏輯架構

事件中樞命名空間用作一個或多個事件中樞的管理容器。您可以在命名空間層級設定服務，例如配置串流容量、設定網路安全性，以及啟用異地復原和異地災害復原。

在命名空間內，您可以將事件組織到 事件中樞。 Apache® Kafka 生態系統將這種類型的實體稱為主題。事件中樞或主題是事件的僅附加分散式記錄。

每個事件中樞都包含一或多個 分割區，這些分割區是循序事件的記錄。事件中樞可以使用多個分割區來執行平行處理和水平調整。事件中樞只會保證單一分割區內的排序。分割在應用程式的可靠性設計中扮演關鍵角色。當您設計應用程式時，請在最大化可用性和一致性之間進行權衡。若要將大部分應用程式的運作時間最大化，請避免直接從用戶端應用程式定址分割區。如需詳細資訊，請參閱事件中樞的可用性和一致性。

從事件中樞讀取資料的取用者，可以透過維護自己的「檢查點」(會識別其上次收到的事件)，以循序方式讀取事件。

如需事件中樞中分割區和其他基本概念的詳細資訊，請參閱事件中樞中的功能和術語。

實體架構

在實體架構中，事件中樞命名空間會在叢集內執行。叢集提供基礎運算和儲存資源。大部分的命名空間都會在其他 Azure 客戶共用的叢集上執行。當您使用進階層時，命名空間會在共用叢集內配置專用資源。當您使用專用層時，叢集會專用於您的命名空間。如需專用叢集的詳細資訊，請參閱事件中樞專用層概觀。無論層和叢集類型為何，Microsoft 都會管理叢集及其基礎虛擬機器和儲存體。

為了實現備援，每個叢集都有多個複本來處理讀取和寫入請求。為了實現高可用性和效能最佳化，所有資料都會儲存在三個儲存體複本上。若要擴展命名空間的運算資源，請根據層部署輸送量單位（TU）、處理單位（PU）或容量單位（CU）。如需詳細資訊，請參閱使用事件中樞進行調整。

叢集跨越多個實體機器和機架，可降低影響命名空間的災難性故障風險。在具有可用性區域的區域中，叢集會跨個別的實體資料中心延伸。欲了解更多資訊，請參閱對於可用性區域失效的韌性。

對瞬態故障的彈性

暫時性錯誤是元件中的短暫間歇性失敗。它們經常出現在雲端等分散式環境中，而且是作業的一般部分。暫時性錯誤會在短時間內自行修正。請務必確保您的應用程式能妥善處理暫時性錯誤，通常透過重試受影響的請求來進行。

所有雲端裝載的應用程式在與任何雲端裝載的 API、資料庫和其他元件通訊時，都應該遵循 Azure 暫時性錯誤處理指引。如需詳細資訊，請參閱處理暫時性錯誤的建議。

事件中樞會實作透明的失敗偵測和容錯移轉機制，讓服務繼續在有保證的服務層級內運作，通常不會在發生失敗時發生明顯中斷。

當您設計用戶端應用程式以使用事件中樞時，請遵循下列指引：

使用內建的重試原則。 事件中樞和 Apache Kafka SDK 會自動重試可重試錯誤的作業，例如網路逾時、節流回應或伺服器忙碌時。預設會實作指數退避機制，以避免不必要地讓服務超載。
根據您的應用程式需求配置適當的逾時值。預設逾時通常為 60 秒，但您可以根據您的案例進行調整。
在事件處理器中實施檢查點，以便追蹤進度，並能在暫時性失敗後從最後處理的位置恢復。
使用批次處理進行傳送作業 ，以改善輸送量，並減少暫時性網路問題對個別訊息的影響。
如果您使用 Kafka 通訊協定，請使用 Apache Kafka SDK。 Kafka SDK 也會實作重試原則和其他最佳實務，以協助處理暫時性錯誤。

對可用性區域故障的抵抗力

可用性區域是 Azure 區域內物理上獨立的資料中心群組。當某個區域失敗時，服務可以容錯轉移至其中一個剩餘區域。

事件中樞支援所有服務等級中的區域冗餘佈署。當您在支援的區域中建立事件中樞命名空間時，會自動啟用區域備援，而不需要額外費用。但針對專用服務層級，只有在使用至少三個 CU 時，才支援可用性區域。區域備援部署模型適用於所有事件中樞功能，包括擷取、架構登錄和 Kafka 通訊協定支援。

事件中樞會透明地將您的設定、中繼資料和事件資料，複寫到該區域內的三個可用性區域。區域備援可提供自動容錯移轉功能，不需要您介入處理。所有事件中樞元件（包括計算、網路和儲存體）都會跨區域複寫。事件中樞有足夠的容量保留，可立即處理單一可用性區域的完全失效。即使整個可用性區域無法使用，事件中樞仍會繼續運作，而不會遺失資料或中斷串流應用程式。

顯示區域備援事件中樞命名空間的圖表。

區域支援

區域備援事件中樞命名空間可以部署至任何支援可用性區域的 Azure 區域。

需求

標準和進階層支援可用性區域，不需要額外的設定。
針對專用級別，可用性區域至少需要三個運算單元 (CU)。

費用

事件中樞中的區域備援不會增加額外成本。

設定可用性區域支援

事件中樞命名空間在支援的區域中部署時，會自動支援區域備援。不需要進一步的設定。

所有區域都狀況良好時的行為

當事件中樞命名空間使用區域備援，且所有可用性區域正常運作時，預期下列行為：

區域之間的流量路由： 事件中樞以主動-主動模型運作，其中三個可用性區域中的基礎結構會同時處理傳入事件。
區域之間的資料複寫： 事件中樞會跨可用性區域使用同步複寫。當事件生產者傳送事件時，事件中樞會先將事件寫入多個區域中的複本，然後再向用戶端確認寫入作業已完成。這種方法可確保零資料遺失，即使整個區域變得不可用。同步複製方法提供了強大的一致性保證，同時透過最佳化的複製協定保持低延遲。

區域失敗期間的行為

當事件中樞命名空間使用區域備援，且發生可用性區域中斷時，預期下列行為：

檢測和應對： 事件中樞負責自動偵測可用性區域中的失敗。您不需要起始區域容錯移轉。

通知：Microsoft 不會在區域關閉時自動通知您。不過，您可以使用 Azure 服務健康情況來了解服務的整體健康情況，包括任何區域失敗，而且您可以設定服務健康情況警示來通知您問題。

作用中請求： 在區域失敗期間，事件中樞可能會捨棄作用中要求。如果您的用戶端能透過在短暫延遲後重試而適當處理好暫時性錯誤，通常就能避免產生重大影響。
預期資料遺失： 區域失敗期間不會發生資料遺失，因為事件中樞會在通知之前跨區域同步複寫事件。
預期停機時間： 區域故障可能會導致幾秒鐘的停機時間。如果您的用戶端能透過在短暫延遲後重試而適當處理好暫時性錯誤，通常就能避免產生重大影響。
交通重新路由： 事件中樞會偵測區域遺失，並自動將新要求重新導向至其中一個狀況良好的可用性區域中的另一個複本。

事件中樞用戶端 SDK 通常會以透明方式處理連線管理和重試邏輯。

區域復原

當可用性區域復原時，事件中樞會自動將區域重新整合至作用中服務拓撲。復原的區域會開始接受新的連線，並與其他區域一起處理事件。在中斷期間已抄寫至存續區域的資料會保持完整，且會在所有區域之間繼續正常同步抄寫。您不需要採取動作來進行區域復原和重新整合。

測試區域失敗

事件中樞會管理區域失敗的流量路由傳送、容錯移轉和區域復原，因此您不需要驗證可用性區域失敗流程或提供進一步的輸入。

對區域範圍故障的復原能力

事件中樞提供兩種類型的多區域支援：

異地複寫 (進階和專用服務層級) 提供在主要區域與一個或多個次要區域之間的中繼資料和事件資料的主動-主動複寫。針對大部分需要保持區域中斷復原能力，且事件資料遺失容錯度較低的應用程式，請使用異地複寫。
中繼資料異地災害復原（標準層和更新版本）可在主要區域和次要區域之間提供設定和中繼資料的主動-被動複寫，但不會複寫事件資料。針對在災難情境中可以容忍某些資料流失，且需要在另一個區域快速繼續運作的應用程式，使用異地災害復原。

異地複寫和中繼資料異地災害復原都需要您手動起始次要區域容錯移轉或升級，以成為新的主區域。 Microsoft 不會自動執行容錯移轉或升階，即使您的主要區域已關閉。

地理複製

進階層和專用層支援異地複寫。此功能會複寫命名空間的中繼資料（例如實體、組態和屬性）和資料（例如事件承載）。您可以設定命名空間組態和事件資料的複寫方法。此功能可確保您的活動在另一個區域中仍然可用，並允許您在需要時切換到次要區域。其也會複寫結構描述登錄的中繼資料和資料。

針對需要區域中斷復原能力，且事件資料遺失容錯度較低的案例，使用異地複寫。

命名空間基本上是跨區域延伸。一個區域作為主要區域，其他區域作為次要區域。您的 Azure 訂用帳戶會顯示單一命名空間，無論您針對異地複寫設定多少次要區域。

顯示針對異地複寫設定的事件中樞命名空間的圖表。

您可以隨時將次要區域升級為主要區域。當您升級次要區域時，事件中樞會將命名空間的完整網域名稱（FQDN）重新指向選取的次要區域，並將先前的主要區域降級為次要區域。您可以決定是否要執行 計劃的升級 （這表示您等待資料複寫完成）或強制升級（這可能會導致資料遺失）。

備註

事件中樞異地複寫會使用提升一詞，因為它最能代表將次要區域提升至主要區域的過程（稍後將主要區域降級為次要區域）。您可能也會看到這個術語容錯移轉，用來描述一般流程。

本節摘要說明異地複寫的重要層面。檢閱完整文件以確切瞭解其運作方式。如需詳細資訊，請參閱事件中樞異地複寫。

區域支援

您可以選擇任何支援事件中樞的 Azure 區域作為主要區域或次要區域。您不需要使用 Azure 配對區域，因此您可以根據延遲、合規性或數據落地需求來選擇次要區域。

需求

若要啟用異地複寫，您的命名空間必須使用進階層或專用層。

考慮事項

當您啟用異地複寫時，請考慮下列因素：

檢查點格式： 檢查點的格式會變更。如需詳細資訊，請參閱地理複寫：取用資料。
私人端點： 如果您使用私人端點連線到命名空間，您也必須在主要和次要區域中設定網路。如需詳細資訊，請參閱私人端點。

費用

若要瞭解異地複寫的定價運作方式，請參閱定價。

設定多區域支援

在新的或現有的命名空間上啟用異地複寫。 若要為新建立的命名空間設定主動-主動複寫，請參閱在新命名空間上啟用異地複寫。若要在現有命名空間上設定主動-主動複寫，請參閱在現有命名空間上啟用異地複寫。
變更複寫方法。 若要在同步和非同步複寫模式之間進行變更，請參閱切換複寫模式。
停用異地複寫。 若要停用異地複寫至次要區域，請參閱移除次要區域。

當所有區域都正常時的行為

本節說明當事件中樞命名空間設定為異地複寫，且主要區域可運作時，會發生什麼事。

區域之間的流量路由： 用戶端應用程式會透過命名空間的 FQDN 連線，其流量被導向至主要區域。

只有主要區域會在正常作業期間主動處理來自用戶端的事件。次要區域會接收複製的事件，但在待命模式下仍保持被動。
區域之間的資料複寫： 主要區域和次要區域之間的資料複寫行為取決於您是否將複寫配對設定為使用同步或非同步複寫。
- 同步： 在寫入作業完成之前，事件會複寫至次要區域。
  
  此模式提供最大保障，確保您的事件數據是安全的，因為它必須在主要區域和次要區域中被確認儲存。不過，同步複寫會大幅增加傳入事件的寫入延遲。它也要求次要區域能夠接受寫入作業，因此任何次要區域中的中斷都會導致寫入作業失敗。
  - 非同步： 事件會寫入主要區域，然後寫入作業完成。不久之後，它會將事件複寫到次要區域。
  此模式提供比同步複寫更高的寫入輸送量，因為在寫入作業期間沒有區域間複寫延遲。此外，非同步複寫模式可以容忍次要區域的遺失，同時仍允許主要區域中的寫入作業。不過，如果主要區域發生中斷，任何尚未複寫至次要區域的資料都可能無法使用或遺失。
  
  當您設定非同步複寫時，您可以設定複寫所花費的可接受延遲時間上限。您可以隨時使用 Azure 監視器計量來驗證目前的複寫延遲。
  
  如果非同步複寫延遲增加超過您指定的上限，主要區域會開始節流傳入請求，以便複寫能夠趕上。若要避免這種情況，請務必選取地理位置不太遠的次要區域，並確保您的容量足以滿足輸送量。
  
  如需詳細資訊，請參閱複寫模式。

區域失敗期間的行為

本節說明當事件中樞命名空間設定為異地複寫，且主要或次要區域發生中斷時，預期會發生什麼事。

偵測與回應： 你有責任決定何時將命名空間的次要區域升遷成新的主區域。 Microsoft 不會為您做出這個決定或啟動這個過程，即使發生區域中斷也一樣。如需如何將次要區域升級至新主要區域的詳細資訊，請參閱升級次要區域。

當您升級次要區域時，請選擇要執行 計劃的升級 或 強制升級。計劃性升階會先等待次要區域同步完成，再接受新的流量。這種方法消除了資料遺失，但會造成停機。

在主要區域中斷期間，您通常需要執行強制晉升。如果主要區域仍然可用，而您因其他原因觸發升階，則可以選擇計劃性升階。
通知： Microsoft 不會自動通知你區域失效。不過，你可以使用 Azure Service Health 來了解整體服務的健康狀況，包括任何區域故障，並且可以設定服務健康警示來通知你問題。

使用該資訊和其他計量來決定何時將次要區域升級為主要區域。
作用中請求： 行為取決於區域中斷發生在主要區域還是次要區域：
- 主要區域中斷： 如果主要區域無法使用，則會終止所有作用中要求。用戶端應用程式應該在升級完成之後重試作業。
- 次要區域中斷： 在下列情況下，次要區域中的中斷可能會導致作用中要求發生問題：
  - 如果您使用同步複寫模式，如果任何次要區域無法使用，主要區域就無法完成寫入作業。
  - 如果您使用非同步複寫模式，則在複寫延遲達到您設定的最大值後，您的命名空間會節流，並且不接受新事件。
  若要繼續在主要區域中使用命名空間，請從異地複寫設定中移除次要命名空間。
預期資料遺失： 資料遺失量取決於您執行的升級類型（計劃或強制）和複寫模式（同步或非同步）：
- 計劃推廣： 預計不會遺失資料。不過，在區域中斷期間，可能無法進行計劃的升級，因為它需要所有主要和次要區域都可用。
- 強制升級，同步複製： 預計不會遺失資料。
- 強制升階、非同步複寫：您可能會遇到未複寫至次要區域的最近事件發生資料遺失的情形。數量取決於複寫延遲。若要確認目前的複寫延遲，請使用 Azure 監視器計量。
如果您執行強制升級，則無法復原遺失的資料，即使在主要區域可供使用之後也是如此。
預期停機時間： 預期停機時間取決於您執行的是計劃升級還是強制升級：
- 計劃推廣： 計劃升級的第一個步驟會將資料複寫至次要區域。該流程通常會很快完成，但在某些情況下，可能會花費與複寫延遲相同的時間。複寫完成後，升級程序通常需要大約 5 到 10 分鐘。網域名稱系統（DNS）伺服器有時可能需要更長的時間來更新項目並將其記錄完全複製到用戶端。
  
  主要區域在整個升階過程中不接受寫入作業。
  
  在區域中斷期間，此選項可能無法實現，因為它需要所有主要和次要區域都可用。
- 強制晉陞： 在強制升級期間，事件中樞不會等候資料複寫完成，而且會立即起始升級。推廣過程通常需要大約 5 到 10 分鐘。有時可能需要更長的時間才能在用戶端之間完全複寫和更新 DNS 項目。
  
  主要區域在整個升階過程中不接受寫入作業。
交通重新路由： 升級完成之後，命名空間的 FQDN 會指向新的主要區域。但此重新導向取決於用戶端 DNS 記錄的更新速度，包括其 DNS 伺服器是否遵循命名空間 DNS 記錄的存留時間（TTL）。

在某些情況下，您必須設定取用者應用程式，讓其在進行區域升階後保持一致的行為。如需詳細資訊，請參閱地理複寫：取用資料。

區域復原

在原始主要區域復原之後，如果您想要將命名空間傳回其原始主要區域，請遵循相同的區域升級程序。

如果您在區域中斷期間執行強制升級，則即使在主要區域可用之後，也無法復原遺失的資料。

區域故障測試

若要測試異地複寫，請暫時將次要區域升級為主要區域，並驗證您的用戶端應用程式是否可以在區域之間切換，並將中斷降至最低。

監控推廣活動的持續時間，並確認您的 Runbook 和自動化流程是否正常運作。測試之後，您可以恢復至原始組態。

了解您在升級過程中和之後可能遇到的潛在停機和資料遺失。在與生產命名空間配置相同的非生產環境中測試異地複寫。

中繼資料異地災害復原

標準層及更高層級支援元資料地理災害復原。此功能可改善從災難案例中復原的能力，包括區域的災難性失效。地理災害復原僅複製您命名空間的配置和中繼資料。不過，它不會複寫事件資料。為了支援災難復原，此功能可確保預先設定另一個區域中的命名空間，並準備好立即接受來自用戶端的事件。遠端災害復原是一種單向復原解決方案，不支援回退至之前的主要區域。

中繼資料異地災害復原最適合那些不必嚴格保留每一個事件，並且能在災難案例中容忍部分資料遺失的應用程式。例如，如果您的事件代表的是感應器讀數，並且您稍後會彙總這些讀數，您可能會認為，如果您能夠很快在另一個區域繼續處理新的事件，則可以接受從故障區域遺失一些事件。

這很重要

地理災害復原可讓具有相同設定但不會複寫事件資料的作業持續運作。如果您需要複寫事件資料，請考慮使用異地複寫。

當您設定中繼資料異地災害復原時，您會建立用戶端應用程式所連線的別名。別名是預設將所有流量導向至主要命名空間的 FQDN。

顯示針對中繼資料異地災害復原設定的兩個事件中樞命名空間的圖表。

如果主要區域失敗或發生其他類型的災難，您可以隨時手動起始從主要區域到次要區域的單次單向容錯移轉。故障轉移幾乎瞬間完成。在容錯移轉過程中，異地災害復原別名會重新指向次要命名空間，並移除配對。

本節摘要說明異地災害復原的重要層面。檢閱完整文件以確切瞭解其運作方式。如需更多資訊，請參閱事件中樞的地理災害復原。

區域支援

您可以選取任何支援事件中樞的 Azure 區域作為主要或次要命名空間。您不需要使用 Azure 配對區域，因此您可以根據延遲、合規性或數據落地需求來選擇次要區域。

需求

主要命名空間層： 您的主要命名空間必須位於標準層或更高層級，才能使用中繼資料異地災害復原。
次要命名空間層： 中繼資料異地災害復原支援主要和次要命名空間的特定層組合。如需詳細資訊，請參閱支援的命名空間配對。

考慮事項

角色指派：對主要命名空間中實體的 Microsoft Entra 角色型存取控制角色 (RBAC) 指派，不會複寫至次要命名空間。在次要命名空間中手動建立角色指派，以安全存取這些實體。
結構描述登錄：當您使用中繼資料異地災害復原時，會複寫結構描述登錄中繼資料，但不會複寫向結構描述登錄登錄的結構描述。
應用設計： 異地災害復原在設計用戶端應用程式時需要特定考量。如需詳細資訊，請參閱注意事項。
私人端點： 如果您使用私人端點連線到命名空間，請在主要和次要區域中設定網路。如需詳細資訊，請參閱私人端點。

費用

當您啟用中繼資料異地災害復原時，您會同時支付主要和次要命名空間的費用。

設定多區域支援

建立後設資料的地理災害備援配對。 若要設定主要和次要命名空間之間的災害復原，請參閱設定和容錯移轉流程。
停用中繼資料異地災害復原。 若要中斷命名空間之間的配對，請參閱設定和容錯移轉流程。

容量規劃和管理

當您規劃多區域部署時，請確定兩個區域都有足夠的容量來處理一個區域失敗時的完整負載。次要區域在正常作業期間會保持被動狀態，但它必須能在容錯移轉後立刻處理流量。規劃如何調整次要命名空間容量，使其可以立即接收生產流量。如果您可以在容錯移轉程序期間容忍額外的停機時間，您可以選擇在容錯移轉期間或之後擴展次要命名空間容量。若要減少停機時間，請提前在次要命名空間中佈建容量，以便隨時準備好接收生產負載。

當所有區域都正常時的行為

本節說明當事件中樞命名空間設定為異地災害復原，且主要區域運作時，預期會發生什麼事。

區域之間的流量路由： 客戶端應用程式會透過命名空間的地理災難復原別名進行連線，而其流量會被路由到主要區域中的主要命名空間。

只有主要命名空間會在正常作業期間主動處理來自用戶端的事件。次要命名空間在待命模式下保持被動狀態，並且任何存取資料的要求都會失敗。
區域之間的資料複寫： 只有組態中繼資料會在命名空間之間複寫。配置的複寫會持續且非同步地進行。

所有事件資料只會保留在主要命名空間中，不會複寫至次要命名空間。

區域失敗期間的行為

本節說明當事件中樞命名空間設定為異地災害復原，且主要區域發生中斷時，預期會發生什麼事。

檢測和應對： 您負責監視區域健康情況，並手動進行故障轉移。 Microsoft 即使在您的主要區域停止運作時，也不會自動進行容錯移轉或升級次要區域。

如需如何起始容錯移轉的詳細資訊，請參閱手動容錯移轉。

容錯移轉是單向作業，因此您必須稍後重新建立異地災害復原配對。如需詳細資訊，請參閱區域復原。
通知： Microsoft 不會自動通知你區域失效。不過，你可以使用 Azure Service Health 來了解整體服務的健康狀況，包括任何區域故障，並且可以設定服務健康警示來通知你問題。

使用該資訊和其他計量決定何時容錯移轉到次要區域。
作用中請求： 進行中的作用中要求會在容錯移轉開始時終止。用戶端應用程式應該在容錯移轉完成之後重試操作。
預期資料遺失：
- 元數據： 組態和中繼資料通常會複寫至次要命名空間。但中繼資料複寫會非同步進行，因此最近的變更可能不會複寫，尤其是複雜的變更。在用戶端存取次要命名空間之前，請先驗證次要命名空間的組態。
- 事件數據： 事件資料不會在區域之間複寫。如果主要區域關閉，主要命名空間中的事件將變得無法使用。
  
  除非災難性災難導致主要區域完全喪失，否則這些事件不會永久遺失。如果區域復原，您可以稍後從主要命名空間擷取事件。
預期停機時間： 故障轉移通常會在 5 到 10 分鐘內發生。用戶端可能需要更長的時間才能完全複寫和更新 DNS 項目。
流量重新路由： 使用地理災害復原別名連線至命名空間的客戶端會在故障轉移後自動重新導向至次要命名空間。但此重新導向取決於 DNS 伺服器是否遵循命名空間 DNS 記錄的 TTL，以及用戶端能夠接收到這些更新的 DNS 記錄。

區域復原

原始主要區域復原之後，您必須手動重新建立配對，或選擇回復至原始主要區域。建立新的異地災害復原配對，並將復原的區域設為次要區域，然後在需要返回原始區域時執行另一個容錯移轉。此流程涉及傳送至暫存主要存放區的事件的潛在資料遺失。

如果災害導致主要區域中的所有區域遺失，您的資料可能無法復原。在其他情境中，您的事件資料會保留在容錯移轉前的主要命名空間中，此命名空間是可恢復的。還原存取權之後，您可以從舊的主要命名空間取得歷程記錄事件。您負責設定應用程式以接收和處理這些事件。 Microsoft 不會自動將它們還原至您的次要區域。

區域故障測試

若要測試您的回應和災難復原程序，請在維護時段期間執行計劃性容錯移轉。起始從主要命名空間到次要命名空間的容錯移轉，並驗證應用程式可以連接並處理來自新主要命名空間的事件。

監控故障轉移的持續時間，並驗證您的執行手冊和自動化是否正常運作。測試之後，您可以恢復至原始組態。

了解您在容錯移轉流程期間和之後，可能會遇到的潛在停機和資料遺失問題。在與生產命名空間配置相同的非生產環境中測試異地複寫。

自訂多區域解決方案，以實現復原能力

異地複寫和中繼資料異地災害復原可針對區域中斷和其他問題提供復原能力，而且支援大部分的工作負載。某些事件中樞層不支援這些功能，或者您可能需要自訂複寫，或需要同時維護多個作用中區域。

各種設計模式可以在事件中樞中實現不同類型的多區域支援。許多模式都需要部署多個命名空間，並使用 Azure Functions 等服務來複寫它們之間的事件。如需詳細資訊，請參閱多站台和多區域聯邦。

備份與還原

事件中樞並非設計為資料的長期儲存位置。一般而言，您會將資料儲存在事件中樞中一小段時間，然後處理資料或保存在另一個資料儲存體系統中。您可以根據您的需求和命名空間使用的層來設定事件中樞的資料保留期間。如需詳細資訊，請參閱事件保留。

如果您需要保留事件的複本，請考慮使用事件中樞擷取，以將事件複本儲存至 Azure Blob 儲存體帳戶。

服務等級協定

Azure 服務的服務等級協定 (SLA) 描述服務的預期可用性，以及解決方案必須符合才能達到該可用性預期的條件。如需詳細資訊，請參閱在線服務的 SLA。

當您的命名空間使用進階或專用層時，其可用性 SLA 會較高。

意見反應

此頁面對您有幫助嗎？

Last updated on 2025-12-15

共用方式為

Azure 事件中樞的可靠性

生產部署建議

可靠性架構概觀

邏輯架構

實體架構

對瞬態故障的彈性

對可用性區域故障的抵抗力

區域支援

需求

費用

設定可用性區域支援

所有區域都狀況良好時的行為

區域失敗期間的行為

區域復原

測試區域失敗

對區域範圍故障的復原能力

地理複製

區域支援

需求

考慮事項

費用

設定多區域支援

當所有區域都正常時的行為

區域失敗期間的行為

區域復原

區域故障測試

中繼資料異地災害復原

區域支援

需求

考慮事項

費用

設定多區域支援

容量規劃和管理

當所有區域都正常時的行為

區域失敗期間的行為

區域復原

區域故障測試

自訂多區域解決方案，以實現復原能力

備份與還原

服務等級協定

相關內容

意見反應

其他資源