本文介绍如何排查部署 Azure 托管 Lustre 文件系统时可能会遇到的常见问题。
群集部署由于网络配置不正确而失败
本部分介绍以下原因:
原因 1:网络端口被阻止
端口 988 和端口 22 必须在子网中打开,群集才能与 Azure 托管 Lustre 服务通信。 如果任一端口被阻止,部署将失败。
解决方案:验证网络配置
允许在 Azure Managed Lustre 子网中的主机之间进行入站和出站访问。 例如,群集部署需要访问 TCP 端口 22 (SSH)。
网络安全组(NSG)必须允许端口 988 和端口 1019-1023 上的入站和出站访问。 其他任何服务都无法在 Lustre 客户端上保留或使用这些端口。 如果在客户端上使用 ypbind 守护程序来维护网络信息服务(NIS)绑定信息,则必须确保 ypbind 不保留端口 988。
确保虚拟网络、子网和 NSG 满足 Azure 托管 Lustre 的要求。 若要了解详细信息,请参阅 网络先决条件。
原因 2:子网中的资源不兼容
Azure 托管 Lustre 和Azure NetApp 文档资源无法共享子网。 如果尝试在当前包含或以前包含的子网中创建 Azure 托管 Lustre 文件系统,则部署将失败,Azure NetApp 文档资源。
解决方案:验证子网配置
如果你使用 Azure NetApp 文件服务,则必须在单独的子网中创建 Azure Managed Lustre 文件系统。 若要了解详细信息,请参阅 网络先决条件。
原因 3:未正确配置网络安全组规则
如果使用网络安全组来筛选 Azure 虚拟网络中 Azure 资源之间的网络流量,则必须正确配置允许或拒绝入站和出站网络流量的安全规则。 如果未为 Azure 托管 Lustre 文件系统支持正确配置网络安全组规则,则部署将失败。
解决方案:验证网络安全组配置
有关配置入站和出站安全规则以支持 Azure 托管 Lustre 文件系统的详细指南,请参阅 配置网络安全组规则。
群集部署由于 Blob 容器配置不正确而失败
本部分介绍以下原因:
原因 1:Blob 容器允许公共访问
若要符合安全要求,必须将 Blob 容器匿名访问级别设置为专用。 如果 Blob 容器设置为公共容器,部署将失败。
解决方案:将 Blob 容器访问级别设置为专用
配置 Blob 容器以仅允许专用访问。 可以在存储帐户级别禁止公共访问,也可以在容器级别配置访问权限。 若要了解详细信息,请参阅 “关于匿名读取访问”。
原因 2:文件系统无法访问 Blob 容器
如果文件系统无法访问 Blob 容器,部署将失败。 必须在存储帐户范围或更高版本中添加角色分配,以允许文件系统访问容器。
解决方案:授权访问存储帐户
若要授权访问存储帐户,请将以下角色分配添加到服务主体HPC 缓存资源提供程序:
若要了解详细信息,请参阅 Blob 集成的 Access 角色。