生产型人工智能具有潜力改变行业并产生难以估量的投资回报率,但前提是首席信息官和其他IT领导者了解一些基本要素。
首先,了解人工智能的基本概念和技术是至关重要的。人工智能是指计算机系统能够模仿和执行人类智能活动的能力。这包括机器学习、
生成式人工智能吸引了所有人的注意力,这有着充分理由。但是,从潜力到盈利并非没有风险,例如,假设部署主流企业IT基础设施的既定流程将在复杂的人工智能超级群的新时代发挥作用。
确保人工智能实现其承诺的关键信息官们需要更好地了解大规模设计、部署和管理这一基础设施组件所需的条件,其中包括:
1.基础设施需求
建立在人工智能的环境相对较新,尝试将传统的企业计算设计和架构与高性能处理器、低延迟网络和调度器驱动器的工作负载环境结合起来会带来一系列新的挑战。物理数据中心设计是基础的,不正确配置系统的无声、长尾影响可能意味着启动基于不正确的电源、冷却和网络元素的“错误启动”部署。
2.性能优化
这是一个设计上错综复杂、低延迟的GPU网络架构的影响。这些系统需要精确的配置,否则未调优的系统仍能正常工作,但团队对人工智能工作负载的低性能水平毫无所知,最终导致大量错误投资回报率。
Penguin/SGH全球营销副总裁Mark Seamans将其比作一级方程式赛车。他说:“一个配置不当的系统可能看起来就像一辆F1赛车,但只有当你把其他五辆车放在赛道上时,你才会意识到竞争对手正在超越。确保你在设计、制造和部署过程中都遵循一套规范的标准,这意味着即使你是赛道上唯一的车手,你也能达到F1赛车的全速。”
3.可扩展性、灵活性和可靠性
在考虑人工智能基础设施及其构建块的性质时,精度对于有有效处理不同的人工智能工作负载变得更加重要。这就是适应不断变化的计算需求的可扩展性和灵活性。但是,正如马克所指出的,“在团队进行安全、软件和固件更新时,或者在增加新的人工智能节点以扩大集群容量的情况下,这也与稳定性有关。”如果构建模块不是最优的,未来的变化可能会破坏系统的稳定性。”
4.数据管理
组织习惯于这样的环境:如果一台服务器宕机,其他服务器可以接管负载。然而,人工智能系统并不以同样的方式运行。错误配置的网络、节点故障,甚至单个GPU的丢失,都可能扼杀可能已经运行了数周的作业——让用户感到沮丧,并为负担重的IT团队增加工作量。
然而,并非没有解决方案。一种方法是将任务分解为更小的部分,并通过分布式计算来处理。这样,如果一个节点出现故障,其他节点仍然可以继续工作。另一种方法是通过数据备份和冗余来确保系统的弹性。这样,在发生故障时,可以快速恢复并继续工作,减少中断时间。
除了技术层面的解决方案,还应该培养团队的问题解决和危机管理能力。提前制定灾难恢复计
Mark: “Penguin公司为提高集群性能和可靠性开发了许多创新——包括一个隔离未决GPU故障的解决方案,我们可以剔除这些节点,在生产配置之外对其进行分类,修复问题,然后重新配置并将其作为健康节点放回集群。”
5.成本的考虑
成本始终是一个考虑因素,但与人工智能工作负载相关的影响更大。考虑一个有1000个节点的系统,每个节点由10根网线和多个复杂的网络结构连接。硬件采购、电力和冷却的大量能源消耗以及维护成本如果不能与部署时间表和性能要求相平衡,就会超出预算限制。有了这些价值数百万美元的人工智能配置,将系统投入生产的延迟会带来大量不必要的折旧成本和错失的投资回报率。
来自经验丰富的AI基础设施合作伙伴的证明点
超过25年的高性能计算经验和超过7年的大规模部署人工智能基础设施,使企鹅解决方案成为人工智能平台的首选。企鹅已经部署了5万多块GPU,像Meta公司这样的客户依赖于他们的专业知识,Penguin公司已经准备好成为值得信赖的合作伙伴,帮助每一位客户走向未来。
以上就是首席信息官必须了解的关于人工智能基础设施的五件事的详细内容,更多请关注叮当号网其它相关文章!
文章来自互联网,只做分享使用。发布者:老板不要肥肉,转转请注明出处:https://www.dingdanghao.com/article/463608.html