西安地铁25日起全线网恢复常态化运营
为配合春运工作,根据当前疫情防控形势,结合客流快速增长的特点,自1月25日起,西安地铁全线网恢复...
2024-08-26 21:35:16
来源:今日热点网
2024年被普遍认为是“大模型落地应用元年”,而要让大模型真正落地应用到企业的生产环节中,推理能力至关重要。所谓“推理能力”,即大模型利用输入的新数据,一次性获得正确结论的过程。除模型本身的设计外,还需要强大的硬件作为基础。
在8月21日举办的2024火山引擎AI创新巡展上海站活动上,火山引擎云基础产品负责人罗浩发表演讲,介绍了火山引擎AI全栈云在算力升级、资源管理、性能和稳定性等方面做出的努力,尤其是分享了针对大模型推理问题的解决方案。
罗浩表示,在弹性方面,与传统的云原生任务相比,推理任务,以及面向AI native应用,由于其所对应的底层资源池更加复杂,因此面临的弹性问题也更加复杂。传统的在线任务弹性,主要存在于CPU、内存、存储等方面,而AI native应用的弹性问题,则涉及模型弹性、GPU弹性、缓存弹性,以及RAG、KV Cache等机制的弹性。
同时,由于底层支撑算力和包括数据库系统在内的存储都发生了相应的变化,也导致对应的观测体系和监控体系出现不同的变化,带来新的挑战。
在具体应对上,火山引擎首先在资源方面,面向不同的需求,提供了更多类型的多达几百种计算实例,包括推理、训练以及不同规格推理和训练的实例类型,同时涵盖CPU和GPU。
在选择实例时,火山引擎应用了自研的智能选型产品,当面训练场景或推理场景时,在给定推理引擎,以及该推理引擎所对应的模型时,都会给出更加适配的GPU或CPU实例。该工具也会自动探索模型参数,包括推理引擎性能等,从而找到最佳匹配实例。
最后,结合整体资源调度体系,可以通过容器、虚拟机、Service等方式,满足对资源的需求。
而在数据领域,目前在训练场景,最主要会通过TOS、CFS、VPFS支持大模型的训练和分发,可以看到所有的存储、数据库等都在逐渐转向高维化,提供了对应的存储和检索能力。
在数据安全方向,当前的存储数据,已经有了更多内容属性,企业和用户对于数据存储的安全性也更加在意。对此,火山引擎在基础架构层面提供全面的路审计能力,可通过专区形式,支持从物理机到交换机,再到专属云以及所有组件的对应审计能力。
对此,罗浩以火山引擎与游戏公司沐瞳的具体合作为例给予了解释。在对移动端游戏里出现的语言、行为进行审计和审核时,大量用到各种各样的云基础,以及包括大模型在内的多种AI产品,而火山引擎做到了让所有的产品使用都在同一朵云上,使其在整体调用过程当中,不出现额外的流量成本,也使整体调用延时达到最优化。
另外,在火山引擎与客户“美图”合作的案例中,在面对新年、元旦、情人节等流量高峰时,美图通过火山引擎弹性的资源池,同时利用火山潮汐的算力,使得应用整体使用GPU和CPU等云资源时,成本达到最优化。
罗浩最后表示,未来火山引擎AI全栈云在算力、资源管理、性能及稳定性等方面还将继续探索,为AI应用在各行业的落地,奠定更加坚实的基础,为推动各行业智能化和数字化转型的全新助力。(作者:江伟)
标签:
为配合春运工作,根据当前疫情防控形势,结合客流快速增长的特点,自1月25日起,西安地铁全线网恢复...
科技日报记者 张佳星 策划 刘莉 有没有想过,如果有了新冠特效药,你会选择打针还是吃药? ...
民政部日前印发了《关于进一步加强寒假春节期间孤儿、事实无人抚养儿童、农村留守儿童关爱服务工作...
中新网上海1月25日电 (周卓傲)1月22日下午4点30左右,上海地铁15号线祁安路站一名老年女乘客下车时...
记者从河南高速了解到,受大雾影响,截至2022年1月25日8:20河南共30条高速禁止车辆上站: 1、因...
马上评|多写3字赔近3万,离职报告的坑该填上了 一场离职,有人“赚了”,有人“赔了”。最近,...
2022年1月24日19时,山东济宁梁山县疾病预防控制中心接到济宁市疾病预防控制中心推送的北京市大兴区...
根据河南省许昌市疫情防控指挥部(2022年6号)通告,即日(1月25日)起,有序恢复正常生产生活秩序。 ...
科技日报记者& 8194;张梦然 据最新一期英国《自然·通讯》报道,美国密歇根大学开发出一种半导...
科技日报记者& 8194;刘霞 据物理学家组织网近日报道,美国麻省理工学院的科学家借助机器学习算...
记者从河南省禹州市疫情防控指挥部获悉,根据国务院关于应对新冠肺炎疫情分区分级防控工作要求,结...
1月25日,辽宁省金秋医院按照上级部门协查通知,根据国家和省、市疫情防控要求,该医院严格落实相关...