DeepSeek推出NSA机制提升长上下文训练与推理效率

PANews|2025年02月18日 08:53

DeepSeek宣布推出NSA（稀疏注意力机制），该机制与硬件高度一致且支持本机训练，旨在实现超快速的长上下文训练和推理。通过针对现代硬件的优化设计，NSA在加速推理速度的同时显著降低预训练成本，且不会影响模型性能。据官方介绍，NSA在通用基准测试、长上下文任务以及基于指令的推理中表现优异，与完全注意力模型相比表现相当甚至更佳。

+4

曾提及

|

APP下載

Windows

Mac

分享至：

X

Telegram

Facebook

Reddit

複製鏈接

|

分享至：

脈絡

03月20日 05:38【ASI发布一系列AI技术成果】

03月20日 02:25【为AbstractChain进行链升级做准备】

03月20日 01:45【Mira提升AI输出结果的可信度】

03月20日 01:45【Mira提升AI输出结果的可信度】

03月19日 13:55【新的测试网络Hoodi已推出】

03月19日 10:26【MyShell推出AI代理平台，具备独特优势】

03月19日 06:17【智能加密系统借鉴自我审视思想】

03月19日 06:15【学习中本聪的自我审视手艺】

03月19日 06:03【APNFT与NFT泵推出游戏交换平台】

03月19日 00:36【Pectra测试网激活揭示客户端问题】

熱門快訊

|

APP下載

Windows

Mac

分享至：

X

Telegram

Facebook

Reddit

複製鏈接

APP下載

Windows

Mac

X

Telegram

Facebook

Reddit

複製鏈接

熱門閱讀