AMD前高管领衔24人团队逆袭:硬编码芯片HC1实现每秒17000 token新突破
来源:ITBEAR科技资讯
一款名为HC1的AI推理芯片近日在硅谷引发广泛关注。这款由初创公司Taalas研发的芯片,凭借每秒17000个token的峰值推理速度,成为当前AI芯片领域的现象级产品。与传统方案相比,HC1不仅将推理速度提升10倍,更将成本压缩至二十分之一,功耗降低至十分之一,为LLM(大语言模型)的实时应用开辟了新可能。
HC1的核心突破在于其“芯片即模型”的架构设计。与传统将模型加载至内存的方式不同,Taalas团队直接将Llama 3.1 8B模型固化在硅片上,通过掩模ROM技术实现模型与硬件的深度融合。这种设计虽牺牲了部分灵活性,却换来了极致的能效比——单颗芯片典型功耗仅250W,10颗芯片组成的服务器集群总功耗也不过2.5kW,可直接采用常规空气冷却方案部署。
性能对比数据凸显了HC1的颠覆性。在相同模型测试中,Cerebras的推理速度为2000 token/s,SambaNova约为900 token/s,Groq为600 token/s,而英伟达Blackwell架构的B200仅350 token/s。HC1的17000 token/s表现,相当于将行业标杆性能提升了数个数量级。这种优势源于其结构化ASIC设计理念:通过固定底层电路、仅调整两层掩模的方式,将芯片开发周期从传统6个月缩短至2个月,同时保持设计成本可控。
技术实现层面,HC1采用台积电N6工艺,芯片面积815mm²,支持开源生态。其创新性的存储架构包含可编程SRAM区域,用于保存微调权重(如LoRA)和KV缓存,而模型主体则通过掩模ROM固化执行。为弥补量化带来的精度损失,研究团队开发了LaRA适配器进行重新训练,并配置可调上下文窗口,在灵活性与性能间取得平衡。这种“硬连线”设计虽面临模型迭代风险,却为特定场景提供了前所未有的效率优势。
Taalas的野心不止于单芯片突破。针对DeepSeekR1-671B等超大模型,团队提出了多芯片协同方案:将SRAM部分拆分至独立芯片,使单片HC1的存储密度提升至约20位参数。30颗定制芯片组成的集群可实现每用户每秒12000 token的处理速度,且成本不到同等GPU方案的50%。即使考虑HC1每年更新的假设,其四年总成本仍优于GPU的四年更新周期。
这家成立仅两年的公司,拥有堪称“AMD梦之队”的创始阵容。联合创始人Ljubiša Bajić曾任AMD集成电路设计总监,主导过高性能GPU研发;Leila Bajić拥有AMD、ATI、Altera的跨平台技术管理经验;Drago Ignjatović则是AMD前ASIC设计总监。三位技术领袖的深厚积淀,使Taalas在创立初期即获得2亿美元融资,目前团队规模仅24人,产品研发投入仅3000万美元。
市场对HC1的评价呈现两极分化。支持者认为其亚毫秒级延迟将推动具身智能、实时交互等前沿领域发展;批评者则指出硬编码架构可能加速芯片过时,尤其在模型迭代速度日益加快的背景下。这种争议恰恰反映了AI芯片设计的核心矛盾:通用性与专用性的永恒博弈。Taalas的选择,无疑为行业提供了一条激进却值得深思的新路径。



