计算机行业专题报告:豆包大模型更新至1.5-pro,更真实、更懂你
(以下内容从财通证券《计算机行业专题报告:豆包大模型更新至1.5-pro,更真实、更懂你》研报附件原文摘录) 核心观点
Doubao-1.5-pro实现7倍MoE性能杠杆,同时推理成本仅为GPT-4o的10%。Doubao-1.5-pro采用MoE(混合专家)架构,通过训练—推理一体化设计,保证模型性能的同时尽量降低推理成本,Doubao-1.5-pro-32k的千tokens输入单价为0.0008元,大约为GPT-4o-0806批量版本(千tokens输入单价0.00125美元)的10%。豆包通过模型结构调优以及训练算法优化,实现7倍MoE性能杠杆,针对Prefill/Decode与Attention/FFN四个象限,采用异构硬件结合不同的低精度优化策略,在确保低延迟的同时大幅提升吞吐量,在降低总成本的同时兼顾TTFT和TPOT的最优化目标。
视觉、语音多模态能力全面提升。Doubao-1.5-vision-pro在多模态数据合成、动态分辨率、多模态对齐、混合训练上进行了全面的技术提升,高效的原生动态分辨率训练,提升模型文档识别、细粒度信息识别能力。Doubao-1.5-realtime-voice-pro,语音语义联合建模实现语音理解和生成一体化,打破传统“ASR+LLM+TTS”级联限制,实现降低延迟,并达到真人级语音水准。
豆包情感语音功能落地移动端,图灵测试“终结者”。2025年1月20日豆包实时语音大模型落地移动端,做到语音理解和生成一体化,实现了端到端语音对话。相比传统“ASR+LLM+TTS”级联模式,在语音表现力、控制力、情绪承接方面表现惊艳,并具备低时延、对话中可随时打断等特性。根据外部用户真实反馈,该模型整体满意度较GPT-4o有明显优势,特别是语音语气自然度和情绪饱满度远高于后者。在此之前,大模型以AI搜索的形式触达到大部分的网民,但对于不识字或不常打字的人群来说AI仍较为陌生,豆包实时语音大模型以超拟人化的形式融入广大人民的生活当中,大模型应用触达人群将从中青年迅速向幼年与老年人群扩散,AI也从“办公助手”扩散至“生活助手”,打开诸如聊天娱乐、教学陪练、心理疏导、查询播报等新的AI应用空间。
投资建议:当前产业阶段,建议关注和豆包Capex紧密度最强的AI硬件环节龙头厂商,如海光信息、寒武纪、润泽科技、英维克、欧陆通、协创数据、中科曙光、浪潮信息、曙光数创、高澜股份、英伟达(NVDA.O)、博通(AVGO.O)、迈威尔科技(MRVL.O)等,以及和字节可能持续推进产业合作的B端软件公司,如新致软件、汉得信息、法本信息、亚信安全、四维图新等,同时豆包大模型情感能力提升会进一步强化陪伴类场景的落地,建议关注乐鑫科技、润欣科技、移远通信等。
风险提示:技术迭代不及预期;商业化落地不及预期;政策支持不及预期;全球宏观经济风险。
提示:本文属于研究报告栏目,仅为机构或分析人士对市场的个人观点和看法,并非正式的新闻报道,本网不保证其真实性和客观性,一切有关该股的有效信息,以沪深交易所的公告为准,敬请投资者注意风险。×
确 认
×
网友评论