投研观点-详情

计算机行业专题报告：豆包大模型更新至1.5-pro，更真实、更懂你

2025-01-26 10:21 财通证券杨烨,李宇轩查看PDF原文

（以下内容从财通证券《计算机行业专题报告：豆包大模型更新至1.5-pro，更真实、更懂你》研报附件原文摘录）　　核心观点

　　Doubao-1.5-pro实现7倍MoE性能杠杆，同时推理成本仅为GPT-4o的10%。Doubao-1.5-pro采用MoE（混合专家）架构，通过训练—推理一体化设计，保证模型性能的同时尽量降低推理成本，Doubao-1.5-pro-32k的千tokens输入单价为0.0008元，大约为GPT-4o-0806批量版本（千tokens输入单价0.00125美元）的10%。豆包通过模型结构调优以及训练算法优化，实现7倍MoE性能杠杆，针对Prefill/Decode与Attention/FFN四个象限，采用异构硬件结合不同的低精度优化策略，在确保低延迟的同时大幅提升吞吐量，在降低总成本的同时兼顾TTFT和TPOT的最优化目标。

　　视觉、语音多模态能力全面提升。Doubao-1.5-vision-pro在多模态数据合成、动态分辨率、多模态对齐、混合训练上进行了全面的技术提升，高效的原生动态分辨率训练，提升模型文档识别、细粒度信息识别能力。Doubao-1.5-realtime-voice-pro，语音语义联合建模实现语音理解和生成一体化，打破传统“ASR+LLM+TTS”级联限制，实现降低延迟，并达到真人级语音水准。

　　豆包情感语音功能落地移动端，图灵测试“终结者”。2025年1月20日豆包实时语音大模型落地移动端，做到语音理解和生成一体化，实现了端到端语音对话。相比传统“ASR+LLM+TTS”级联模式，在语音表现力、控制力、情绪承接方面表现惊艳，并具备低时延、对话中可随时打断等特性。根据外部用户真实反馈，该模型整体满意度较GPT-4o有明显优势，特别是语音语气自然度和情绪饱满度远高于后者。在此之前，大模型以AI搜索的形式触达到大部分的网民，但对于不识字或不常打字的人群来说AI仍较为陌生，豆包实时语音大模型以超拟人化的形式融入广大人民的生活当中，大模型应用触达人群将从中青年迅速向幼年与老年人群扩散，AI也从“办公助手”扩散至“生活助手”，打开诸如聊天娱乐、教学陪练、心理疏导、查询播报等新的AI应用空间。

　　投资建议：当前产业阶段，建议关注和豆包Capex紧密度最强的AI硬件环节龙头厂商，如海光信息、寒武纪、润泽科技、英维克、欧陆通、协创数据、中科曙光、浪潮信息、曙光数创、高澜股份、英伟达（NVDA.O）、博通（AVGO.O）、迈威尔科技（MRVL.O）等，以及和字节可能持续推进产业合作的B端软件公司，如新致软件、汉得信息、法本信息、亚信安全、四维图新等，同时豆包大模型情感能力提升会进一步强化陪伴类场景的落地，建议关注乐鑫科技、润欣科技、移远通信等。

　　风险提示：技术迭代不及预期；商业化落地不及预期；政策支持不及预期；全球宏观经济风险。

提示：本文属于研究报告栏目，仅为机构或分析人士对市场的个人观点和看法，并非正式的新闻报道，本网不保证其真实性和客观性，一切有关该股的有效信息，以沪深交易所的公告为准，敬请投资者注意风险。

查看PDF原文

网友评论