民众国际期货:豆包发布视觉理解模型 关注产业
民众期货研报表示,12月18日,字节跳动在2024火山引擎FORCE原动力大会·冬上发布豆包视觉理解模型,豆包·视觉理解的输入价格为每千tokens 0.003元,比行业平均价格降低85%,带领视觉理解模型输入成本正式走进厘时代。我们认为,豆包·视觉理解模型在内容识别能力、理解和推理能力以及视觉描述能力上已能实现优秀水平,且该模型较低的调用价格有望加速视觉处理能力在AI终端上的调用,看好产业链相关环节的投资机会。
全文如下
民众期货电子|豆包发布视觉理解模型,关注产业链投资机会
民众期货2024年12月18日,字节跳动在2024火山引擎FORCE原动力大会·冬上发布豆包视觉理解模型,豆包·视觉理解的输入价格为每千tokens 0.003元,比行业平均价格降低85%,带领视觉理解模型输入成本正式走进厘时代。我们认为,豆包·视觉理解模型在内容识别能力、理解和推理能力以及视觉描述能力上已能实现优秀水平,且该模型较低的调用价格有望加速视觉处理能力在AI终端上的调用,看好产业链相关环节的投资机会。
民众期货▍字节跳动重磅发布视觉理解模型,输入价格比行业平均价格降低85%。
民众期货2024年12月18日,字节跳动在2024火山引擎FORCE原动力大会·冬上发布豆包视觉理解模型。据字节跳动,豆包·视觉理解模型的输入价格为每千tokens 0.003元(相当于一块钱可以处理284张720P的图片),比行业平均价格降低85%(作为对比,Claude 3.5Sonnet-200k、qwen-vl-max-32k、GPT-4o-128k每千tokens输入价格分别为0.021/0.02/0.0175元),带领视觉理解模型输入成本正式走进厘时代。我们认为,豆包·视觉理解模型在内容识别能力、理解和推理能力以及视觉描述能力上已能实现优秀水平。其中,1)在内容识别能力方面,不仅可以识别出图像中的物体类别、形状等基本要素,还能理解物体之间的关系、空间布局以及场景的整体含义。2)在理解和推理能力方面,不仅能更好地识别内容,还能根据所识别的文字和图像信息进行复杂的逻辑计算。3)在视觉描述能力方面,可以基于图像信息,更细腻地描述图像呈现的内容,还能进行多种文体的创作。我们认为,豆包视觉理解模型较低的调用价格有望加速视觉处理能力在AI终端上的调用,看好产业链相关环节的投资机会。
民众期货▍视觉理解模型有望拓展大模型的场景边界,看好豆包·视觉理解模型在智能终端、医疗、安防、教育、物流等行业的应用潜力。
民众期货视觉是人类获取信息的主要方式,因此具备视觉理解能力的模型能够更好地模拟人类的感知和认知过程,从而为AI提供一种更直接、更自然的与人类交互的方式。据豆包大模型团队,根据图像信息,豆包·视觉理解模型可以完成诸多复杂的逻辑计算任务,包括解微积分题、分析论文图表、诊断真实代码问题等挑战性任务。通过豆包·视觉理解模型,用户可以同时输入文本和图像相关的问题,模型经综合理解可给出准确的回答,有望实现在智能终端、医疗、安防、教育、物流等应用场景的广泛应用。聚焦智能终端领域,豆包大模型已服务50+的AI应用场景,覆盖超过了3亿个终端设备,来自智能终端的豆包大模型日均tokens调用量从5月到12月增长了100倍。我们认为,视觉理解能力将极大拓展大模型的场景边界,为大模型的场景使用打开天花板。
民众期货▍视觉理解模型应用加速,AI眼镜有望核心受益。
民众期货我们认为,AI智能眼镜是最接近人类视觉感知的设备,在视觉理解模型的加持下,AI眼镜具备感知能力,有助于深入了解用户意图,提供更精准贴切的智能服务。我们看好视觉理解模型应用对AI眼镜芯片及存储的需求拉动。
民众期货1)SoC:目前AI眼镜的SoC主要包括2类方案,①集成方案:将ISP集成进SoC;②外挂方案:SoC上外挂一颗ISP。参考ISP在手机SoC中外挂/集成的过程,我们认为AI眼镜主控芯片方案初期会两者并存(即独立ISP初期存在起量机遇),长期有望走向集成方案(不排除部分追求超高图像处理效果的产品再外挂一颗ISP)。从价值量上看,Rayban Meta中使用的高通AR1 Gen1(4nm),成本约55美元;此外,紫光展锐的W517已应用于百度AI眼镜等产品中,我们估算价值量约10+美金。单看ISP芯片,目前市场上的低功耗ISP芯片像素不高,单价与安防领域ISP类似(接近1美金),后续升级为低功耗高像素产品后,ISP的ASP有望提升。
民众期货2)存储:目前AI眼镜中存储芯片主要包含2部分,①内嵌:将一颗NOR Flash集成进SoC,类似AI耳机SoC搭载方式;②外挂:采用eMCP或ePoP方案,如Rayban Meta中使用2GB LPDDR4+32GB的eMMC, 价值量约11美金,硬件成本占比7%,仅次于SoC。我们认为SoC内嵌NOR Flash主要用于存储AI眼镜的系统固件以及蓝牙模块驱动等硬件组件的驱动程序并可存储视觉处理算法及语言交互模型,模型复杂度提升下存储容量相较于AI耳机有所升级,但将受限于NOR存储密度性价比,其容量提升具有天花板,更高量级的模型算法、应用程序、用户数据将存储于外挂的eMCP或ePoP中,未来容量及ASP有望提升。
民众期货▍风险因素:
民众期货需求不及预期,技术迭代不及预期,市场竞争加剧等。
(民众期货官网:第一财经)