AI技术新进展：阿里发布ThinkSound音频生成模型，谷歌推出Veo3视频生成技术，昆仑万维升级Skywork-R1V 3.0

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、阿里通义开源支持链式推理的音频生成模型ThinkSound

阿里语音AI团队开源了全球首个支持链式推理的音频生成模型ThinkSound，该模型通过引入思维链技术，突破传统视频转音频技术的局限，实现高保真、强同步的空间音频生成。这一技术进步标志着AI音频从“看图配音”向“结构化理解画面”的跨越。

2、谷歌Veo3重磅升级，支持静态图片生成生动视频

谷歌宣布对 AI 视频生成工具 Veo3进行重磅升级，用户只需上传一张静态照片即可生成高质量的音频和视频内容，展示了 AI 在创作领域的巨大潜力。Veo3的核心功能包括保持角色在多个镜头下的一致性，并提供丰富的运镜功能，如推镜头。此外，用户可以选择不同质量的生成模型，但需要消耗相应的 credits。

3、Hugging Face发布新一代小参数模型 SmolLM3:128K上下文，双模式推理

Hugging Face发布了SmolLM3，一款具有30亿参数的小型开源模型，其性能优于Llama-3.2-3B和Qwen2.5-3B。该模型支持多种语言处理，并具备双模式推理功能，同时公开了架构细节以促进研究与优化。

4、阿里开源 WebSailor，具备强大的推理和检索能力

阿里通义开源了网络智能体 WebSailor，其在中英文任务的 BrowseComp 评测集中表现出色，超越了 DeepSeek R1和 Grok-3等闭源模型，展现了强大的推理和检索能力。银河证券指出 AI Agent 经济已全面开启，并建议关注布局领先的 SAAS 企业。相关上市公司如焦点科技和中科金财已在 AI Agent 技术应用上有所布局，推动了智能体技术的发展。

5、Moonvalley发布Marey Realism v1.5:原生1080P AI视频模型，零版权风险引领行业新风向!

Moonvalley推出的Marey Realism v1.5AI视频生成模型在画质、创作自由度和法律合规性上实现了全面升级。其原生1080P视频生成能力、基于授权内容的训练数据以及精准解读复杂提示的能力，为影视制作和广告创意提供了更安全、高效的工具。

6、Vidu Q1震撼升级:参考转视频支持最多七张图像，AI视频生成再创新高

Vidu Q1的‘参考转视频’功能允许用户上传最多七张参考图像，生成视觉一致性极高的1080p视频。该技术通过语义融合确保多图像元素在视频中保持一致，解决了传统AI视频生成中的场景断裂或角色失真问题，为创作者提供了强大的工具。

7、苹果研发类似 ChatGPT AI 客服助手，提升用户支持体验

苹果公司正在开发一款基于人工智能的‘支持助手’，旨在为用户提供更智能和高效的客户服务体验。该功能已在 Apple Support 应用代码中被发现，未来将允许用户在联系客服前获得 AI 生成的解决方案，提高服务效率。

8、飞书重磅发布多款AI新品，打造企业级“豆包”

飞书发布了多款AI产品，包括知识问答、AI会议、Aily、飞书妙搭等，旨在加速AI在企业级应用中的落地。同时，飞书还推出了业界首个AI应用成熟度模型，帮助企业评估AI产品的实际效果。

9、微软、OpenAI 与 Anthropic 联合推出教育工作者 AI 培训中心

美国教师联合会（AFT）联合微软、OpenAI 和 Anthronic 成立全国人工智能教育学院，旨在为教师提供免费的AI工具培训，帮助他们更好地利用人工智能技术。该项目获得2300万美元资金支持，推动教育领域的技术变革。

10、昆仑万维重磅发布 Skywork-R1V3.0:跨模态推理能力直逼人类专家!

昆仑万维发布 Skywork-R1V3.0，展现出卓越的多模态推理能力，训练样本少但表现出色，达到了人类专家水平。

声明：转载于站长之家

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

AI技术模型升级视频生成技术音频生成模型

相关文章

发表回复 取消回复

发表回复取消回复