每日AI简报

3M 0 79259

感谢关注YepAI「野湃AIGC信息资源工具站」，本板块筛选时下新鲜AI资讯，包含国内外相关新闻、融资动态、热门产品、行业政策等等。收藏页面或关注页尾公众号，方便第一时间找到我们。

每条简报下方已标注信息来源，直接点击可以浏览原篇。

2025年3月30日·周日

阿里通义千问推出视觉推理模型 QVQ-Max：可分析、推理图片和视频内容

阿里通义千问团队发布新一代视觉推理模型 QVQ-Max 。模型具备细致观察、深入推理和灵活应用三大核心能力，能快速解析图片和视频内容，识别关键元素并结合背景知识进行推理。能协助完成数据分析、编程等职场任务，帮助学生解答难题、推荐穿搭方案等。

来源：IT之家

GPT-4o「吉卜力风」一夜爆火，奥特曼连夜换头像！宫崎骏痛批AI侮辱生命

OpenAI 更新的 GPT-4o 原生图像生成功能因「吉卜力风格」图片生成一夜爆火。用户可将任何图像上传并请求 AI 转换为吉卜力风格，效果出色且操作便捷。功能引发了社交媒体热潮，奥特曼也换上了吉卜力风格的头像。宫崎骏曾批评 AI 作画是对生命的侮辱。

来源：新智元

华为ModelEngine全流程AI开发工具链正式开源！

华为在2025中国合作伙伴大会上宣布 ModelEngine AI全流程工具链正式开源。工具链围绕数据使能、模型使能和应用使能打造，解决AI行业化落地中的关键问题，如数据工程耗时长、模型训练和应用落地难等。

来源：华为开源

2025年3月29日·周六

豆包新版深度思考开启测试，支持边想边搜

字节跳动旗下的 AI 智能助手豆包推出新版深度思考功能。将推理过程与搜索深度结合，支持“边想边搜”，可在思考过程中多次调用工具、搜索信息，提供更全面、准确的结果。

来源：豆包

可灵AI平台全面升级，新增AI音效与资产管理功能快手科技旗下的

可灵AI 平台宣布全面升级。对视觉体系和交互体验进行了优化。新版本采用极简主义设计，自然排版和黑白配色，减少视觉干扰，突出创意。平台新增“AI音效”和“资产管理”功能，分别用于提升作品表达力和优化文件管理效率。

来源：可灵AI

2025年3月28日·周五

阿里开源全模态模型Qwen2.5-Omni，7B尺寸实现全球最强性能

阿里通义千问Qwen2.5-Omni-7B正式开源。作为首个端到端全模态大模型， Qwen2.5-Omni 可同时处理文本、图像、音频和视频输入，实时生成文本与自然语音输出。在OmniBench等多模态任务中刷新纪录，性能远超Google的Gemini-1.5-Pro等同类模型。

来源：阿里云

腾讯ima知识号正式上线，助力知识创作与管理

腾讯旗下的AI智能工作台ima宣布正式推出知识号。知识号为知识库创作者提供了一个全新的平台，创作者可以通过ima知识号入口申请创建账号，在ima知识广场发布知识库。平台提供数据分析工具，创作者可以直观地查看知识库的相关数据，包括知识库的数量、参与人数等。

来源：ima.copilot

DeepSeek全新版本API上线讯飞星辰MaaS平台

DeepSeek全新版本DeepSeek-V3-0324上线讯飞星辰 MaaS平台。新版本在推理任务表现、前端开发能力、中文写作水平以及中文搜索能力等方面实现显著提升，在数学、代码类评测集上得分超GPT-4.5。平台提供与DeepSeek官方API一致的效果，支持联网搜索，拓展应用场景。

来源：讯飞开放平台

2025年3月27日·周四

OpenAI宣布Agent SDK 正式支持 MCP 服务，解锁无限工具扩展

OpenAI宣布Agent SDK重大更新，正式支持 Model Context Protocol（MCP）服务。MCP如同AI模型的“USB接口”，提供统一标准，使AI智能体能“即插即用”地接入各种第三方工具，如网络搜索、数据库查询等，极大简化多任务开发流程，提升复杂自动化应用开发效率。

来源：IT之家

微信 AI 搜索新增“快速思考”，采用混元 T1 模型

微信AI搜索在“快速回答”和“深度思考”之外，新增“快速思考”选项，由腾讯混元T1 模型提供支持。可快速生成回答，引用消息源包括公众号推文和网页信息，结果页面支持继续提问和社交分享，历史问答会保存在“最近”列表中。

来源：IT之家

2025年3月26日·周三

谷歌发布Gemini 2.5 Pro，多项测试夺冠，推理能力全面超越OpenAI

谷歌发布 Gemini 2.5 Pro ，是Gemini 2.5思考模型家族的首个成员。模型在多项基准测试中表现卓越，以1443分在大模型竞技场获断层第一，领先优势达39分，全面超越OpenAI o3-mini等多款知名模型。在“人类最后考试”中，得分较OpenAI o3-mini提升近5%，提升比例达34%。Gemini 2.5 Pro支持100万tokens上下文窗口。

来源：智东西

昆仑万维发布全球首款音乐推理大模型Mureka O1，中国AI音乐革命领跑全球

昆仑万维正式发布全球首款音乐推理大模型 Mureka O1 。模型基于Mureka V6升级，首次引入思维链（CoT）技术，显著提升音乐创作效率与品质。涵盖多种风格与情感表达，具备歌曲参考和音色克隆等特色功能。性能超越Suno V4，登顶SOTA。

来源：昆仑万维集团

OpenAI发布GPT-4o图像生成功能，免费向用户开放

OpenAI宣布在 GPT-4o 模型中集成先进图像生成功能，用户可通过自然语言指令生成和编辑图像。新功能支持多轮对话优化图像，保持内容一致性，能处理10至20个物体的复杂指令，远超其他模型。支持文本渲染、风格转换和上下文关联生成。

来源：IT之家

它石智航官宣天使轮融资1.2亿美元，开启具身智能创业新征程

具身智能初创公司它石智航（TARS）宣布完成1.2亿美元天使轮融资，创下中国具身智能行业天使轮最大融资额纪录。本轮融资由蓝驰创投、启明创投领投，线性资本等多家知名机构跟投。融资将用于产品研发、模型训练和场景拓展。

来源：它石智航

谷歌Gemini Live推出实时AI视频新功能，实时交互能力再升级

谷歌在MWC上承诺的Project Astra与Gemini Live集成功能正式上线。Gemini Live新增屏幕共享功能，用户可通过“Share screen with Live”按钮让AI读取手机屏幕信息并回答问题。实时视频功能可让Gemini通过手机摄像头解读画面并即时回答相关问题。

来源：机器之心

2025年3月10日·周一

智元发布首个通用具身基座大模型GO-1

智元机器人发布首个通用具身基座大模型Genie Operator-1（ GO-1 ）。模型基于创新的Vision-Language-Latent-Action（ViLLA）架构，融合多模态大模型（VLM）和混合专家系统（MoE），通过预测隐式动作标记，弥合图像-文本输入与机器人动作执行之间的差距。

来源：智元机器人

超算互联网QwQ-32B API接口服务上线，免费100万Tokens 超算互联网

平台上线阿里巴巴开源推理模型QwQ-32B的API接口服务，提供免费100万Tokens。QwQ-32B基于Qwen2.5-32B+强化学习构建，在数学和代码能力上表现优异。用户可通过超算互联网平台快速开发或私有化部署该模型，平台提供保姆级教程，支持多种访问形式。

来源：超算互联网

北京大学联合华为发布全栈开源DeepSeek推理方案

北京大学联合华为发布 DeepSeek 全栈开源推理方案。方案基于北大自研的SCOW算力平台系统、鹤思调度系统，整合了DeepSeek、openEuler、MindSpore与vLLM/RAY等开源组件，实现了华为昇腾上的高效推理，支持大规模算力集群的训推一体化部署。

来源：北京大学高性能计算校级公共平台

CAMEL-AI推出OWL项目：0天复刻Manus，开源且性能卓越

CAMEL-AI开源社区推出 OWL 项目，成功0天复刻Manus通用智能体完全开源，性能在GAIA Benchmark上达到57.7%，超越Huggingface的Open Deep Research（55.15%）。OWL项目免费，支持GitHub一键克隆，提供云端和本地两种执行环境。

来源：CAMEL-AI

OpenAI 更新 macOS 版 ChatGPT，可在 Xcode 等 IDE 中直接编辑代码

OpenAI更新macOS版 ChatGPT 应用，新增在Xcode、VS Code等IDE中直接编辑代码的功能。用户通过“与应用程序协作”功能，可让ChatGPT自动检测当前活跃编辑器并交互，能在编辑过程中对话ChatGPT。

来源：IT之家

2025年3月6日·周四

通义千问QwQ-32B，更小尺寸，性能比肩全球最强开源推理模型

阿里云通义千问团队推出320亿参数的推理模型 QwQ-32B ，性能媲美6710亿参数的DeepSeek-R1。模型通过大规模强化学习提升推理能力，在数学推理、编程能力等多领域表现卓越，超越多个领先模型。QwQ-32B集成Agent能力，支持批判性思考与动态调整。

来源：通义千问Qwen

逐际动力半年完成5亿元融资，阿里、蔚来、联想等巨头加持

具身智能机器人公司「逐际动力」近期完成A+轮融资，半年内累计融资5亿元人民币。此次融资由阿里巴巴、蔚来资本、联想创投等多家知名机构参与，将用于加速人形机器人研发与商业化落地。专注于全尺寸通用人形机器人及双足机器人开发。

来源：36氪

智源开源多模态向量模型BGE-VL：多模态检索新突破

智源研究院联合多所高校开发了多模态向量模型 BGE-VL ，推动多模态检索技术的突破。模型基于大规模合成数据集 MegaPairs 训练，具备优异的可扩展性和数据质量。MegaPairs 通过自动化挖掘和标注多模态数据，仅需传统数据量的 1/70 即可实现更优效果。

来源：智源研究院

2025年3月5日·周三

Vidu API 开放平台全面开放，开启智能化内容生产范式

全球领先的专业级视频生成服务 Vidu API开放平台全面开放，面向企业级用户与个人开发者。具备多模态语义理解能力，支持文字、图片等多模态指令输入，精准匹配创作意图。动漫风格稳定，画面流畅，帧间一致性高，首创多主体一致性技术，突破模型上下文理解限制。

来源：Vidu AI

OpenAI宣布提供3.6亿，联合15个大学和机构建立NextGenAI教育联盟

OpenAI宣布成立 NextGenAI 教育联盟，联合15家顶尖大学和机构，包括加州理工学院、哈佛大学、麻省理工学院、牛津大学等。OpenAI将提供5000万美元（约合人民币3.6亿元）的研究补助金、计算资源和API访问权限，支持学生、教育工作者和研究人员推进AI研究与教育创新。

来源：钛媒体AGI

2025年3月4日·周二

智谱发布开源图像生成模型CogView4，首个支持中英双语，图像生成迎来新突破

智谱正式发布并开源最新的图像生成模型 CogView4 。模型具备强大的复杂语义对齐和指令跟随能力，支持任意长度的中英双语输入，可生成任意分辨率的图像。CogView4在DPG-Bench基准测试中综合评分排名第一，成为开源文生图模型中的最先进技术（SOTA）。

来源：GLM大模型

通义灵码上新Qwen2.5-Max模型，体验数学和编程双冠王能力

阿里云和通义实验室联合推出的AI编码助手“ 通义灵码 ”上线了Qwen2.5-Max模型。模型使用超过20万亿token的预训练数据及优化的后训练方案，在Arena-Hard、LiveBench等基准测试中，Qwen2.5-Max领先业界，在数学和编程能力上排名第一。

来源：通义灵码

Anthropic完成35亿美元E轮融资，估值飙升至615亿美元

Anthropic完成35亿美元E轮融资，估值达615亿美元。本轮融资由Lightspeed Venture Partners领投，Bessemer Venture Partners、Cisco Investments等多家机构参与。资金将用于推进下一代AI系统开发、扩大计算能力、加速国际扩张。Anthropic推出的 Claude 3.7 Sonnet 和Claude Code，在代码能力上取得突破。

来源：Anthropic

秘塔AI搜索推出视频搜索功能，高效学习娱乐新体验

秘塔AI搜索推出新功能，新增“视频”搜索模块。功能基于对上亿条视频内容的分析，覆盖多模态数据，用户可通过关键词快速找到学习或娱乐视频。

来源：AI秘塔

百川智能调整业务布局，聚焦医疗领域

百川智能近期对To B业务进行重大调整。2025年3月3日，金融行业To B团队被裁撤，此前，团队曾负责金融领域的大模型商业化，推出 Baichuan4-Finance 等产品。此次调整是为聚焦医疗领域，百川已在该领域布局，如投资医疗数据服务商“小儿方”并计划落地AI医生助理。

来源：智能涌现

2025年3月3日·周一

智谱AI完成超10亿元新轮战略融资，杭州城投产业基金参与投资

智谱 AI完成超10亿元战略融资，投资方包括杭州城投产业基金等。两轮融资期间近三个月DeepSeek的RL训练模式引发行业变革，促使OpenAI等公司调整战略，降低GPT-4 Turbo价格考虑开源。智谱AI在开源生态和基座模型上持续投入，计划发布并开源全新大模型产品，同时调整B端与C端业务，强化行业定制化与多模态交互体验。

来源：智谱

中国首款AI IDE：Trae国内版发布，配置豆包1.5pro，支持切换满血版DeepSeek模型

中国首个AI原生集成开发环境（AI IDE） Trae国内版正式上线。Trae配置了 Doubao-1.5-pro ，支持切换满血版DeepSeek R1、V3模型，专为中国开发者设计，支持代码补全、理解、Bug修复及自然语言生成代码等功能，通过Builder模式实现“思想到代码”的快速转化，提升开发效率。

来源：豆包MarsCode

MiniMax Video-01系列收官，海螺视频App全球上线

MiniMax宣布Video-01系列收官，推出海螺视频App 全球上线。海螺视频App集成了图生视频模型 I2V-01-Director 和文生图视频模型 T2V-01-Director ，组成01-Director系列，为用户提供15种可自由组合的运镜效果，支持多运镜镜头组合和自然语言控制镜头运动。

来源：MiniMax

稀宇科技科大讯飞星火X1升级，推出星火一体机及多款新品

科大讯飞宣布星火X1 大模型升级，并发布多款新品。星火X1在数学能力上显著提升，首发星火医疗大模型X1，已应用于“ 讯飞晓医 ”，在医疗推理任务上超越GPT-4o和DeepSeek R1。科大讯飞联合华为升级星火一体机，推出医疗、政务、高教、法律、警务五大场景一体机，发布首款“星火X1+DeepSeek”双引擎AI学习机，推动AI在多领域的深度应用。

来源：科大讯飞

亚马逊推出Alexa+：五大技术突破 AI 助手新体验亚马逊云科技宣布推出

Alexa+ ，下一代AI助手。Alexa+采用全新架构，连接大语言模型、智能体能力、服务和设备，实现更智能、更具个性化的用户体验。五大技术突破包括：全新架构连接数以万计的服务和设备；精准系统提供准确实时信息；极致优化降低延迟；个性化响应定制专属体验；新增智能体能力突破API限制。

来源：亚马逊云科技

夸克AI搜索上线深度思考，新亮点，新体验！

夸克AI 搜索上线了“深度思考”功能，升级AI搜索体验。更新聚焦于提升搜索结果的深度和精准度。通过深度思考技术，结合AI搜索，能快速从多个权威来源整理答案，提供更精准、简洁的搜索体验。夸克集成了AI写作、生图、PPT制作、翻译等功能，一站式解决用户在工作和生活中的多样化需求。

来源：夸克APP

2025年2月27日·周四

DeepSeek API 错峰优惠，R1 价格降至1/4

DeepSeek 推出API错峰优惠，2025年2月26日起，DeepSeek开放平台在北京时间每日00:30至08:30的夜间空闲时段，DeepSeek-V3 API调用价格降至原价的50%，DeepSeek-R1价格低至原价的25%。鼓励用户在夜间利用平台资源，享受更经济、更流畅的服务体验。

来源：DeepSeek

2025年2月26日·周三

ChatGPT 变身苹果 Safari 浏览器默认搜索引擎

OpenAI更新ChatGPT应用，新增Safari扩展功能，用户可将ChatGPT设为Safari地址栏的默认搜索引擎。更新后，用户在“设置”中启用“ChatGPT搜索扩展”，输入搜索查询时，结果将直接由ChatGPT提供，非传统的谷歌等搜索引擎。

来源：IT之家

Perplexity 官宣“Comet”浏览器，主打“AI 智能体搜索”

Perplexity AI 宣布进军浏览器市场，推出名为“Comet”的浏览器。浏览器以“AI 智能体搜索”为核心概念，提供更贴近用户需求的搜索体验。Comet 已开启注册，具体上线时间和功能细节尚未公布。Perplexity AI 称 AI 技术将优于谷歌 Chrome 和微软 Edge 等现有浏览器的搜索体验。

来源：IT之家

字节AI加速调整，豆包正测试深度思考模型，暂未接入DeepSeek

字节跳动旗下AI助手“ 豆包 ”正在小范围测试深度思考模型，但未接入DeepSeek，是采用自研技术。目前，豆包的深度思考功能尚未开放，部分测试用户已能体验到思维链的呈现。自DeepSeek开源后，字节AI部门面临重大调整。

来源：Z Finance

2025年2月25日·周二

LiblibAI一年内完成四轮融资，再次斩获数亿元资金

LiblibAI 宣布在过去一年内连续完成四轮融资，创下国内AI应用赛道融资速度新纪录。最新两轮融资由渶策资本、顺为资本领投，明势创投等跟投，巨人网络参与产业投资。LiblibAI致力于AI内容创作与分享，已拥有超2000万创作者和5亿张生成图片。本轮融资将重点投入创作者生态建设和技术研发，推动平台全球化发展。

来源：LiblibAI

爱诗科技推出PixVerse V4：5秒生成AI视频，音画同步

爱诗科技发布 PixVerse V4 ，带来AI视频创作新突破。新增“音效”功能，可自动生成与视频内容匹配的音效；“人声”功能可为视频角色生成口型一致的配音；“重绘”功能支持一键切换视频风格，提供赛博、芭比等多种风格。生成速度可达5秒。

来源：爱诗科技

AIsphere LiblibAI 作为独家 AIGC 创作合作平台接入阶跃开源视频生成大模型

上海阶跃星辰智能科技有限公司开源的视频生成大模型“ Step-Video-T2V ”正式接入LiblibAI平台， LiblibAI 成为其独家AIGC创作合作平台。此次合作推动AI技术的普及与创新，为全球开发者和创作者提供更优质的服务。

来源：阶跃星辰

马斯克宣布 Grok 3 语音模式早期测试版已上线

马斯克在社交平台X宣布， Grok 3 语音模式早期测试版已在Grok应用程序上线。支持用户通过自然语言与AI对话，提供两种声音（Ara和Grok）及不同个性，支持添加自定义说明和分享对话。

来源：IT之家

2025年2月21日·周五

小红书将接入DeepSeek，AI搜索“点点”iOS版下载量总计约20万

小红书即将接入DeepSeek-R1开源模型，在AI搜索产品“ 点点 ”App中推出“深度思考”功能，目前处于内测阶段。“点点”App自上线以来，iOS版下载量总计约20万次。“点点”，定位为生活搜索助手，覆盖多种生活场景。

来源：钛媒体AGI

DeepSeek 官宣下周陆续开源 5 个代码库，每日解锁新内容

DeepSeek宣布将在下周陆续开源5个代码库，每日解锁新内容。公司表示，这些经过测试和部署完备的代码库可投入生产环境，将“毫无保留地分享进展”。DeepSeek自称为“小小的团队”，强调该领域没有“象牙塔”。

来源：IT之家

Spotify 启动 AI 配音有声书服务，29 种语言可供选择

Spotify宣布与ElevenLabs 合作推出AI配音有声书服务。支持29种语言，为作者提供多种合成语音选项。免费版每月提供10分钟文本转语音服务，付费套餐起价99美元，可生成500分钟配音。Spotify认为，AI配音能让小型作者更低成本地制作有声书，便于旧书有声化。

来源：IT之家

腾讯元宝升级：DeepSeek图生文功能上线

腾讯元宝上线图生文功能，结合混元和DeepSeek技术，可理解图片内容提供分析。结合混元的多模态理解技术后，在关闭联网搜索的情况下，用户发送任意图片并提问，元宝都能给出自己的理解和分析。

来源：腾讯

2025年2月20日·周四

「捏 Ta」X「清影」达成战略合作，多模态模型商业化持续发力

AI角色创作平台“捏Ta”与智谱旗下的多模态模型“ 清影 ”达成战略合作，共同探索从AI角色设计到动画创作的完整路径。此次合作基于智谱最新升级的视频生成大模型 CogVideoX-2 ，显著提升了模型的图像生成和指令遵从能力，支持高质量视频创作。上线首日，“捏Ta”平台完成4万+次视频生成，调用上亿次Tokens。

来源：智谱

ima App安卓端正式上线云存储空间扩容至2GB

腾讯旗下的AI智能工作台 ima App 正式上线。ima App安卓版可通过官网或腾讯应用宝下载，iOS版也将随后推出。ima App延续了简洁设计风格，整合了电脑端和小程序的核心功能，ima云存储空间扩容至2GB，满足用户多场景需求。

来源：ima.copilot

xAI 公司宣布 Grok 3 限时免费开放，直到服务器不堪重负为止

马斯克旗下人工智能公司xAI宣布， Grok 3 现向公众免费开放，直至服务器不堪重负。所有用户均可免费使用Grok 3的推理和深度搜索功能。X Premium+和SuperGrok订阅用户将享有优先访问权及语音模式等高级功能。

来源：IT之家

Codeium 获新一轮融资，估值推至 28.5 亿美元

AI编程初创公司 Codeium 完成新一轮融资，估值达28.5亿美元。此次融资距C轮融资仅6个月，当时估值为12.5亿美元。Codeium专注于为企业提供服务，去年推出 Windsurf Editor工具，可自动编写部分代码。

来源：IT之家

「灵境AI」完成数百万元种子轮融资，打造AI时代文创IP“造梦新基建”

灵境AI 完成数百万元种子轮融资，打造AI时代文创IP“造梦新基建”。专注于文创内容生成的AI科技公司，核心业务涵盖网文大数据平台、AI短篇小说工厂、AI动漫创作引擎和内容出海计划。通过“创意洞察+AI提效”模式，在小说、动漫、微短剧等领域实现智能化生产，大幅提升创作效率和分发效率。

来源：灵境AI创作

2025年2月19日·周三

「灵宝CASBOT」完成超亿元天使轮融资，加速推进人形机器人量产进程

北京中科慧灵机器人技术有限公司（灵宝CASBOT）近日完成超亿元天使轮融资，投资方包括联想创投、国投创合、河南资产基金等。本轮融资将加速人形机器人量产及核心技术研发。2024年11月，公司发布首款双足人形机器人CASBOT 01，拥有52个自由度，算力达550T，续航超4小时。

来源：36氪

硅基流动完成新一轮亿元人民币融资

硅基流动于2024年底完成亿元人民币Pre-A轮融资，由华创资本领投，普华资本跟投，耀途资本超额跟投，华兴资本担任财务顾问。此前，硅基流动已引入美团作为战略股东。大模型云服务平台 SiliconCloud 上线不到一年，用户数超300万，日均调用上千亿Token，支持上百款主流模型。

来源：硅基流动

2025年2月18日·周二

阶跃星辰联合吉利首次开源，为开源世界贡献多模态力量

阶跃星辰与吉利汽车集团联合开源两款多模态大模型—— Step-Video-T2V 视频生成模型和 Step-Audio 语音交互模型。Step-Video-T2V参数量达300亿，可生成高质量视频，性能领先全球开源视频模型。Step-Audio是业内首款产品级开源语音交互模型，支持多语种、方言、情感表达及音色克隆，性能在多项评测中名列前茅。

来源：阶跃星辰

秘塔AI搜索推出“浅度研究”功能，2-3分钟完成数百网页分析

秘塔AI搜索推出 Shallow Research 「浅度研究」功能，快速收集信息并完成初步分析。功能采用“小模型+大模型”协同架构，结合秘塔自研模型与DeepSeek R1推理模型，可在2-3分钟内完成数百个网页的搜索与分析。

来源：AI秘塔

昆仑万维开源中国首个面向AI短剧创作的视频生成模型，重塑AI短剧行业格局

昆仑万维开源中国首个面向AI短剧创作的视频生成模型 SkyReels-V1 及表情动作可控算法 SkyReels-A1 。SkyReels-V1是开源视频生成模型中参数最大且支持图生视频的模型，可实现影视级人物微表情表演和电影级光影美学，支持33种细腻表情与400+自然动作组合。SkyReels-A1支持高保真微表情还原和更大幅度的人物表情驱动。

来源：昆仑万维集团

2025年2月17日·周一

xAI即将发布Grok 3，马斯克称之为“地球上最聪明的人工智能”

埃隆·马斯克的xAI公司将于2月17日发布Grok 3聊天机器人，马斯克称其为“地球上最聪明的人工智能”。Grok 3引入“思维链”推理能力，显著提升推理、编程及多模态功能。训练使用合成数据，可反思错误。Grok 3接入X平台，供用户使用。发布时间较马斯克原计划延迟。

来源：第一财经

腾讯多款产品接入DeepSeek-R1模型，全面升级AI体验

腾讯宣布旗下多款产品接入 DeepSeek-R1 模型，包括腾讯元宝、微信、 ima 、腾讯文档、QQ浏览器、QQ音乐等。腾讯元宝支持免费使用DeepSeek-R1满血版和混元T1深度思考模型，提供复杂问题解答能力。微信“AI搜索”功能在灰度测试中。ima、腾讯文档、QQ浏览器、QQ音乐等产品结合DeepSeek-R1优化功能，提升用户体验。

来源：腾讯

中国AI变局：腾讯、百度接入DeepSeek模型，字节反思，“大模型六虎”加速分化

腾讯微信上线“AI搜索”功能灰度测试DeepSeek-R1模型，百度搜索宣布全面接入 DeepSeek 和文心大模型的深度搜索功能。字节跳动反思DeepSeek技术跟进，“大模型六小虎”加速分化，部分企业选择拥抱DeepSeek，另一些则继续深耕自身模型研发。

来源：钛媒体AGI

2025年2月14日·周五

通义灵码全新上线模型选择功能，新增支持 DeepSeek-V3 和 DeepSeek-R1 模型

通义灵码上线模型选择功能，支持DeepSeek-V3和DeepSeek-R1满血版671B模型。通义灵码是阿里云和通义实验室联合出品的AI编码助手，提供代码智能生成和研发智能问答能力。升级后，用户可在VS Code和JetBrains IDEs中切换不同模型，满足复杂算法和简单逻辑处理需求，进一步降低AI编程门槛。

来源：通义灵码

昆仑万维发布Matrix-Zero世界模型，开启空间智能新时代

昆仑万维推出 Matrix-Zero 世界模型，包含3D场景生成和可交互视频生成两大子模型。3D场景生成模型可将图片转化为全局一致、可自由探索的3D场景，支持不同风格输入和动态效果生成；可交互视频生成模型以用户输入为核心，支持实时交互和精准视角控制。

来源：昆仑万维集团

谷歌 Gemini 宣布上线“全局记忆”功能，订阅用户可令 AI 回忆曾经所有对话

谷歌 Gemini AI上线“全局记忆”功能，订阅Gemini Advanced服务的用户可在App和网页端体验。AI能记住用户所有对话，提供更个性化的回复。用户无需跳转历史记录即可延续对话，可要求Gemini总结对话内容。目前仅支持英语，未来几周扩展至其他语言。

来源：IT之家

2025年2月13日·周四

OpenAI 将在未来几个月内推出 GPT-5：整合 o3 等多项技术，可免费无限使用

OpenAI创始人Sam Altman在社交媒体上透露公司产品路线图的重大更新。OpenAI将发布GPT-4.5（代号Orion），是最后一个非思维链（CoT）模型。未来几个月，OpenAI将推出GPT-5，模型将整合OpenAI的多项技术，包括o3，不再将o3作为独立模型发布。GPT-5将集成到ChatGPT和API中，提供更统一的智能体验。

来源：机器之心

文心一言 4 月起全面免费，上线深度搜索功能

百度AI宣布：自2025年4月1日零时起，文心一言将全面免费开放，PC端和APP端用户均可体验文心系列最新模型。同时，文心一言上线深度搜索功能，同样于4月1日起免费开放。深度搜索功能具备更强大的思考规划和外部工具使用能力，为用户提供专家级内容回复，支持多场景任务处理以及多模态输入与输出。APP端也将同步上线。

来源：百度AI

2025年2月12日·周三

Agentic GLM全面登陆三星最新款手机Galaxy S25

智谱与三星合作，将Agentic GLM技术全面应用于三星Galaxy S25系列手机。技术基于多模态数据处理能力，支持AI音视频通话、视觉理解、系统功能调用、 AI搜索、文案写作等功能。Galaxy S25的“语聊视界”功能可实现智能互动视频通话，同时支持社交媒体文案生成和系统级功能调用。

来源：智谱

苹果抛弃DeepSeek，选择与阿里合作开发中国iPhone AI 功能

苹果公司已与阿里巴巴集团达成合作，共同开发面向中国市场的AI功能。双方联合开发的AI功能已提交审批，预计3月25日公布国行AI开发者教程。苹果曾尝试与百度合作，但未达预期，后放弃 DeepSeek ，因其缺乏支持大客户的经验。

来源：钛媒体AGI

七家国产芯片鼎力支持！无问芯穹异构云打通DeepSeek-R1多芯片适配优化

无问芯穹异构云大模型服务平台正式上线 DeepSeek-R1 和 DeepSeek-V3 ，完成了在壁仞、海光、摩尔线程、沐曦、昇腾、燧原、天数智芯等七家国产芯片上的适配优化。平台支持通过Infini-AI异构云平台一键获取DeepSeek系列模型与多元异构自主算力服务，为开发者提供高效、省心、划算的AI开发体验。

来源：无问芯穹

2025年2月11日·周二

OpenAI、谷歌、Roblox 等联手，成立新组织以保障 AI 时代儿童安全

Roblox、Discord、OpenAI和谷歌联合成立非营利组织ROOST（强大开放在线安全工具），为AI时代构建可扩展且互联互通的安全基础设施。ROOST将向公共和私人机构免费提供开源安全工具，初期重点关注儿童安全，特别是提供检测、审核和报告儿童性虐待材料（CSAM）的相关工具。

来源：IT之家

庖丁科技宣布完成新一轮融资，金山办公及顺为联合领投

北京庖丁科技宣布完成新一轮融资，金额达到15亿元人民币，由金山办公和顺为资本联合领投。此次融资将用于文档智能技术研发、市场拓展及核心人才引进，推动非结构化数据智能处理技术的创新与落地。庖丁科技专注于文档智能领域，已为超过100家大型机构客户提供服务，客户续费率超过90%。

来源：36氪

沙特将向 AI 芯片创企 Groq 投资 15 亿美元，支持后者在沙 AI 基础设施扩建

AI推理芯片初创公司Groq宣布获得沙特阿拉伯15亿美元（约合109.62亿元人民币）的投资，用于扩建位于沙特达曼的AI推理基础设施。Groq与沙特阿美旗下子公司合作建设的达曼数据中心已拥有19000个语言处理单元（LPU），能为41个国家的40亿用户提供服务。

来源：IT之家

2025年2月10日·周一

OpenAI CEO 深夜发文：AI 成本每年暴跌 10倍，2035 年人人都有超级大脑

OpenAI CEO Sam Altman发文称，AI成本每年暴跌10倍，到2035年，人人都将拥有超级大脑。他认为AGI（通用人工智能）将成为人类进步的强大工具，带来前所未有的繁荣和生活质量提升。随着AI智能水平的线性增长，社会经济价值呈超指数增长，未来AI Agents将成为知识工作中的“虚拟同事”，广泛应用于各领域。

来源：APPSO

晚点对话王小川丨不是文本创作、不是物理模型，AGI 的尽头是生命科学

百川智能创始人王小川在接受《晚点》采访时表示，AGI（通用人工智能）的尽头是生命科学，医疗不是垂直场景，是大模型皇冠上的明珠。百川智能专注于医疗领域，致力于打造AI医生，认为“造医生等价于AGI”。百川已发布全场景推理大模型 Baichuan-M1-preview ，计划在2025年第一季度推出AI医生助手，服务北京海淀区居民。

来源：晚点对话LateTalk

VideoWorld开源：多方合作打造仅靠视觉认知世界的视频生成模型

字节跳动豆包大模型团队联合北京交通大学、中国科学技术大学发布的“ VideoWorld ”视频生成模型，现已开源。模型首次实现仅通过视觉信息认知世界，无需依赖语言模型即可学习和执行复杂任务，如围棋对战和机器人操控。VideoWorld采用潜在动态模型（LDM）压缩视频帧间变化信息，显著提升学习效率。

来源：豆包大模型团队

美国网约车巨头 Lyft 同 Anthropic 达成合作：Claude 将为百万司机提供服务

美国网约车巨头Lyft与AI创企Anthropic达成合作，将推出AI驱动的产品，为Lyft每年超4000万乘客和100万司机提供更好的拼车体验。目前，由Anthropic的 Claude 模型支持的Lyft AI客服助手已投入使用，每天处理数千个客户请求，平均客服解决时间缩短87%。

来源：IT之家

昆仑万维旗下天工AI正式上线DeepSeek R1+联网搜索

昆仑万维旗下「天工AI 」正式上线DeepSeek R1+联网搜索功能。此次更新解决了此前DeepSeek联网功能无法使用及偶尔崩溃的问题，为用户带来更稳定、高效的AI体验。用户可在「天工AI」PC端勾选“深度思考 R1”按钮，实现联网搜索，获取最新信息。

来源：昆仑万维集团

2025年2月8日·周六

软银即将完成对 OpenAI 的 400 亿美元投资，超越微软成为最大金主

软银即将完成对OpenAI的400亿美元投资，投前估值为2600亿美元，投后估值达3000亿美元。资金将在未来12至24个月内支付，第一笔款项最快于春季到账。投资完成后，软银将超越微软，成为OpenAI的最大投资方。部分资金将用于OpenAI与软银、甲骨文合资的“星际之门”项目。

来源：IT之家

OpenAI 更新 o3-mini 模型思维链展示方式，提高 AI 推理透明度

OpenAI宣布公开 o3-mini 模型的推理思维链，免费和付费用户可查看其思维过程。部分人质疑公开的思维链是否为原始数据，因为展示速度较慢且字符数量与原始版本存在差异。OpenAI发言人确认公开的思维链经过后处理，消除不安全内容、简化复杂想法，为非英语用户提供更好的体验。

来源：量子位

2025年2月7日·周五

《麻省理工科技评论》点评中国AI“四剑客”，每家都媲美DeepSeek

DeepSeek凭借低训练成本和高性能的开源模型引发全球关注。《麻省理工科技评论》指出，除DeepSeek外，中国还有四家AI初创公司展现出强大的技术实力，包括阶跃星辰、面壁智能、智谱AI 和无问芯穹。分别在基础模型、端侧模型、多模态AI以及AI基础设施领域取得了显著成就，展现了与DeepSeek媲美的竞争力。

来源：机器之心

谷歌 Magic Editor 集成 SynthID，“火眼金睛”识别 AI 造假

为应对 AI 生成内容带来的虚假信息风险，谷歌将 SynthID 水印技术集成到图像编辑工具 Magic Editor 中。本周使用 Magic Editor 的 AI 生成编辑图像将在 Google Photos 中被 SynthID 标记，部分细微编辑可能无法被检测到。技术通过嵌入数字水印标记内容，不影响视觉质量。

来源：IT之家

OpenAI 与加州州立大学达成迄今最大的AI教育合作

OpenAI宣布将在加州州立大学23个校区推出 ChatGPT ，覆盖46万名学生和6.3万名教职员工。是OpenAI在美国高等教育领域的最大规模部署，为学生提供个性化辅导和学习指南，同时帮助教师完成行政工作。

来源：36氪

DeepSeek声明：社交平台仅三个账号，一切声称与官方群组有关收费行为均系假冒

DeepSeek 官方发布声明：近期，DeepSeek发现部分仿冒账号和不实信息误导公众，DeepSeek的官方账号仅包括微信公众号“DeepSeek”、小红书“@DeepSeek（deepseek_ai）”和X（Twitter）“DeepSeek (@deepseek_ai)”。除这些账号外，其他任何声称与DeepSeek相关的信息均为假冒。

来源：DeepSeek

2025年2月6日·周四

OpenAI 放大招：ChatGPT 搜索功能无需注册人人可用，分钟级别解析全网信息

OpenAI 宣布 ChatGPT 搜索功能无需登录账户即可使用，用户可直接获取基于实时网络信息生成的答案，查看信息来源清单。与传统搜索引擎相比，ChatGPT 搜索可实现分钟级解析网络信息，能查看地图和本地景点图片，结果更具可信度和实用性。

来源：IT之家

谷歌发布Gemini 2.0 Pro，全型号刷榜，原生多模态，编程、物理模拟能力炸裂

谷歌发布 Gemini 2.0 系列模型，包括 Gemini 2.0 Pro 、2.0 Flash 和 2.0 Flash-Lite。2.0 Pro 是谷歌最强的编码和复杂提示处理模型，配备 200 万 token 上下文窗口，支持谷歌搜索和代码执行工具。2.0 Flash 是高效主力模型，支持 100 万 token 上下文和多模态输入，适合高容量任务。2.0 Flash-Lite 是最具性价比的模型，性能优于前代 1.5 Flash，成本更低。

来源：Founder Park

前追觅中国区执行总裁郭人杰创业，「乐享科技」宣布完成近2亿元天使轮融资

前追觅中国区执行总裁郭人杰创立的「乐享科技」宣布完成近 2 亿元人民币的天使轮融资，由 IDG 资本领投，Monolith、经纬创投、真格基金等跟投，投后估值约 6 亿元。乐享科技成立于 2024 年，定位为全球科技公司，专注于 AI + 消费硬件市场，首款面向家庭场景的产品正在研发中。

来源：36氪

2025年2月5日·周三

一场关于DeepSeek的高质量闭门会：比技术更重要的是愿景

拾象创始人李广密组织了一场关于 DeepSeek 的闭门讨论会，数十位顶尖AI研究员、投资人与从业者参与。会议探讨了DeepSeek的技术细节、组织文化及其影响。DeepSeek凭借高效的资源利用和对智能的专注，展现出强大的技术实力。创始人梁文锋注重技术与智能的推进，而非商业化。

来源：腾讯科技

SB OpenAI Japan成立！2025年首个最火AI赛道开打

OpenAI在日本宣布成立合资公司 SB OpenAI Japan，与软银合作，专注于开发和销售新型高级企业AI——“水晶智能（Cristal intelligence）”。合作为日本企业提供定制化的AI解决方案，推动企业工作流程自动化和效率提升。

来源：智东西

华为小艺助手接入 DeepSeek，升级纯血鸿蒙 HarmonyOS NEXT 即可体验

华为小艺助手接入 DeepSeek，升级至 HarmonyOS NEXT 后即可体验。小艺助手的智能体广场已上线 DeepSeek-R1 Beta 版，升级小艺助手至 11.2.10.310 版本及以上，可在“发现”栏找到智能体广场，与 DeepSeek 进行对话。

来源：IT之家

Figure AI与OpenAI“分手”，人形机器人公司与大模型公司重新划定边界

人形机器人公司Figure AI与OpenAI终止合作。Figure AI创始人Brett Adcock表示，公司自主研发的端到端机器人AI取得重大突破，未来30天内将展示新成果。Figure AI与OpenAI合作始于去年初，曾发布多条展示机器人视觉、对话及灵活操作能力的视频。

来源：第一财经

2025年2月3日·周一

秘塔AI接入满血版DeepSeek R1推理模型

秘塔AI 宣布接入 DeepSeek R1 推理模型的满血版。模型结合了秘塔数十亿的全网数据和数千万学术文献，能处理复杂的推理问题，在结合知识和学术文献的推理任务中表现出色。秘塔AI的测试结果显示，R1模型在回答复杂问题时表现突出。

来源：AI秘塔

OpenAI 更新 ChatGPT Canvas 工具：上线 o1 模型、支持渲染

HTML / React 代码 OpenAI更新 ChatGPT Canvas 写作工具，新增了o1模型支持，扩展了代码渲染功能，支持HTML和React代码。Canvas是ChatGPT中的写作与编码工具，用户可以在右侧输入文本，左侧基于模型调整文本长度或联想上下文。订阅了ChatGPT Pro、Plus、Team会员的用户可以使用o1模型，HTML和React代码渲染功能对所有用户开放。

来源：IT之家

通义开源两大AI模型：支持理解长视频和捕捉事件等能力

通义开源两大AI模型： Qwen2.5-VL 和 Qwen2.5-1M 。Qwen2.5-VL推出3B、7B和72B三个版本，全面超越GPT-4o与Claude3.5。模型支持超1小时的视频理解，无需微调即可操作手机和电脑完成复杂任务。Qwen2.5-1M推出7B和14B版本，处理长文本任务性能卓越，推理速度提升近7倍，首次将上下文扩展到1M长度。

来源：通义

2025年1月31日·周五

开源全模态模型Baichuan-Omni-1.5上线，多项能力跑赢GPT-4o mini

百川智能上线开源全模态模型 Baichuan-Omni-1.5 。模型支持文本、图像、音频和视频的全模态理解，具备文本和音频的双模态生成能力。在视觉、语音及多模态流式处理等方面，Baichuan-Omni-1.5的表现均优于GPT-4o mini，在多模态医疗应用领域优势突出。

来源：百川大模型

扎克伯格持续建设“AI 帝国”：Meta 今年将投入最多 650 亿美元

Meta首席执行官马克・扎克伯格表示，公司今年计划投入最多650亿美元用于扩展AI基础设施，巩固其在与OpenAI和谷歌竞争中的地位。Meta将增加AI岗位的招聘，建设一座超过2吉瓦的数据中心。作为英伟达的主要客户之一，Meta计划在年底前拥有超过130万块图形处理器，在2025年实现约1吉瓦的计算能力。

来源：IT之家

2025年1月30日·周四

百川智能发布深度思考模型，同时具备语言、视觉和搜索三大领域推理能力

百川智能推出两款新模型： Baichuan-M1-preview 是国内首个全场景深度思考模型，具备语言、视觉和搜索三大领域推理能力，在医疗循证模式下，能快速精准回答医疗问题，提供深度推理和个性化建议。小尺寸版本Baichuan-M1-14B是行业首个开源医疗增强大模型，医疗能力超越Qwen2.5-72B。

来源：百川大模型

Step-Video 开年震撼升级：更强大的真实世界模拟器来了

阶跃星辰推出视频生成模型 Step-Video V2 版本。新版本在参数量、语义理解、指令遵循能力等方面大幅提升，支持复杂运动、人物美感、基础文字生成和多语言输入等功能。用户可通过跃问网页端申请试用。

来源：阶跃星辰

字节启动 Seed Edge，加码 AGI 研究

字节跳动正式设立代号为“Seed Edge”的研究项目，专注于通用人工智能（AGI）的前沿研究。项目拟定五大研究方向，包括下一代推理、感知、软硬一体模型设计、新范式探索和Scaling方向研究。Seed Edge旨在探索AI的原创性创新，而非仅追随现有技术。字节跳动创始人张一鸣高度重视AI研究，鼓励团队探索基础课题。

来源：晚点LatePost

2025年1月29日·周三

豆包大模型1.5正式发布，全面上线火山方舟

字节跳动旗下火山引擎正式发布豆包大模型1.5 Pro 。模型在知识、代码、推理、中文等多个权威测评基准上表现优异，综合得分超越GPT-4o、Claude 3.5 Sonnet等业界一流模型。此次更新还推出了豆包·视觉理解模型和实时语音模型，支持多模态数据合成、低时延语音对话等功能。

来源：火山引擎

特朗普联合OpenAI启动5000亿美元“星际之门”AI项目，用于建设AI基础设施

特朗普与OpenAI CEO Sam Altman、软银CEO孙正义等在白宫宣布启动名为“星际之门”的人工智能项目。项目计划未来四年投资5000亿美元，在美国建设新的人工智能基础设施，首期投入1000亿美元。技术合作伙伴包括Arm、微软、英伟达等。推动通用人工智能（AGI）发展，创造数十万就业岗位。

来源：机器之心

2025年1月28日·周二

有道子曰-o1推理模型正式发布！消费级显卡即可部署

网易有道正式发布并开源国内首个输出分步式讲解的推理模型“ 子曰-o1 ”。作为14B轻量级单模型，子曰-o1支持在消费级显卡上部署，采用思维链技术，能提供细致的解题过程，具备强逻辑推理能力。子曰-o1已应用于“有道小P”，支持“先解析思路、再提供答案”的答疑模式，助力学生自主思考。

来源：网易有道

清影2.0重磅更新，模型能力大幅提升

清影2.0 重磅更新，AI视频生成能力大幅提升。新版本在模型结构、训练方法和数据工程上全面升级，图生视频基础模型能力提升38%，支持画面主体进行大幅度运动并保持稳定。指令遵从能力行业领先，可精准实现复杂提示词，涵盖写实、三维动画、二维动画及特殊艺术风格。已上线智谱清言，普通用户可免费用。

来源：智谱

k1.5新模型登场：Kimi 如何做到满血版多模态o1水平

月之暗面推出全新 k1.5 多模态思考模型。模型在多模态推理和通用推理能力上达到SOTA水平，在short-CoT模式下，数学、代码、视觉多模态能力大幅超越全球短思考SOTA模型，领先550%；在long-CoT模式下，达到OpenAI o1正式版水平，成为全球首个实现该性能的非OpenAI模型。

来源：月之暗面 Kimi

2025年1月27日·周一

DeepSeek-R1 发布，性能对标 OpenAI o1 正式版

深度求索发布 DeepSeek-R1 模型，并开源模型权重。DeepSeek-R1通过强化学习技术大幅提升推理能力，在数学、代码和自然语言推理等任务上性能对标OpenAI o1正式版。DeepSeek还开源了基于R1蒸馏的6个小模型，其中32B和70B模型性能比肩OpenAI o1-mini。DeepSeek-R1已上线API，可通过官网或App调用。

来源：DeepSeek

小红书AI翻译功能上线，网友玩转Prompt，背后大模型引关注

小红书上线AI翻译功能，引发了网友的广泛关注和讨论。功能支持多种语言的翻译，能处理颜文字、网络热梗、化学式、摩斯电码等特殊内容。用户还可以通过Prompt提出翻译需求或生成特定内容。

来源：量子位

2025年1月26日·周日

阶跃星辰Step-1o重大升级，多模态视觉双榜夺冠，国内第一

阶跃星辰宣布 Step 系列模型上新第三弹。推出新成员 Step-1o Vision 多模态理解大模型，Step-1o Audio 语音模型能力升级。Step-1o Vision 在视觉识别、推理等任务中表现卓越，位居国内外权威榜单首位。升级后的 Step-1o Audio 情商更高，声音更自然，支持多语种及方言理解，实现更低时延。

来源：阶跃星辰

书生·浦像超高动态成像算法：AIGC叠加HDR，捕捉细节，平衡曝光

上海人工智能实验室联合香港中文大学、浙江大学团队推出“ 书生·浦像 ”超高动态成像算法（浦像HDR，UltraFusion HDR）”，通过AIGC与HDR技术结合，实现超高动态范围成像。算法可在9档曝光差异的极端条件下修复图片细节，生成色彩鲜艳、细节丰富的高质量图像。解决了传统HDR技术在动态场景中的运动伪影问题。

来源：上海人工智能实验室

秘塔AI搜索上线“阅读模式”，PDF阅读体验全面升级

秘塔AI搜索推出了全新的“阅读模式”功能。旨在解决PDF文档在移动设备上阅读不便的问题，支持复杂公式识别、智能渲染排版以及全文翻译，可轻松处理多列文字和图表混排的PDF文件。阅读模式支持多端同步，用户可在电脑端添加或上传PDF至书架，通过手机App查看。

来源：AI秘塔

2025年1月20日·周一

豆包实时语音大模型上线即开放！情商智商双高

字节跳动旗下的豆包大模型团队宣布推出豆包实时语音大模型，在豆包APP全量开放。模型是语音理解和生成一体化的端到端语音系统，主要面向中文语境，支持英语对话但暂不支持多语种。在语音表现力、情绪承接和控制力方面表现出色，整体满意度高于GPT-4o。具备低时延、可随时打断等特性，支持实时联网回答时效性问题。

来源：豆包大模型团队

阶跃星辰语言模型上新：既有文学大师，又有性价比之王

上海阶跃星辰推出Step系列语言模型的两位新成员： Step-2 mini 和Step-2文学大师版。Step-2 mini是轻量级模型，仅用3%的参数量保留了Step-2模型80%以上的性能，生成速度快，性价比高。Step-2文学大师版则专注于创作，能生成富有深度和风格的文学作品，已在跃问 App上线。

来源：IT之家

商汤「日日新融合大模型交互版」开放商用，限时免费

商汤科技推出“ 日日新融合大模型交互版”（SenseNova-5o），正式对外开放实时音视频对话服务，限时免费使用。模型具备强大的实时交互、视觉识别、记忆思考和复杂推理能力，支持超长多模态交互记忆（不少于5分钟），交互延迟低至2秒以内。用户还可根据偏好设置交流风格和音色。

来源：商汤科技SenseTime

全球首个亿级参数量地震波大模型今年对外开放

全球首个亿级参数量地震波大模型“谛听”在国家超级计算机成都中心发布第三阶段测试版本，已成功应用于西藏定日6.8级地震数据处理。模型由中国地震局地球物理研究所、国家超级计算成都中心和清华大学联合开发，可自动识别震前、震后事件并生成AI地震序列目录。

来源：IT之家

如何识别AI生成图片？腾讯上线「鉴别工具」

腾讯上线由腾讯混元安全团队朱雀实验室研发的朱雀大模型检测工具，旨在帮助用户识别AI生成的图像和AI生成文本检测系统。通过检测图片中的纹理、语义及隐层特征，快速判断图片是否由AI生成。系统使用140万份正负样本进行训练，涵盖多种场景，测试检出率超过95%。

来源：腾讯

晚点对话 MiniMax 闫俊杰：创业没有天选之子

《晚点》对话MiniMax创始人闫俊杰，探讨AI创业与技术发展。闫俊杰认为，AI创业不应套用移动互联网逻辑，模型能力提升并非依赖用户规模，而是技术进化。MiniMax最新开源的 MiniMax-01 模型采用线性注意力机制，首次在大规模模型中实现高效处理400万token的长上下文，助力AI记忆与交互能力提升。

来源：晚点对话LateTalk

2025年1月19日·周日

智谱清言APP推出“2025克穷暴富”春节活动，赢现金红包庆新年

智谱清言推出2025年春节活动，时间为1月17日至2月5日。用户可通过智谱清言APP参与多种互动活动赢取现金红包。活动包括AI生成视频金币爆爆爆、新春纪念照生成、视频通话互动以及AI帮助群发拜年短信等。用户上传照片可生成新春主题纪念照，与小智视频通话可获得拜年红包，AI助手AutoGLM可自动群发新年祝福。

来源：智谱清言

马斯克 xAI 再放大招：网页版 Grok 上线，无需 X 账户

埃隆·马斯克旗下xAI公司推出网页版 Grok AI聊天机器人，无需X账户即可体验。访问grok.com，提供出生年份即可使用，能实时收集信息、获取答案、生成图像等。输入框下方菜单支持切换不同模式，更好控制响应。登录后可开启“临时模式”，聊天不记录不用于训练模型。

来源：IT之家

阿里再投具身智能，清华大学孵化的星动纪元完成最新一轮融资

清华大学孵化的人形机器人企业北京星动纪元，近日完成最新一轮融资，新增阿里巴巴旗下公司等为股东，注册资本增至约1095.9万人民币。星动纪元专注于研发高智能通用人形机器人，产品已迭代至第六代——星动STAR 1，具备55个自由度，能在复杂环境中执行多种任务。

来源：财联社

2025年1月18日·周六

智谱Realtime、4V、Air新模型发布，上线bigmodel.cn

智谱发布多款新模型，包括GLM-Realtime、 GLM-4V-Plus 和GLM-4-Air，这些模型在bigmodel.cn上线。GLM-Realtime模型支持低延迟视频理解和语音交互，具有清唱功能和长达2分钟的记忆能力。GLM-4-Air和GLM-4V-Plus模型提供高性价比的语言和视觉理解解决方案。

来源：智谱

腾讯会议全新升级，上线AI小助手Pro

腾讯会议推出全新升级功能。用户可从组织通讯录直接拉人入会，日程自动呈现并多渠道提醒，确保参会人准时上会等。上线AI小助手Pro全程监听会议，可回答问题、提供方案建议，支持联网搜索与文件上传提问，提升会议效率。

来源：腾讯会议

2025年1月15日·周三

MiniMax-01开源：新架构开启Agent时代

MiniMax于2025年1月15日宣布开源 MiniMax-01 系列模型，包括基础语言大模型MiniMax-Text-01和视觉多模态大模型MiniMax-VL-01。该系列模型参数量达4560亿，单次激活459亿，性能比肩GPT-4o，能高效处理长达400万token的上下文，是GPT-4o的32倍。

来源：MiniMax

抖音创始成员任利锋的GenAI创意社区：Hitems，完成数千万美元Pre-A轮融资

抖音早期产品负责人任利锋创立的“数美万物”公司旗下创意电商社区 Hitems ，近日完成数千万美元Pre-A轮融资，美团龙珠领投，锦秋基金跟投，红杉中国、IDG资本继续跟投，公司估值约1.5亿美元。Hitems是集创作者创意生成、生产、销售于一体的跨境电商平台，基于GenAI技术，可通过关键词、图片或手绘稿生成高保真物品图。

来源：智能涌现

加速AI和机器人融入生活空间，「一目科技」完成数亿元D轮融资

“一目科技”近期完成数亿元D轮融资，由赛富投资基金领投，南京市创新投资集团、松霖科技跟投。公司专注于多模态感知+AI计算解决方案，产品已应用于智慧水务、智慧家居、生命科学等领域，并打入TCL、惠而浦等头部白电厂商供应链。在CES 2025上，一目科技的AI洗护机器人首秀亮相并获媒体好评。

来源：智能涌现

英伟达发布 6.3 万亿 Token 大型 AI 训练数据库

Nemotron-CC 英伟达推出名为 Nemotron-CC 的大型英文AI训练数据库，包含6.3万亿个Token，其中1.9万亿为合成数据。该数据库基于Common Crawl网站数据构建，经过严格处理形成高质量子集Nemotron-CC-HQ。与业界领先的DCLM数据库相比，使用Nemotron-CC-HQ训练的模型在MMLU基准测试中分数提高5.6分。

来源：IT之家

2025年1月14日·周二

打造AI时代的超级应用平台，「环界云计算」获阿里云战略投资

珠海环界云计算有限公司完成3750万元Pre-A融资，由阿里云独家投资。核心产品Sealos是基于kubernetes的云操作系统，聚焦已开发应用托管和新应用诞生，助力开发者和B端企业降低成本、提升效率。开源项目Sealos和 FastGPT 在社区受关注。

来源：36氪

百川智能落地宁波！注册资本 1.5 亿美元，与高新区共建产业基金

2025年1月13日，百川智能创始人王小川与宁波高新区管委会签订合作协议，百川智能大模型项目落地宁波高新区。王小川表示将立足宁波特色，推进 AI 赋能千行万业。百川智能目前员工约280人，已完成A+轮融资，总融资额约50亿人民币，估值200亿人民币。

来源：有新Newin

方大特钢与华为开展全面合作，打造钢铁行业大模型

方大特钢与华为签署全面合作协议。双方将在企业数据治理体系与应用、钢铁行业大模型应用、信息安全、数字化人才培养等方面展开合作。方大特钢表示，此次合作有助于推动数字技术与钢铁主业深度融合，加快数字化转型，提升信息化应用水平和市场竞争力。

来源：IT之家

3D 生成大模型公司影眸科技完成数千万美元 A 轮融资，美团龙珠、字节跳动领投

影眸科技完成数千万美元A轮融资，美团龙珠、字节跳动领投，红杉中国种子基金及奇绩创坛跟投。融资将用于推进3D大模型前沿探索及Hyper3D系列产品商业化。其3D生成大模型 Rodin 上线45天实现100万美金年经常性收入，已与Amazon等知名客户深度合作，获数百万元B端订单，覆盖多行业。

来源：IT之家

2025年1月13日·周一

月之暗面海外产品负责人的AI Coding项目被投资人抢爆了，新一轮估值8000万美元

前月之暗面海外产品Noisee创始人明超平发起的AI Coding项目“新言意码”已完成两轮融资，目前公司估值达8000万美元。该项目吸引了五源资本、高榕资本、真格基金、高瓴创投和IDG资本等多家顶级投资机构。新言意码定位为AI coding应用，瞄准类似美国智能代码生成产品 Cursor 的市场。

来源：Z Finance

京东健康发布业内首个医疗健康全场景应用大模型产品体系

2025年1月11日，京东健康在年度医生盛典和数智医疗大会上发布了“ AI京医 ”大模型产品体系及业内首个面向医院全场景应用的大模型产品“京东卓医”。“AI京医”包括AI诊疗助手2.0、AI科研助手和AI医生智能体等产品，旨在提升患者就医体验、医生临床科研效率和医院运营效能。

来源：京东黑板报

YY直播首个 AI 伴唱服务数字人“灵儿”发布，平均每天服务超100万用户

YY直播近日发布首个AI伴播数字人“灵儿”，在12日YY 2024年度巅峰盛典上首次亮相。依托自研技术，“灵儿”已覆盖6000多个直播间，平均每天服务超100万用户，目前处于公测阶段。上线半年来，互动、发言量提升超30%，部分直播间互动设备数增长670%，付费用户数增长80%。

来源：钛媒体AGI

中文互联网语料 AI 资源平台发布：27 个数据集、总量 2.7T

中国网络空间安全协会发布中文互联网语料资源平台，含27个数据集、总量2.7T。该平台在中央网信办指导下，由协会与国家互联网应急中心等共建，经严格数据处理后，推出中文互联网基础语料2.0，规模120GB，数据3800万条。

来源：IT之家

2025年1月12日·周日

通义万相2.1模型能力重磅升级，轻松实现文生组图

阿里通义万相2.1 模型重磅升级，视频生成能力显著增强。通过自研的高效 VAE 和 DiT 架构，首次实现了中文文字视频生成功能，支持无限长 1080P 视频的高效编解码。在 VBench 视频生成模型评测体系中荣登榜首。还支持文生组图，采用 IC-LoRA 图像生成训练方法，增强文本到图像的上下文能力，轻松实现关联图像间的组合生成。

来源：通义

国家网信办：截至 2024 年末共 302 款生成式人工智能服务完成备案

截至2024年12月31日，国家网信办共完成302款生成式人工智能服务的备案，其中2024年新增238款。2024年还有105款通过API接口或其他方式直接调用已备案模型能力的生成式人工智能应用或功能在地方网信办完成登记。这些备案和登记工作旨在促进生成式人工智能服务的创新发展和规范应用。

来源：IT之家

开源媒体播放器 VLC 下载破 60 亿次，预览本地 AI 字幕 / 翻译功能

开源媒体播放器 VLC 在 CES 2025 上庆祝累计下载次数突破 60 亿次。VideoLAN 总裁 Jean-Baptiste Kempf 表示，尽管流媒体服务盛行，VLC 的活跃用户数量仍在增长。VideoLAN 在 CES 现场预览了 VLC 即将推出的新功能：基于本地开源 AI 模型的离线字幕生成和翻译功能。功能现已支持多种语言，包括法语、德语、日语和希伯来文。

来源：IT之家

2025年1月9日·周四

官宣！通义灵码 AI 程序员全面上线，仅需10分钟完成整个开发过程

阿里云和通义实验室联合推出的通义灵码 AI程序员全面上线，成为全球首个同时支持VS Code和JetBrains IDEs的AI编程工具。通义灵码具备代码智能生成、研发问答等功能，通过对话协作方式，能够高效完成业务开发、问题修复和单元测试等任务。累计生成代码达15亿行。

来源：通义灵码

微软开源 140 亿参数小语言 AI 模型 Phi-4，性能比肩 GPT-4o Mini

微软2025年1月8日在Hugging Face平台开源了小语言AI模型 Phi-4 ，其参数量为140亿。Phi-4在多个基准测试中表现优异，超越了参数量更大的Llama 3.3 70B和OpenAI的GPT-4o Mini。出色性能主要得益于高质量数据集的训练。

来源：IT之家

CES 2025首日观察：AI硬件不再画饼，中国厂商大杀四方

CES 2025首日，AI硬件成为焦点，中国厂商表现亮眼。涂鸦智能展示AI与IoT深度融合的创新应用，如智慧能源管理、AI灯光创作等，AR/AI眼镜大热，雷神、Rokid等厂商推出多款新品，电视领域，海信、TCL、长虹等国产厂商凭借RGB三维控色、Mini LED技术等突破。智能清洁设备也迎来创新，追觅、MOVA、云鲸等品牌带来机械臂、履带式拖布等新技术。

来源：36氪

晚点对话李开复丨零一万物部分团队并入阿里，“灵魂拷问来得太快了”

零一万物CEO李开复在晚点对话中透露，公司与阿里云成立产业大模型联合实验室，部分团队将加入该实验室。零一万物将不再追求训练超级大模型，转而专注于训练更快、更便宜的模型，并基于此打造可盈利的应用。

来源：晚点LatePost

智元机器人推出首个机器人4D世界模型

智元机器人团队推出了首个机器人4D世界模型 EnerVerse ，通过自回归扩散模型结合稀疏记忆机制和自由锚定视角（FAV），在生成未来具身空间的同时，显著提升了机器人动作规划能力。EnerVerse在复杂任务中表现出卓越的未来空间生成能力和动作规划性能，解决了模态对齐和数据稀缺等挑战。

来源：智元机器人

2025年1月8日·周三

可灵AI V1.6模型现已开放API，生成质量更稳定

北京快手宣布，自研的视觉生成大模型可灵AI V1.6已开放API。新版本在生成质量、内容效果等方面有显著提升，尤其在广告视频素材生成方面表现出色，能更好地响应运动、时序类动作和运镜等文字描述，提高素材生成成功率。

来源：可灵AI

HeyGen推全新数字人技术，与 Sora 实现集成

HeyGen 近日宣布推出全新数字人技术，并与Sora实现集成。此次合作产生的虚拟形象视频在许多情况下表现优于真人演员，且没有长度限制。HeyGen的虚拟形象完全由人工智能生成，非基于真实人物模型，具有更强的可塑性和创造性，可满足不同视频需求。

来源：品玩

Anthropic正以600亿美元估值筹集20亿美元，将成为第五大最有价值的美国初创公司

Anthropic 正在与 Lightspeed Venture Partners 谈判，计划以 600 亿美元的估值筹集 20 亿美元。这轮融资将使 Anthropic 的估值达到 600 亿美元，成为继 SpaceX、OpenAI、Stripe 和 Databricks 之后第五大最有价值的美国初创公司。

来源：有新Newin

科大讯飞2025年「首场发布会」，打造每个人的办公新范式

科大讯飞于2025年1月7日在北京中关村国际会议中心举办办公智能体产品升级发布会，推出多款升级产品。此次升级围绕智慧办公新范式，首次联合发布“知识中台、AI搜索、星火人设、虚拟数字人、星辰MaaS 与多模交互”六大通用能力，旨在为每个人打造量身定制的AI助手。

来源：讯飞开放平台

阅文旗下AI男友应用筑梦岛获千万美元融资，开启独立运营

阅文集团旗下的“ 筑梦岛 ”已开启独立运营，完成新一轮融资，金额超1,000万美元，由商汤国香基金、阅文集团等战略投资方共同投资。筑梦岛定位为“新一代AI虚拟互动娱乐平台”，用户可创造并互动“梦中人”，通过多模态互动建立情感连接。目前，筑梦岛App拥有近五百万注册用户，其中近80%为年轻女性用户，人均日对话轮次超120轮。

来源：36氪

年终复盘 2024 AI搜索江湖，三大门派围攻光明顶

2024年，AI搜索赛道竞争激烈，互联网巨头、内容平台和AI创业公司纷纷入局。腾讯、百度、字节跳动等推出多款AI搜索产品，如搜狗输入法的AI搜索、360的纳米搜索、字节跳动的豆包电脑版等，覆盖学习、办公、电商等多个场景。AI搜索产品形态不断进化，多模态大模型的应用使其具备更强大的搜索和创作能力。

来源：钛媒体

用AI大模型重塑服装设计制版，「深服科技」获数千万元Pre-A轮融资

浙江深服人工智能近日完成数千万元Pre-A轮融资，由上海厚毅资本领投。资金将用于模型开发、技术人才引进和市场拓展。深服科技成立于2023年，专注于为服装行业提供AI解决方案，通过AI大模型技术解决设计和制版难题，降低研发成本。产品“画衣衣AI制版”即将发布，可让设计师自主生成CAD制版图。

来源：36氪

2025年1月7日·周二

英伟达发布新一代消费级显卡RTX50系列，售价为549美元起

在2025年1月7日的 CES 展会上，英伟达 CEO 黄仁勋发布了 RTX 5090 显卡。显卡采用 Blackwell 架构，拥有 920 亿晶体管，AI 性能达 3352 TOPS，显存为 32 GB GDDR7，功耗为 575W。能通过 AI 提升帧率和图像质量。英伟达还推出了 Cosmos 世界模型平台，旨在推动物理 AI 的发展。

来源：机器之心

中国信通院发布 MaaS 六大标准，解决 AI 模型落地“最后一公里”难题

中国信通院于2025年1月6日发布MaaS（模型即服务）系列标准，旨在解决大模型落地应用中的质量问题和选型难题。系列标准涵盖模型服务协议、评估方法、平台能力、模型管理及应用开发等方面，为大模型服务商和平台供应商提供能力建设参考，助力MaaS行业健康发展。

来源：IT之家

传音控股与阿里云达成合作，通义千问大模型搭载于前者旗下 AI 手机

传音控股与阿里云达成合作，将通义千问大模型搭载于旗下 TECNO 品牌的 AI 手机 PHANTOM V Fold2 中。手机通过特定的 AI 按键，用户可以在离线环境中流畅运行多轮 AI 对话，实现文档及通话摘要等功能。

来源：IT之家

2025年1月6日·周一

「天工大模型4.0」o1版和4o版正式上线天工APP和网页，免费使用

昆仑万维集团宣布，「天工大模型4.0」 o1版和4o版于2025年1月6日正式上线天工网页和APP，供用户免费使用。o1版专注于中文逻辑推理，具备强大的数学、代码、逻辑、常识和伦理决策能力，通过多智能体体系和强化学习等技术提升推理性能。4o版为多模态模型，语音对话助手Skyo具有情感表达和多语言切换能力，提供流畅的实时对话体验。

来源：昆仑万维集团

微软计划本财年砸下 800 亿美元，建设符合 AI 工作需求的数据中心

微软计划在2025财年投资800亿美元建设支持人工智能运算的数据中心，其中超过一半的资金将投向美国市场。微软副董事长布拉德·史密斯表示，美国在全球AI竞赛中处于领先地位，得益于私人资本投入和技术创新。微软已向OpenAI投资超过130亿美元，将其AI模型整合到Windows、Teams等产品中。

来源：IT之家

马斯克称 Grok 3 即将推出：已完成预训练，计算量比 Grok 2 高十倍

马斯克宣布 Grok 3 即将推出，预训练已完成，计算量比 Grok 2 高出十倍。去年 7 月，Grok 3 使用了 10 万块英伟达 H100 芯片进行训练，但未能如期发布。去年 12 月，xAI 向所有 𝕏 平台用户免费推出了 Grok-2 模型，Premium 用户将优先访问新功能。

来源：IT之家

上海发布“天工人工智能工业平台”和“工业语料库 1.0 版”

上海市在“人工智能+”行动推进大会上发布了“天工人工智能工业平台”和“工业语料库 1.0 版”。天工平台采用开放架构，兼容主流大模型，提供从底层算力到顶层应用的全面支持，旨在降低工业企业使用 AI 的门槛，提高应用开发效率，助力企业智能化转型。工业语料库则为企业提供精准的决策支持和解决方案。

来源：IT之家

2025年1月5日·周日

阿里入局 AI 眼镜：与雷鸟达成战略合作，产品将接入通义大模型

雷鸟创新与阿里云达成AI眼镜领域的独家战略合作，阿里云通义大模型将为雷鸟AI眼镜提供技术支持。是国内首次大模型与AI眼镜硬件厂商深度定制合作。双方将共同投入研发资源，围绕云计算、大模型、AI硬件等领域合作。雷鸟计划于1月7日发布雷鸟V3 AI拍摄眼镜。

来源：IT之家

阿里前端第一人AI创业首秀，要做全球内容创作者的GitHub！5k人排队内测

前阿里前端技术专家玉伯，离开蚂蚁集团后创办AI公司思维天空，推出AI工具 YouMind ，旨在服务全球创作者。YouMind 集成多模态内容，提供网页总结、翻译、ChatBot对话等功能，支持用户将内容分类收藏。目前处于内测阶段，已有近5000人申请，公司估值过亿。

来源：量子位

智象未来多模态大模型3.0全球首发

智象未来发布智象多模态生成大模型3.0和智象多模态理解大模型1.0，旨在提升视觉多模态基础模型服务，激发创造力。创始人梅涛院士强调了AI技术在推动科学发展和具身智能方面的重要性，提出了大模型通往AGI的两条路径。

来源：HiDream智象未来

阿里云与零一万物达成战略合作，成立“产业大模型联合实验室”

阿里云与零一万物达成战略合作，共建“产业大模型联合实验室”，旨在加速大模型技术应用落地和产业生态整合。双方将结合研发实力，通过阿里云百炼大模型平台提供服务。进一步深化双方在AI大模型领域的合作。

来源：IT之家

英伟达新一代显卡领衔，一波AIPC芯片产品有望亮相CES展

英伟达CEO黄仁勋将在CES 2025发表开幕演讲，可能发布新一代GeForce RTX50系列显卡。英特尔和AMD也预计在会上发布AIPC相关产品，推动AI芯片技术迭代。行业已进入用户体验探索阶段，AIPC芯片具备自然语言交互等特点，有望快速渗透PC市场，带动产业链升级。

来源：财联社

谷歌前CEO施密特预测：AI 将在今年获得“永久记忆”，2028 美国会耗尽能源储备

谷歌前CEO埃里克·施密特预测，2025年AI将实现三大突破：获得“永久记忆”、智能体从对话到行动的飞跃、文本到行动的编程革命。他强调AI变革将“一切，无处不在，同时发生”，警告美国可能在2028年耗尽能源储备，因数据中心耗电量巨大。

来源：36Kr

2024年12月31日·周二

可灵AI API新增【虚拟试穿V1.5】和【对口型】

快手可灵AI （Kling）宣布API能力升级，推出虚拟试穿V1.5模型，支持单件及组合服装输入，能生成试衣视频。同时，新增对口型功能，可实现视频中人物口型与配音同步，提升视频真实感。这些升级将为电商、广告营销和泛娱乐行业带来新机遇，推动业务增长。

来源：可灵AI

OpenAI公布2025年将发布的技术产品：AGI、Agents、GPT-4o升级版

OpenAI首席执行官Sam Altman宣布，到2025年将发布包括AGI（通用人工智能）、智能体Agents、GPT-4o升级版在内的多项技术产品，以及其他改进，如更好的记忆存储、上下文窗口、成人模式、深度研究特色功能、Sora和个性化定制。

来源：第一财经

大模型的2024年：我们对AI的发展脱敏了

2024年AI领域发展迅速，大模型更实用但不再惊艳，端侧模型和混合专家技术（MoE）降低成本，多模态研究成新方向。AI搜索、语音交互、视频技术商业化挑战中前行，AI Agent开发门槛降低。AI硬件百花齐放，AI眼镜异军突起。AI游戏从辅助工具成为游戏一部分。中国AI人才梯队规模质量仅次于美国，期待在AI浪潮中领先。

来源：新硅NewGeek

黑芝麻智能发布华山A2000家族芯片平台，打造全场景通识智驾标杆

黑芝麻智能发布华山A2000家族芯片平台，针对下一代AI模型设计，提供高算力、高性能，支持全场景通识智驾。A2000家族包括A2000 Lite、A2000和A2000 Pro，满足不同自动驾驶需求。集成领先CPU、DSP、GPU等，算力是主流旗舰芯片的4倍，原生支持Transformer模型，推动智能驾驶技术发展。

来源：黑芝麻智能

2024年12月30日·周一

讯飞医疗成功上市，成为医疗大模型第一股！

讯飞医疗科技股份有限公司（股票代码：02506.HK）于2024年12月30日在香港联交所主板成功上市，标志着医疗大模型领域的第一股诞生。作为中国医疗人工智能行业的领导者，讯飞医疗在基层医疗服务、医院服务、患者服务和智慧影像等方面均取得显著成就，致力于让医疗服务更便捷，为人类健康未来奋斗。

来源：科大讯飞

支付宝「探一下」新一代AI视觉搜索产品，满足你的好奇心

支付宝推出新功能“ 探一下 ”，基于自研的多模态大模型技术，能够“用AI之眼探索万物”，提供快速、有用、趣味的生成式搜索服务。“探一下”提供三种核心服务：探知识、探灵感、探文本。可以根据自己的需求选择相应的服务，满足用户的好奇心。通过支付宝“扫一扫”界面或支小宝App中访问。

来源：支付宝

AIsphere 拓元智慧完成近亿元Pre-A轮融资，将聚焦多模态大模型与具身智能技术

拓元智慧（X-Era AI）宣布完成近亿元人民币的Pre-A轮融资，由粤科金融集团、鹏城愿景基金等投资。资金将用于加速多模态大模型和具身智能技术的研发。公司成立三年，累计营收近亿元，核心团队来自国内外高校和知名企业，已在无人零售、文教创作等领域实现技术深度应用。

来源：钛媒体

OpenAI裂变成了两块：一块营利，一块非营利

OpenAI近日宣布公司重组，分为营利和非营利两部分，确保通用人工智能（AGI）造福全人类。重组旨在选择最适合长期成功的组织结构，使非营利组织可持续发展，让各部分有效运作。OpenAI计划将营利性公司转变为特拉华州公共利益公司（PBC），并发行普通股。PBC的公共利益将是OpenAI的使命。

来源：机器之心

2024年12月29日·周日

可图 1.5 图像模型来啦！全新「AI模特」功能上线

快手可灵AI （Kling）团队发布可图1.5图像模型，模型在画面质量和美感上大幅提升。AI试衣新增“AI模特”功能，借助可灵1.6图生视频能力，用户只需输入文本描述即可生成模特动态展示服装。可灵1.5模型支持尾帧生成。对口型功能新增10款高品质音色，支持选择音色情感，增强视频内容的情感表达。

来源：可灵AI

首个重症医疗大模型来了，腾讯 X 迈瑞发布“启元重症大模型”，已在ICU病房上班

腾讯与迈瑞医疗合作开发的全球首个重症医疗大模型“ 启元重症大模型 ”已在ICU病房投入使用。模型能实时监测患者生命体征，5秒内总结病情，提供诊疗建议，准确率高达95%。能自动生成规范病历，将医生病历编写时间从半小时缩短至一分钟。

来源：腾讯

火山引擎×联想，为 AI 桌面助手“如意”植入豆包大模型，“智” 敬PC新时代

联想与火山引擎合作，推出全新升级的AI桌面助手“如意”（ AI Stick ），植入豆包大模型，提供AI搜索、AI写作、AI聊天三大功能，全面提升PC用户体验。如意能精准理解用户需求，提供多领域知识解答，实现智能对话式交互，增强PC智能体验。

来源：火山引擎

2024年12月28日·周六

联想新一代智能体系统“天禧 AS”发布，明年 Q2 落地 AI PC、AI 手机、AI 平板等

联想在2024天禧生态伙伴大会上发布了新一代智能体系统“天禧个人智能体系统（天禧 AS）”，计划于2025年第二季度应用于AI PC、AI手机、AI平板等终端。天禧AS运行在传统操作系统之上，具备跨端运行能力，能实现端侧和个人云混合部署，提供个性化AI助理服务。

来源：IT之家

智谱AI 开源 GLM-PC 基座模型 CogAgent-9B，推动GUI交互自动化技术

智谱AI宣布开源GLM-PC基座模型 CogAgent-9B ，是基于GLM-4V-9B训练的专用Agent任务模型，能仅通过屏幕截图预测GUI操作。CogAgent-9B在GUI感知、推理预测准确性等方面显著提升，支持中英文双语交互。

来源：GLM大模型

阶跃星辰图像生成模型全新升级：支持「图生图」，一键风格迁移！

阶跃星辰宣布其图像生成模型 Step-1X 系列的全新升级版本Step-1X-Medium，性能提升30%，增强了理解能力和图文一致性，支持“图生图”功能，实现细节增强、风格迁移和小范围局部修改。特别强化了“中国风”内容创作能力，能捕捉东方面孔神韵，支持英文文案生成。

来源：阶跃星辰

2024年12月27日·周五

通义从阿里云分拆，并入阿里智能信息事业群，与“夸克”平级

阿里巴巴旗下的AI应用通义从阿里云分拆，加入智能信息事业群，正式转向C端市场。通义系列由达摩院研发，是阿里AI领域的拳头产品。此次调整意味着通义将与 Kimi 、豆包等AI助手竞争，面临缩小与第一梯队差距的挑战。

来源：光子星球

小米正搭建GPU万卡集群，将对AI大模型大力投入

小米正在搭建GPU万卡集群，对AI大模型进行大力投入。该计划已实施数月，小米大模型团队成立时已拥有6500张GPU资源。DeepSeek-V2的关键开发者之一罗福莉，将加入小米。小米大模型技术主攻轻量化和本地部署，已在手机端实现13亿参数级别的大模型，效果接近云端60亿参数模型。

来源：财联社

科大讯飞连续中标7大AI项目，两个月内狂揽11亿大单

科大讯飞旗下讯飞智元中标山东泰安市肥城人工智能行业大模型应用基地项目，投标金额约1.59亿元。项目内容包括智算中心基础设施建设，涉及基建、硬件平台和基础配套软件等。科大讯飞近期已连续中标7大项目，总金额近11亿元。

来源：智东西

2024年12月25日·周三

Qwen开源视觉推理模型QVQ，像物理学家一样更睿智地看世界！

Qwen团队发布开源多模态推理模型 QVQ ，基于Qwen2-VL-72B构建，提升AI的视觉理解和复杂问题解决能力。QVQ在MMMU评测中得分70.3，显著优于Qwen2-VL-72B-Instruct，在数学相关基准测试中表现突出。模型虽有语言混合、递归推理等局限性，但已在视觉推理任务中展现增强能力。

来源：魔搭ModelScope社区

“深思熟虑”的 AI：OpenAI 提出全新安全对齐方法

OpenAI研究人员提出“ 深思熟虑的对齐 ”新方法，旨在提升AI模型安全性。该方法通过直接教授模型安全规范，并训练其在生成响应前推理这些准则，将安全原则融入推理过程中。分为监督微调和强化学习两个阶段，使用模型生成的数据和思维链推理，降低资源需求。o1模型部署此技术后，在StrongREJECT基准测试中得分0.88，显著高于GPT-4o的0.37，同时减少了误拒，准确率高达93%。

来源：IT之家

2025 AI Agent剑指何方？两份前沿报告描绘全景地图

2024年，AI Agent成为热门概念，被视为大模型应用落地的最佳形式。LangChain和Langbase的报告显示，51%的受访者已在生产中采用AI Agent，78%计划近期引入。中型企业最积极，非科技公司与科技公司部署AI Agent的比例相当。OpenAI和谷歌是最受欢迎的大模型提供商。准确性是选择AI Agent的首要因素，其次是安全性和可定制性。AI Agent在研究总结、个人生产力工具和客户服务等领域被广泛采用。性能质量是生产中采用AI Agent的主要顾虑。

来源：钛媒体

做出AI科学家的Sakana AI又放大招，大模型自动搜索人工生命系统

Sakana AI公司开发了搜索人工生命的系统 ASAL ，通过基础模型自动化搜索人工生命模拟，探索可能存在的“生命”。ASAL展示了在多种人工生命基质中发现新生命形式的能力，为人工生命研究提供了新范式，加速了对涌现、进化和智能的理解，有望启发下一代AI系统的发展。

来源：机器之心

杭州CPU黑马宣布数亿元融资，在研服务器AI CPU芯片

国产CPU创企进迭时空完成数亿元人民币A+轮融资，由香港Brizan III期基金领投，资金将用于高性能RISC-V AI CPU和服务器AI CPU产品的研发及市场拓展。公司总部位于杭州，专注于构建面向大模型时代的原生计算平台，助力AI计算机和机器人等新应用发展。进迭时空已布局全栈计算技术，形成软硬全栈计算系统解决方案，推动RISC-V高性能计算芯片规模化进入行业市场，应用于电力、电信、工业等领域。

来源：芯东西

AI视频创企智象未来又拿新融资，数亿元！

AI视频生成公司智象未来（ HiDream.ai ）完成数亿元人民币A轮融资，由合肥产投领投，安徽省人工智能母基金和湖北省长江电影集团等参与。智象未来由加拿大工程院外籍院士梅涛博士创立，专注于视觉多模态基础模型及创新应用。公司自研的“智象大模型”支持文本、图像、视频、3D互生，提供分钟级营销视频生成服务，累计AIGC内容生成量破千万，服务超3万家企业。

来源：智东西

星火浏览器插件新升级！能读会答、能翻译会总结

讯飞星火浏览器插件新升级，集成了讯飞星火V4.0底层能力，支持Chrome、Edge等主流浏览器。新增功能包括“继续提问”以深入讨论获取答案、网页全局对照翻译、一键朗读以及句子段落总结，提升阅读效率。插件以6M+极小内存运行，提供AI搜索、网页总结、划词收藏等功能，旨在让网页阅读与信息搜索更轻松高效。

来源：讯飞开放平台

2024年12月24日·周二

马斯克xAI获60亿美元新融资，和特斯拉和SpaceX大搞AI生态

马斯克的xAI公司宣布完成60亿美元C轮融资，主要投资方包括A16Z、Blackrock、富达管理研究公司等。英伟达和AMD作为战略投资者继续支持xAI基础设施扩展。资金将用于加速基础设施建设、推出数十亿人使用的突破性产品和技术研发，实现公司使命。xAI的新一代旗舰模型Grok 3正在训练中，将推出利用 Grok 、Colossus和X改变人类生活、工作和娱乐方式的新产品。

来源：X.ai

「像素绽放PixelBloom」完成国家队B2轮融资，打造全球AI办公软件超级工场

AIGC科技企业“像素绽放PixelBloom”完成B2轮融资，由北京市人工智能产业投资基金领投。融资将用于产品研发和市场拓展，旨在打造全球AI办公软件超级工场。旗下 AiPPT .com等产品，通过AI辅助PPT制作，已在全球积累超1000万用户。公司从单一产品向平台化战略转变，构建AI办公软件生态，推动行业发展。

来源：36氪Pro

上海国资和腾讯联手投资，“大模型六虎”阶跃星辰获数亿美元B轮融资

AI大模型独角兽阶跃星辰完成数亿美元B轮融资，投资方包括上海国有资本投资有限公司、腾讯投资等。本轮融资将用于基础模型研发，强化多模态和复杂推理能力，扩大C端应用场景。公司由微软前全球副总裁姜大昕博士领导，致力于实现AGI，已发布多款自研基座模型，并与多家企业达成合作。

来源：钛媒体AGI

2024年12月20日·周五

快手可灵 1.6 模型发布，他们又一次超越了自己

可灵近日推出了1.6版本，实现了图生视频的巨大飞跃。更新重点包括物理规律真实感、人物运动表演和语义理解的大幅提升。新版本在切食物、倒茶、跳舞等动作的物理反馈上表现出色，人物表情和动作的细节也更加丰富自然。文本响应度、画面美感及运动合理性均有明显提升。

来源：IT之家

苹果Mac用户狂喜！ChatGPT深度集成应用，支持 Xcode、Notion 等30+应用，AGI彩蛋曝光

OpenAI在第11天的直播中宣布 ChatGPT 与Mac应用的深度集成，特别在编程和写作方面进行了更新。现在，用户可以通过简单的复制粘贴操作，与Warp、XCode等应用协同工作，无需详细交流即可执行任务。ChatGPT支持在语音模式下与Notion、Apple Notes等应用协同工作。新功能已在Mac最新版ChatGPT应用中推出，Windows用户还需等待。

来源：量子位

国家电网发布国内首个千亿级多模态电力行业大模型

国家电网发布了国内首个千亿级多模态电力行业大模型“光明电力大模型”，模型参数规模达到千亿级别，具备电力知识记忆理解、多模态融合分析等能力，被誉为能源电力领域的人工智能“专家”。模型已在中国信通院、电子标准院通过权威检测，专业能力达到“卓越级”，在电网规划、运维、运行、客户服务等多个领域得到应用，提升了电网安全稳定运行和新能源消纳能力。

来源：IT之家

2024年12月19日·周四

人人可享 AI 编程：免费版 GitHub Copilot 上线，VS Code 每月补全 2000 次代码

微软旗下GitHub推出免费版 GitHub Copilot ，支持开发者在Visual Studio Code中免费使用AI辅助编程服务。全球1.5亿开发者现可在VS Code体验AI编程。免费订阅包括每月2000次代码生成和补全，以及50次编程问题解答。用户可选择Anthropic的Claude 3.5 Sonnet或OpenAI的GPT-4o模型，支持第三方智能体。

来源：IT之家

OpenAI 加速普及 ChatGPT，开通免费热线电话，老人机也能用ChatGPT了

OpenAI直播第10天，在美国推出 ChatGPT 热线电话服务，号码是：1-800-ChatGPT，也可以打1-800-242-8478，每月可免费通话15分钟，支持智能手机、老人机和座机各种电话设备与ChatGPT语音对话。OpenAI还集成了ChatGPT到WhatsApp，给这个号码发消息来获取回复，负责回答问题的是4o mini。

来源：量子位

微信公众号新增“作者朗读音色”功能：可生成作者音色全文音频

微信近日推出了“作者朗读音色”新功能，支持用户在阅读公众号文章时通过点击“听全文”来收听作者音色朗读的文章。作者需在“公众号助手”App中录制例句以复刻语气和情感，创建个性化语音。功能目前处于灰度测试阶段，将逐步向用户开放。

来源：微信派

2024年12月18日·周三

AI数据分析公司Databricks一口气融728亿！AI融资新纪录

AI数据分析公司Databricks宣布J轮融资目标为100亿美元（约合人民币728亿元），目前已完成86亿美元，超越OpenAI的65亿美元融资，创下全球AI创企融资新纪录。本轮融资后，Databricks估值达到620亿美元，预计2025年自由现金流将首次为正。公司计划将资金用于开发AI产品、战略性收购及扩展国际市场，满足不断增长的市场需求。

来源：智东西

OpenAI o1 推理模型 API 满血开放，成本暴降60%，定制升级

OpenAI在第9天直播中发布 o1 模型API全面开放，成本降低60%，具有更高可定制性，新增函数调用、开发者消息和图像分析等功能。GPT-4o音频成本降低60%，mini版本价格降低10倍。OpenAI推出了偏好微调方法，通过成对样本比较学习使模型适应特定应用场景。实时API支持WebRTC，简化开发流程，降低价格，提供Python SDK支持。旨在提高开发效率和模型性能。

来源：IT之家

2024年12月17日·周二

智谱完成30亿元新一轮融资，2024年商业化收入翻倍

AI独角兽“智谱”完成30亿元新一轮融资，投资方包括战投及国资，老股东君联资本跟投。资金将用于大模型研发，提升复杂多模态任务处理能力。2024年智谱商业化收入翻倍，API年收入增长超30倍，智谱清言预计年收入超千万，用户超2500万。

来源：智能涌现

Meta Ray-Ban 智能眼镜大更新：“实时 AI”可持续分析用户所见内容

Meta Ray-Ban智能眼镜v11版本更新，引入“实时AI”功能，能持续观察用户所见并进行自然对话，无需唤醒词即可互动，AI能记住用户提问并主动提供建议。更新还包括实时翻译功能，支持英语与西班牙语、法语、意大利语的交流，以及Shazam音乐识别集成。

来源：IT之家

全球最大的仓储机器人公司赴港上市，蚂蚁英特尔是股东

极智嘉作为全球最大的仓储履约AMR解决方案提供商，已向港交所提交招股书，计划在主板上市。极智嘉已连续五年保持领先地位，服务全球约770家终端客户，包括60家财富500强企业。公司三年半累计营收达59亿人民币，其中超70%收入来自中国大陆以外市场。极智嘉专注于AMR解决方案，旨在提高供应链效率，减少人工依赖，计划将IPO募集资金用于研发、市场扩张和供应链发展。

来源：机器人前瞻

2024年12月13日·周五

OpenAI 数据中心提供商Crusoe融资6亿美元，估值28亿美元

OpenAI的数据中心提供商Crusoe在最新一轮融资中筹集了6亿美元，由Founders Fund主导，Nvidia、Fidelity等参与，公司估值达到28亿美元。Crusoe开发AI数据中心，出租Nvidia GPU的云服务。公司正在德克萨斯州阿比林建设大型数据中心园区，将为Oracle和OpenAI提供服务，已筹集34亿美元债务以资助配备Nvidia下一代旗舰芯片Blackwell的项目。

来源：Z Potentials

Google 发布了「虚拟现实」版 Android XR，想让你把熟悉的应用「戴在头上」

Google发布了全新的Android XR操作系统，专为下一代计算构建，兼容各种XR设备，从VR头显到AI眼镜。系统以Android为底层，集成AI能力，提供沉浸式体验，如实时信息查询和多窗口功能。Google提供开发工具包，帮助开发者将2D Android应用快速适配到XR平台。首批搭载Android XR的设备包括三星的Project Moohan VR头显，与高通合作的AR眼镜。

来源：极客公园

千寻智能一年三轮融资数亿元，构建下一代智慧劳动力

千寻智能由产业老兵和清华教授联合创立的具身智能初创企业，已完成三轮融资数亿元。公司采用”数据金字塔”模式，结合互联网视频数据、仿真数据、遥操数据和强化学习，构建能控制各类机器人执行任务的具身模型，目标是打造下一代智慧劳动力。

来源：Z Potentials

OpenAI版《Her》全量来袭：实时视频对话，你每个动作AI都看得见

OpenAI直播第六天，推出”Santa Mode”（圣诞模式），实现《Her》式视频通话功能。可通过点击”雪花”与AI进行圣诞老人风格对话，开启摄像头让AI”看见”你。新功能包括实时视频通话、屏幕共享和图片上传，即日将在 ChatGPT 移动应用中推出。一周内，将向所有团队用户以及大多数Plus和Pro用户开放。

来源：量子位

2024年12月12日·周四

造梦次元完成近亿元人民币融资，多家顶级风投和大厂共同投资

造梦次元完成近亿元人民币A轮融资，由锦秋基金领投，高榕创投、明势创投、商汤科技等参投。公司专注于多模态AI驱动的内容平台，提供虚拟角色互动体验，日均活跃互动时间超100分钟。融资将加速技术研发和市场拓展，优化创作者工具，拓展海外市场，重视内容安全与合规。

来源：Z Potentials

百度文库AI再升级，「专业PPT生成」功能上线！打工人终于有救了

百度文库推出「专业PPT生成」功能，通过AI技术帮助用户一键生成高质量PPT。只需输入关键词或主题，可快速获得内容明确、主题突出的专业演示文稿。新功能采用商务化PPT版式，提供清晰的结构和视觉冲击力，支持个性化编辑，包括字体、颜色和动画效果，助力职场汇报和晋升。

来源：百度文库服务号

OpenAI直播第五天，OpenAI正式成为苹果AI的”贤内助”

OpenAI与苹果达成合作，将 ChatGPT 集成进iOS、iPadOS和macOS系统。此次整合包括Siri协同、写作工具增强和iPhone相机控制功能。用户可通过Siri启用ChatGPT处理复杂任务，撰写和总结文档，基于视觉智能分析拍摄对象。合作使OpenAI成为苹果AI的“贤内助”，直接触达数十亿苹果设备用户，可能改变科技行业格局。

来源：腾讯科技

全球首个”AI 程序员”Devin 全面开放：可独立开发/修复bug，月费500美元

全球首个AI程序员 Devin 已全面开放，支持个人开发者和团队以每月500美元订阅服务，包括Slack集成、IDE扩展和技术支持。Devin能熟练使用多种编程语言，独立完成网站和应用构建、部署，能发现修复代码缺陷。Devin采用沙盒计算环境，内置代码编辑器和浏览器，能快速学习和适应新技术，理解复杂的编程上下文。

来源：IT之家

2024年12月11日·周三

字节内部判断AI对话类产品天花板可能不高，提升剪映即梦优先级

字节跳动反思AI对话产品如豆包的局限性，认为可能仅为AI产品的“中间态”。豆包用户活跃度不高，日均使用时长和频次增长有限，商业化前景不明。字节计划资源转移至多模态产品，提升即梦产品优先级，探索更视觉化、低门槛的AI产品，打造AI时代的“抖音”。即梦月活高达1.7亿，全球排名第二。

来源：智能涌现

ChatGPT语音负责人创业AI语音，a16z首轮重注4000万美金

前ChatGPT语音负责人Conneau，创立 WaveForms AI 专注于音频LLM的新公司，旨在2025年前推出与OpenAI和Google竞争的AI音频产品。已获得a16z领投的4000万美元种子资金，开发能“用耳朵感受AGI”的技术，强调人机互动应与人际互动互补，而非取代。

来源：Z Potentials

字节视频生成模型PixelDance上线豆包，每日免费生成10个视频

字节跳动的PixelDance视频生成模型在豆包电脑版开启内测，用户每日可免费生成10个视频。模型于9月底首次发布。内测反馈，10秒视频切换3-5次镜头效果最佳，场景和角色保持一致性。豆包将持续优化，助力用户创作。

来源：IT之家

2024年12月10日·周二

OpenAI 正式推出视频生成王者 Sora ，网页挤爆了！

OpenAI 正式发布视频生成大模型 Sora 及其新版本 Sora Turbo，提供1080p分辨率、最长20秒的视频生成能力，支持宽屏、竖屏和方形比例。Sora Turbo版本提升了生成速度。所有视频带有C2PA元数据以验证来源。ChatGPT Plus用户每月可免费生成50个480P视频，Pro用户（月费200美元）享有更高分辨率和更长时长。

来源：机器之心

OpenAI强化微调登场：几十条数据o1-mini反超o1暴涨80%，奥特曼：今年最大惊喜

OpenAI的第2天直播推出新功能“强化微调”，仅需几十个例子可创建特定领域的专家模型。CEO奥特曼称为2024年最大惊喜。微调后的o1-mini模型得分提高80%，超过 o1 正式版。OpenAI已开启研究计划，支持开发者申请强化微调API的alpha版本。

来源：量子位

马斯克 X 公司 Grok AI 聊天机器人向免费用户开放，不再是会员专属

马斯克的AI聊天机器人 Grok 已向X的免费用户开放，每两小时可最多发送10条消息。Grok定位为幽默型AI助手，今年增加了文生图功能，用的是Flux模型。

来源：钛媒体AGI

2024年12月7日·周六

OpenAI第一场直播就炸场！o1满血版上线，ChatGPT Pro订阅费：200美元/月

OpenAI发布最强推理模型 o1 满血版及其Pro版本，ChatGPT Pro订阅计划定价为200美金/月，成为全球最贵的大模型订阅服务。满血版o1在数学、代码能力上显著提升，推理速度比预览版快60%，支持多模态输入。Pro版本为订阅用户提供o1满血版的不限量访问权限，展示在高难度科学问答上的卓越表现。

来源：量子位

DeepMind最强「基础世界模型」诞生！

单图生1分钟游戏世界，解锁下一代智能体谷歌DeepMind发布第二代基础世界模型 Genie 2 ，能从单图生成长达1分钟的3D游戏世界。支持键盘鼠标操作，模拟复杂交互和物理效果，为具身智能体提供无限训练数据。Genie 2的涌现能力包括物体交互、角色动画、物理效果等，为AI研究和游戏开发带来新可能。

来源：新智元

谷歌领跑AI视频生成赛道：抢先 OpenAI Sora推出Veo模型，可生成1080P高清视频

谷歌宣布在Vertex AI平台上推出 Veo 模型的私测预览版，面向企业开放。Veo模型能根据文本或图像提示生成1080p高清视频，提供多种视觉风格。Veo生成的视频逼真度极高，如狗狗的毛皮和项圈在运动中保持一致，难以区分是否由AI生成。

来源：IT之家

2024年12月6日·周五

OpenAI官宣12天12场新品发布会

OpenAI宣布将举行为期12天的系列活动，期间每天发布一个新产品或样品。活动将包括备受期待的文字转视频工具 Sora 和新的推理模型。OpenAI CEO透露，周活跃用户数已超3亿，目标是到2025年增至10亿。

来源：财联社

红杉美国最新洞察：2025 年将是 Agent 元年！AI 智能体进入“群体协作”时代

红杉美国合伙人Konstantine Buhler预测，2025年 AI智能体将进入“群体协作”时代，多个智能体网络将协作完成复杂任务。他强调，AI技术将在医疗和教育领域发挥重要作用，降低成本、提高效率，推动社会进步。

来源：有新Newin

文心一言上线“深度写作”专业版功能：会自己搜素材的AI写作

百度AI推出文心一言 “深度写作”专业版，能自动搜索素材并创作个性化文章。可通过上传资料或网盘素材，使内容更具体。适用于多种文档创作，模板将持续更新。

来源：百度AI

刚刚！字节跳动豆包上线图片理解，大模型走向多模态

字节跳动豆包 APP和PC端新增图片理解功能，能识别图片内容并回答相关问题，如景点位置和动漫人物身份。标志着AI大模型向多模态发展，更加实用。豆包已成为中国日活用户最高的AI大模型产品，AI应用行业月活跃用户规模同比增长373%。

来源：钛媒体

亚马逊年末甩王炸！6款大模型、3nm AI芯片、全球最大AI计算集群，苹果罕见站台

亚马逊在AWS re:Invent大会上宣布将推出6款大模型和3nm第三代AI训练芯片Trainum3，以及最强AI服务器Trn2 UltraServer。 Amazon Nova系列模型涵盖文本、图像和视频，Reel模型支持生成6秒视频。AWS与Anthropic合作构建全球最大AI计算集群，Bedrock服务更新包括自动推理检查、多Agent协作和模型蒸馏功能。

来源：智东西

2024年12月4日·周三

全面对决Suno，国产AI音乐三巨头的突围之战

国内AI音乐领域三巨头——字节跳动的海绵音乐、昆仑万维的天工SkyMusic和趣丸科技的天谱乐，正与全球顶级产品Suno展开激烈竞争。通过提供个性化音乐生成、多模态配乐等创新功能，降低音乐创作门槛。

来源：钛媒体

快手预告“可灵 AI”导演共创计划作品 12 月 6 日上线：联合李少红、贾樟柯、叶锦添、薛晓路等

快手宣布“可灵AI”导演共创计划作品将于12月6日上线，计划自9月9日启动，由9位导演联合发起，涵盖多种题材。9部短片全部由可灵AI进行视频生成。可灵AI服务用户已超500万，累计生成5100万个视频和1.5亿张图片，商业化单月流水超千万人民币。

来源：IT之家

全网热评的李飞飞世界生成模型，真的能构建物理世界吗？

李飞飞的空间智能World Labs发布了世界生成模型，一个能从单张图片生成3D物理世界的AI系统，引起AI界热议。该技术突破在于直接生成三维场景，遵循物理规则，具有深度感和空间感，能实现场景控制和动态效果。

来源：腾讯科技

2024年12月3日·周二

OpenAI考虑在AI产品中引入广告

OpenAI首席财务官Sarah Friar透露，公司正在考虑将广告引入AI产品中，寻求新的收入来源。目前没有积极推进广告业务的计划，公司对探索其他收入渠道持开放态度。广告经验团队包括曾在Instagram和谷歌搜索广告团队任职的成员。目前，OpenAI主要通过出售AI模型API访问权限、ChatGPT会员收入和与微软合作获得收益。

来源：第1财经

微信公众号后台新增“AI 配图”功能，支持文章配图和封面配图

微信公众号后台最近推出了“AI 配图”功能，支持创作者通过简单的文字描述在十几秒内生成四张风格和比例可调的候选图片，用于文章配图。极大提高了内容创作的效率，还有效规避了图片版权问题，增强了内容生产的安全性。同时，文章封面图也支持AI配图。

来源：IT之家

ChatGPT两岁，OpenAI 10亿用户计划曝光！

ChatGPT 已经2岁了！OpenAI下一个目标瞄准十亿用户，预计明年放出AI智能体产品。就在生日这天，马斯克还送上了大礼：阻止OpenAI全面盈利的一份诉状书。

来源：新智元

实测腾讯元宝2.0：图文视频啥都能搜，论文绘画全搞定

腾讯元宝2.0 全新升级，集成AI搜索、阅读、生图等功能，打通公众号、视频号等资源，提供深度研究、脑图整理服务。新增创意绘画、灵感图库、AI美照等图片功能，以及应用广场。同时整合腾讯文档、电脑管家、搜狗输入法，提升工作效率和用户体验。

来源：量子位

2024年12月1日·周日

张军：腾讯混元大模型 12 月 3 日将上线视频生成能力

腾讯公司公关总监张军宣布，腾讯混元大模型 12 月 3 日正式上线视频生成能力，用户可以在腾讯元宝 App 中提交申请试用。企业客户通过腾讯云提供服务接入，目前 API 同步开放内测申请。同时，腾讯也将开源该视频生成大模型，参数量 130 亿。

来源：IT之家

中国石油发布 700 亿参数昆仑大模型，与中国移动、华为、科大讯飞联手打造

中国石油与中国移动、华为、科大讯飞合作发布了700亿参数昆仑大模型。模型展示了43个专业和通用应用创新场景，语言大模型参数从330亿升级至700亿，显著提升了自然语言处理等能力。同时，昆仑大模型构建了我国首个勘探全领域专业大模型，并按需构建了21个场景大模型。

来源：中国石油报

我去华强北走了一圈，发现这里正被另一种AI包围

华强北，中国电子制造中心，正被AI技术包围。市场上出现了AI翻译机、AI吉他、AI手机壳等创新产品。尽管华强北以电子元器件和手机配件为主，但其强大的组装能力为AI硬件创新提供了巨大潜力。

来源：硅星人

小马智行纳斯达克挂牌上市，摘得Robotaxi第一股

小马智行（Pony.ai）于11月27日在纳斯达克上市，股票代码“PONY”，成为全球Robotaxi第一股。公司计划以每股13美元发行2300万股ADS，融资额可达2.99亿美元，若超额配售权行使，IPO总募资额约4.52亿美元。小马智行自2018年推出Robotaxi服务，技术核心为“虚拟司机”，已与多家车企和出行平台合作，致力于推动自动驾驶技术商业化落地。

来源：Pony.ai小马智行

2024年11月28日·周四

月之暗面Kimi 联合清华大学等机构，开源共建大模型推理架构 Mooncake

月之暗面 Kimi 联合清华大学等机构推出了大模型推理架构 Mooncake ，项目以KVCache为中心，通过以存换算理念减少算力开销，提升推理吞吐量。Mooncake可以提高大模型在处理任务时的效率和性能，提升推理速度、降低成本、满足处理长文本和高并发需求。就像是为AI模型提供了一个更高效、更省钱的“加速器”，让它们能更好地服务于各种应用，比如智能助手、数据分析等。

来源：月之暗面

《ChatExcel Pro使用教程》上线，3分钟学会用AI Excel解决所有表格问题

元空AI推出的ChatExcel Pro使用教程正式上线，该教程包含Excel处理、数据运算、数据分析和图表生成四大板块，帮助用户通过AI Excel自动化完成工作任务。教程提供练习表格和提示词，用户可通过自然语言描述需求，快速掌握操作。 ChatExcel 支持多表合并、数据查找、逻辑运算等多种功能，大幅提高数据处理速度和准确性。

来源：元空AI

Hugging Face 发布 SmolVLM 开源端侧AI模型：20 亿参数，体积小、速度快

Hugging Face 于11月26日发布了 SmolVLM AI 视觉语言模型，该模型仅有20亿参数，专为设备端推理设计，具备体积小、速度快和内存高效的特点。SmolVLM 提供三个版本：SmolVLM-Base、SmolVLM-Synthetic 和 SmolVLM-Instruct，全部开源。

来源：IT之家

国产大模型首发中文逻辑推理，「天工大模型4.0」o1版来了

昆仑万维推出了国内首款具备中文逻辑推理能力的大模型“天工大模型4.0”o1版（ Skywork o1 ），包含三款模型，其中开源版本Skywork o1 Open参数为8B，显著提升数学和代码指标，并解锁了数学推理任务。Skywork o1 Lite和Preview版本展现了更快的推理速度和深度思考能力

来源：机器之心

华为、阿里、美团等大厂都已下场，“具身智能”会成为一场泡沫吗？

华为、阿里、美团等中国科技巨头纷纷投资具身智能领域，推动人形机器人技术发展。尽管市场热度高，但具身智能的商业化进程缓慢，许多产品仍处于试验阶段。专家预测，到2030年全球AI机器人市场规模将超2500亿人民币，具身智能机器人有望在劳动力紧张背景下迎来发展机遇。

来源：钛媒体

2024年11月26日·周二

月之暗面 Kimi 全量上线 k0-math 数学模型，正式推出“Kimi数学版”

据科技自媒体沃垠AI报道， Kimi 全量上线 k0-math 数学模型，正式推出“Kimi数学版”，采用Self-play RL强化学习和Cot思维链技术，擅长解决数学和推理问题，智力程度可比博士。Kimi数学版能理解模糊表达，进行推理或运算，实测9个问题表现出色，包括自媒体粉丝增长计算、双色球中奖概率等。Kimi数学版在MATH测试中得分93.8，超过o1-mini、o1-preview。

来源：沃垠AI

中国工程院院士邬贺铨：AI 正在从模型层走向“智能体”，具身智能不等于AGI

邬贺铨认为，上云仅是大模型落地的重要环节，但不是唯一的环节。上云（计算平台）不能完全解决大模型落地，还需要下沉到智能终端，如果终端能自我生成文生图、文生视频，会带动手机的更新迭代。

来源：钛媒体

Runway 获得新技能：更改视频比例，图片拥有“电影级”运镜

视频生成AI公司 Runway 推出“Expand Video”功能，支持用户通过文本提示生成额外内容并调整视频比例，保持视觉效果统一。该功能支持动态摄像效果，如快速变焦和拉远镜头，静态画面更加具有电影感。“Expand Video”将逐步向Gen-3 Alpha Turbo用户开放。

来源：IT之家

喊着干掉网站和app的AI公司们，却在豪掷数亿疯抢网址域名

AI公司在宣称AI将取代传统网站和应用的同时，却在域名市场上豪掷数亿人民币。OpenAI以1550万美元购得chat.com，欲将“chat”打造为新时代的“google”。安圭拉因拥有.ai域名后缀，从AI创业潮中获益，域名收入占其GDP的10%以上。国内AI公司则通过注册多个备选域名来应对域名争夺战。

来源：硅星人

2024年11月23日·周六

重磅！OpenAI考虑开发AI浏览器，已聘请2位Chrome浏览器创始人

OpenAI正考虑开发一款结合聊天机器人的AI浏览器，并已与多家网站和应用开发商讨论搜索功能合作。公司还聘请了两位Chrome浏览器创始人，若推出浏览器，将成为Google的直接竞争对手。

来源：Z Finance

谷歌 Gemini 突发试验版模型：重回竞技榜第一，新版 GPT-4o

只领先了 1 天谷歌与OpenAI的竞争升级，谷歌发布Gemini-Exp-1121模型，超越OpenAI的 GPT-4o 重回竞技榜第一。Gemini-Exp-1121在代码、推理和视觉理解能力上均有显著提升，性能全面领先。同时，OpenAI在ChatGPT测试版中被发现有“实时摄像”视频功能代码，预示着未来交流方式可能转向语音和视觉识别。

来源：量子位

李彦宏：百度文库 AI 功能月活用户超 5000 万，同比增长超 300%

百度创始人李彦宏在财报电话会上宣布，百度文库AI 功能月活用户超5000万，同比增长超300%。第三季度订阅收入同比增长23%。百度文库与百度网盘联合推出“ 自由画布 ”工具，首日吸引超20万人预约。百度还发布了AI原生应用“橙篇”和“AI文档助手”，提供文件理解、总结、问答及文档辅助写作功能。

来源：百度

2024年11月22日·周五

扣子Coze OpenAPI进军智能语音领域，提供音色克隆等功能

扣子Coze OpenAPI进军智能语音领域，提供低延时、定制化、随时打断和音色克隆等功能。该技术整合了扣子强大的智能体生态，支持无限游戏、查询天气新闻、口语练习等多种功能。通过智能语音对话OpenAPI，用户可将智能实时对话能力引入自己的应用，如微信小程序、游戏等。目前正处于内测阶段，可免费申请。

来源：机器之心

微软发布 AI Shell 工具，为命令行插上 AI 翅膀

微软发布了AI Shell命令行工具，通过AI简化编码、排查错误和自动化工作流程，为开发者和IT专业人员提供智能化的命令行体验。该工具核心包括Azure OpenAI Agent和Copilot in Azure Agent两个AI智能体，支持自然语言查询、代码生成和Azure CLI命令建议。

来源：IT之家

OpenAI 重夺竞技场第一：ChatGPT-4o 登顶，击败谷歌 Gemini

OpenAI在新加坡开发者日上发布了新版ChatGPT-4o，重点提升了创意写作能力，在竞技场排名中重夺第一。新版4o在创意写作、代码能力和困难任务等方面均有所提升，胜率显著。同时，增加了敏感话题内容政策的护栏功能，确保对话安全。

来源：量子位

2024年11月21日·周四

估值超3500亿！马斯克xAI又融资355亿，用于买英伟达GPU

特斯拉CEO埃隆·马斯克的xAI公司在最新一轮融资中筹集了50亿美元，估值达到500亿美元。新资金将用于购买10万块英伟达芯片，扩大其AI数据中心。xAI的核心产品 Grok 聊天机器人年化收入已达1亿美元，计划12月推出更强大的Grok-3版本。

来源：智东西

快手可灵AI 月营收破千万，累计服务超500万用户快手AI产品

可灵自6月推出以来，累计服务超500万用户，生成5100万视频和1.5亿图片，月营收破千万。快手在AI领域取得显著成果，快意大模型MoE版本以较少参数量实现优于原1750亿参数模型的性能，降低成本同时适配业务需求。

来源：快手科技

2024年11月20日·周三

实测昆仑万维对话AI「Skyo」，会读诗、知晓雷军摆拍

昆仑万维推出 Skyo 实时语音对话助手，基于天工大模型4.0版打造，具备快速响应、实时打断、情感化反应等功能。Skyo在健康常识、情感化反应、实时资讯获知等方面表现出色，能男女声切换、念诗，展现拟人化属性。该产品将于12月上线天工App，接入天工搜索。

来源：机器之心

闪极科技获数千万元A轮融资，新品AI拍摄眼镜将于12月19日发布

「闪极科技」完成数千万元人民币A轮融资，光远投资领投，未来光锥前沿科技基金和云天励飞跟投。资金将用于新品“闪极AI拍摄眼镜”的市场拓展、技术研发及人才建设。该产品将于12月19日发布，主打持久续航、高清拍摄、影音质感及AI能力。

来源：智能涌现

阿里发布 Qwen2.5-Turbo：支持百万超长上下文，性能提升显著

阿里通义Qwen2.5系列更新，新增 Qwen2.5-Turbo 支持百万超长上下文，性能提升显著。上下文长度扩展至1M tokens，推理速度提升4.3倍，成本仅为0.3元/1M tokens。在长文本任务中，Qwen2.5-Turbo超越GPT-4o-mini，且短文本性能不减。模型已在HuggingFace和魔搭社区提供Demo，API服务上线阿里云平台。

来源：量子位

2024年11月19日·周二

AI 成华为Mate70 最大卖点？华为预告片剧透三大功能

华为连发三个视频为Mate70系列预热，每一条宣传文案中均带有“Mate有真AI”的标签，引发外界对Mate70系列AI新功能的猜想。三条视频或分别对应三项AI功能： AI手势、AI分身、AI防窥。这也是华为官宣定档Mate70发布日期之后，首次公开的一系列功能前瞻。

来源：财联社

快手可灵 AI API 能力升级：支持 V1.5 输出 1080P 高清视频、开放 V1.0 视频延长功能

快手的可灵AI 宣布API能力免费升级，推出支持1080P高清视频输出的V1.5高品质模型，相较于V1.0模型，在画面质量、动态效果和文本响应度上均有显著提升。同时，开放V1.0模型的视频延长功能，支持用户续写视频4至5秒，支持多次续写，最长可达3分钟，实现更流畅的场景转换。

来源：可灵AI

闲鱼推出 AI 智能体，已应用于闲置交易全链路

闲鱼近日宣布，已推出闲鱼 AI 智能体，首次将 AI 技术应用于闲置交易领域。据悉，闲鱼 AI 智能体已应用于交易全链路，包括信用体系、智能发布、托管服务、AI 模特试衣和循环商店等。AI 技术也用于提升线下循环商店效率和售后服务，如智能托管和 AI 小法庭，降低了纠纷返单率。

来源：腾讯新闻

银河通用再获5亿融资，累计融资额超12亿，加速具身智能机器人技术发展

银河通用完成5亿元人民币战略轮融资，累计融资超12亿元。公司专注于轮式双臂通用具身机器人Galbot G1，已在工业、物流、教育等领域落地验证，并与美团等达成战略合作。Galbot G1可以抓取随机堆放、从未见过的透明、高光等物体，甚至已进一步掌握类似开柜子、开抽屉、晾衣服等泛化操作技能。

来源：机器人前瞻

2024年11月18日·周一

夸克推出“学术搜索”，每次 AI 回答可引用超 10 篇文献内容

夸克今天宣布上新“学术搜索”AI 产品，依托 AI 技术和亿级学术文献，将大大提高学术工作中信息获取、创作和处理的效率。据官方介绍，夸克与维普、知网等平台共同搭建了总量过亿的专业学术文献题录和全文资料库，夸克学术搜索凭借大模型能力，可以为每次 AI 回答引用 10 篇以上的文献内容，实现多维度的信息归纳和知识整理，确保搜索内容的正确性。

来源：IT之家

天工大模型4.0 O1版（英文名：Skywork O1）将于11月27日启动邀测

昆仑万维集团宣布，将于11月27日启动天工大模型 4.0 O1版（Skywork O1）的邀请测试。该模型是国内首款具备中文逻辑推理能力的o1模型，采用4千亿级参数MoE混合专家模型，并将开源。天工大模型4.0 O1版将推动AI领域发展，提升模型复杂推理能力。

来源：昆仑万维

通义代码模式正式上线，一句话帮你生成应用

通义千问的代码模式正式上线，新功能支持用户无需编程知识即可生成应用，支持前端页面、设计素材、生日贺卡、数据图表、小游戏和精美简历等。代码模式背后的技术基于 Qwen2.5-Coder （在多项基准评测中表现优异的开源代码模型）。用户现在可以通过通义官网体验这一创新功能。

来源：通义

OpenAI 桌面版 ChatGPT 应用登陆微软 Windows，支持拍照识别及语音交流

OpenAI 发布了面向 Windows 10/11 用户的桌面版 ChatGPT 应用，支持拍照识别和语音交流。用户可通过快捷键快速访问，上传文件和图片进行问答。桌面版包含网页版大部分功能，但高级搜索和模式需订阅20美元/月的ChatGPT Plus。Windows版还支持截图和自定义快捷键，提供GPT-4o、DALL-E 3等模型。

来源：IT之家

讯飞星火多模态交互大模型上线，数字人/语音/视觉支持一键全调用

多模态交互大模型正式上线，实现语音、视觉、数字人交互三合一，支持一键调用。模型首发超拟人数字人技术，能精准匹配语音内容生成表情动作，实现跨模态语义一致性，AI情感表达真实连贯。同时支持多模态视觉交互，能全面感知背景场景、物流状态等信息。

来源：讯飞开放平台

谷歌 Gemini 发布苹果 iOS 版 App：集成灵动岛，支持 AI 语音聊天

谷歌推出了专为iPhone设计的 Gemini AI应用，集成了iOS的灵动岛功能，支持用户通过文本或语音与AI进行互动。新应用还带来了Gemini Live功能，用户能在灵动岛和锁屏上直接管理AI对话，无需切换应用。目前，已在澳大利亚、印度、美国和英国等地区上线，国区尚未支持。

来源：IT之家

2024年11月14日·周四

智谱发布「智谱清流」企业级AI智能体开发平台

智谱推出企业级AI智能体开发平台“ 智谱清流 ”，助力企业AI应用落地。智谱清流提供Agents、Workflow、知识管理等工具，支持API、SDK、URL集成，无需编程即可构建AI应用。平台还提供全程陪跑服务，包括专业咨询和定制AI培训，帮助企业实现业务流程全面AI化。

来源：智谱AI

阿里在海外推出对话式 AI 搜索引擎 Accio，面向全球商家开放

阿里巴巴在海外推出了对话式AI搜索引擎 Accio ，定位全球商家的个人采购代理。Accio通过分析供货商、定制范围、价格等信息，帮助用户筛选合适的商家和商品。试运行期间，转化率提升了20%-30%，商品量已达亿级。Accio支持英语、德语、法语、西班牙语和葡萄牙语。

来源：IT之家

AI代码编辑器 Cursor 母公司收购 Supermaven

据 TechCrunch 报道，AI 代码编辑器 Cursor 的母公司 Anysphere 收购了AI编程助手 Supermaven ，收购金额未披露。Supermaven 将使 Anysphere 能够推出新版 Tab AI 模型，该模型 “快速、可感知上下文且高度智能”，尤其是在长代码序列方面。Supermaven的插件将继续保留，但 Cursor 将成为团队的核心重点。

来源：TechCrunch

2024年11月13日·周三

端侧非自回归图像生成基础模型Meissonic登场，超越SDXL

Meissonic ，一种新型端侧非自回归图像生成模型，其高效、高分辨率的图像生成能力超越了SDXL。该模型通过增强型Transformer架构、先进的位置编码和特征压缩层等技术改进，在图像质量和细节上与领先扩散模型相媲美。Meissonic在8GB显存下即可运行，为中低端显卡用户提供了便利，同时展现了强大的zero-shot图像编辑能力。

来源：新智元

百度发布小度 AI 眼镜：全球首搭中文大模型，支持边走边问、第一视角拍摄等

在今日的 2024 百度世界大会上，百度正式发布了小度 AI 眼镜，称该产品为“全球首款搭载中文大模型的原生 AI 眼镜”。据百度官方介绍，小度 AI 眼镜具备第一视角拍摄、边走边问、卡路里识别、识物百科、视听翻译、智能备忘等功能。预计小度 AI 眼镜将于明年上半年正式上市。

来源：IT之家

Qwen2.5-Coder深夜开源炸场，Prompt编程的时代来了！

通义千问团队开源了 Qwen2.5-Coder 系列，强大且多样化的开源代码模型，包括代码生成、修复和推理等，并在多个基准测试中达到行业领先水平。该系列提供从0.5B到32B的模型尺寸，Qwen2.5-Coder-32B-Instruct在多个基准测试中表现出色，与GPT-4o相当，支持40多种编程语言，并在多语言代码修复上排名第一。

来源：魔搭社区

OpenAI大改下代大模型方向，scaling law撞墙？AI社区炸锅了

OpenAI可能正在调整其大模型发展策略，因为最新旗舰模型Orion性能提升不如预期，且面临数据储量耗尽问题。AI行业正转向训练后模型改进，探索新的scaling laws。OpenAI内部对此有争议，一些研究者认为AI发展不会放缓，而其他人则看到了性能提升的递减趋势。

来源：机器之心

2024年11月12日·周二

Suno发布V4版本音乐生成模型音频演示视频，音质和风格大提升

Suno公司发布了其AI音乐生成模型V4版本的首批音频样本，表示将会很快发布 V4版本模型。新版本模型在自然音效、多样性和一致性方面都有较大改进。官方尚未透露技术规格和新功能， Suno 最近增加了 “角色 ”功能，有助于在生成的多首歌曲中保持音乐风格的一致性。

来源：品玩

黄仁勋两万字访谈实录：希望英伟达拥有 5 万名员工和 1 亿个 AI 助手

英伟达CEO黄仁勋在对话中预测，个人AI助手将很快出现并不断进化，未来英伟达将拥有5万名员工和1亿个AI助手。英伟达的使命是构建一个无处不在的计算平台，推动智能向通用人工智能（AGI）发展。黄仁勋认为，AI将改变工作，对人们如何看待工作产生深远影响，而AI的安全和开源模型对行业激活至关重要。

来源：APPSO

OpenAI押注的1X解锁新场景，人形机器人化身大厨煎牛排

OpenAI押注的机器人公司1X Technologies（简称1X）正式推出专为家庭设计的人形机器人原型NEO Beta（下称NEO）。日前该机器人解锁了新场景——厨房，NEO和网红厨师Nick DiGiovanni进行了一场家庭烹饪对决，比赛做出完美的五分熟牛排。

来源：财联社

谷歌 AI 视频编辑应用 Google Vids 上线：帮你写脚本、剪片、找素材等

谷歌宣布正式面向 Google Workspace 用户推出 Google Vids 应用。Google Vids 集成了 Gemini 大模型，可以帮助用户创建幻灯片、编写视频脚本，并从 Shutterstock 寻找素材，还可以为整个视频制作分镜头脚本。

来源：IT之家

2024年11月9日·周六

Perplexity 即将完成新一轮融资，估值或将达到90亿美元

据 The Information 报道， Perplexity 新一轮融资即将完成，估值将达到 90 亿美元。据悉次轮融资由Institutional Venture Partners 进行领投，投资金额为 5 亿美元。这次融资是 Perplexity 今年的第四轮融资，而 Institutional Venture Partners 此前也多次对该公司进行投资。

来源：品玩

小鹏AI机器人来了！身高1米8，用上大模型，已进厂拧螺丝

小鹏汽车在AI科技日上发布了AI机器人Iron，这款1.8米高的机器人拥有62个自由度，手部灵活且具备触觉反馈。采用了小鹏自研的图灵AI芯片和天玑AIOS，已在小鹏广州工厂投入生产小鹏P7+。Iron的设计考虑了人类生理特征，提高用户和社会的接受度。

来源：机器人前瞻

消息称王慧文回归美团，带队独立探索 AI 应用

《智能涌现》援引多个独立信源报道，原美团联合创始人、光年之外创始人王慧文如今已经回归，在美团带队探索 AI 应用。王慧文所在的美团 AI 团队被称为 GN06。该团队目前的主要业务方向包括情感陪伴、聊天机器人等。GN06的主要产品之一，是在2023年11月上线的AI情感陪伴产品 Wow 。

来源：智能涌现

达摩院发布八观气象大模型：精度达1小时1公里，率先落地新能源场景

阿里巴巴达摩院发布八观气象大模型，时空精度达1小时1公里，提升新能源电力系统预测性能。模型融合多源数据，提高辐照度、风速等气象指标预测精度，助力国网山东电力调控中心应对极端天气，提升新能源发电功率和电力负荷预测准确率至96%和98%以上。

来源：机器之心

2024年11月8日·周五

昆仑万维重磅发布天工AI高级搜索功能，做最懂金融投资、科研学术的AI搜索

昆仑万维集团发布天工 AI高级搜索功能，提供金融投资和科研学术领域的专业搜索体验。通过升级推理能力、金融投资和科研学术专业搜索，以及文档AI阅读分析的优化，实现精准、高效的问题解答。

来源：昆仑万维

Perplexity CEO 最新洞察：AI 产品除订阅还有许多变现路径，API 成本每半年减少 50%，未来将专注增长

Perplexity CEO 在TechCrunch Disrupt上讨论了AI搜索的未来和产品策略。他强调 Perplexity 将根据用户需求开发功能，替代传统搜索引擎。商业化方面，他提到AI行业运营成本高昂，但API成本正下降，Perplexity将探索灵活的广告变现模式，并推出Perplexity Publisher Program，通过广告收入分享和定制AI助手，帮助媒体和内容创作者参与AI搜索生态。

来源：有新Newin

马斯克的xAI放大招了！Grok API开启公测，每月25美金免费额度，人人可参与

马斯克的xAI公司推出了Grok API公测，提供每月25美元的免费额度。新模型grok-beta性能提升，即将推出多模态版本。预付费用户将获得额外免费额度。xAI API兼容OpenAI和Anthropic SDK，易于迁移。开发者可在console.x.ai注册参与公测。

来源：腾讯新闻

估值超140亿、OpenAI贝佐斯下场，这家让机器人装AI“大脑”的公司获28亿新融资

利用AI技术帮机器人造“大脑”的美国独角兽公司物理智能（Physical Intelligence）宣布完成4亿美元（约合人民币28.39亿元）融资。本轮由亚马逊创始人Jeff Bezos、风险投资公司Thrive Capital和Lux Capital领投，其他投资者包括OpenAI、Redpoint Ventures和Bond，投前估值达20亿美金（约合人民币141.94亿元）。

来源：钛媒体

15岁山东初中生做CTO，开源项目刚刚被数百万元收购了

15岁山东初中生zmh成为CTO，其开源项目ChatNio被数百万元收购。项目集成了多个AI模型，提供全面服务，包括chatbot、图像生成等，并以高性价比获得超过10万月活用户，实现每月约5万净利润。zmh虽年轻，但已拥有7年项目开发经验，技能涵盖全栈开发、网络安全等领域。

来源：机器之心

Meta公布机器人触觉感知研究成果：用手指传感器结合“AI大脑”理解/操作外界物体

Meta 发布新闻稿，介绍了旗下 FAIR（基础人工智能研究）团队对于机器人触觉感知能力的研究情况，这项研究旨在让机器人通过触觉方式进一步理解和操作外界物体。团队目前开发的机器人触觉感知能力主要就是为了让机器人检测其交互的物体的材质与触感，让 AI 判断机器人应当如何操作这些设备（例如拿起鸡蛋等场景）。

来源：IT之家

2024年11月3日·周日

首关15亿元，中国大模型独角兽智谱AI要学美国OpenAI当基金LP

智谱边找钱、边撒钱，当起“攒局者”。截至目前，智谱Z计划已累计链接1200+大模型初创项目，其中投资超过20家、孵化超过30家企业。11月1日消息，国内大模型独角兽公司智谱AI宣布，领衔并联合石景山现代创新产业发展基金、奥飞数据、燕北资本、复琢投资等设立的风险投资基金“Z基金”（智谱生态基金）于近期完成首关，管理规模15亿元人民币，投资方向主要覆盖大模型赛道，侧重早期。

来源：钛媒体

知乎直答新功能上线，「专业搜索」带来更高效的知识获取方式

知乎AI搜索产品知乎直答正式上线“专业搜索”功能，引入维普、知乎精选等专业内容源，涵盖超过5000万篇中英文文献数据，极大满足广大用户对于高质量信息的需求。同时，知乎直答“专业搜索”支持文件上传和超长文件解析，并针对提供单篇精读、指定来源问答等功能，更加契合专业人士的生产力场景。

来源：知乎日报

正式挑战谷歌！OpenAI上线ChatGPT搜索功能

搜索功能先上线付费版ChatGPT Plus和Team，未来几个月内面向所有免费用户；搜索模型为GPT-4o微调版本，后训练得到o1-preview输出支持； ChatGPT 可根据用户询问搜索网络，用户也可点击搜索图标手动搜索；提供天气、体育比赛、股票、地图等搜索信息，聊天时得到的搜索信息提供来源侧边栏。

来源：华尔街见闻

继 ChatGPT 后，Anthropic 旗下 Claude AI 推出桌面客户端

继 ChatGPT 后，目前又有一款海外流行的人工智能 Claude AI 发布了桌面版客户端，目前相关客户端处于测试状态，支持 Windows / macOS / iOS 平台。Anthropic 在 X 平台官宣了这一消息，同时透露用户可以使用热键快速唤起客户端界面，不过 Claude AI 客户端定位 AI 搜索引擎，与 OpenAI 的 ChatGPT 客户端聊天有所差异。

来源：IT之家

2024年11月2日·周六

苹果最强AI PC登场！首搭M4 Max芯片，续航飙到24小时

苹果M4系列MacBook Pro终于来了！与上一代相比，新款MacBook Pro的外观几乎没有变化，价格仍为12999元起。其中的重点更新就是全系搭载M4系列芯片、支持苹果AI，并首搭雷雳5接口、纳米纹理显示屏以及支持视频人物居中的1200万像素前置摄像头，续航最长达到24小时，30分钟就能充一半电。

来源：智东西

百川智能推出一站式大模型商业化解决方案

百川智能推出一站式大模型商业化解决方案，即1+3产品矩阵（全链路优质通用训练数据，Baichuan4-Turbo、Baichuan4-Air两款模型和全链路领域增强工具链），该方案支持企业将专有数据与百川智能自用的全链路训练数据混合，对Baichuan4-Turbo、Baichuan4-Air两款模型进行调优和增强，实现了96%多场景可用率。

来源：智东西

OpenAI ChatGPT 高级语音模式已登陆 Windows 和 Mac 平台，对话更自然 OpenAI

ChatGPT 的高级语音模式（Advanced Voice Mode，简称 AVM）现已登陆 Windows 和 Mac 平台。AVM 基于 OpenAI 最先进的 GPT-4o 模型运行，允许用户像与真人对话一样与 ChatGPT 进行交流，包括打断、停顿等自然语言行为。OpenAI 表示，AVM 提供了更自然、实时的对话体验，能够实时感知和回应用户的情绪。

来源：IT之家

2024年10月30日·周三

豆包正式开放视频生成内测申请入口，用豆包电脑版可加速审核

豆包正式开放视频生成内测申请，图片文字一键成片。豆包视频生成具备出色的语义理解能力，能将信息转化为生动逼真的视频内容。支持酷炫的动态和运镜，多镜头保持一致，风格比例随意挑选。官方提示使用豆包电脑版可加速审核。

来源：豆包

中国AI应用10月广告投放超3亿元，中美 AI 大模型开始“分道扬镳”

2024年，中国、美国之间的 AI 大模型竞赛不再只是“追赶”，而是开始各不相同：中国AI大模型“卷”算力、“卷”价格，而且“卷”获客、“卷”变现能力；美国 AI 专注于前沿 AI 模型技术研究，并且加速 AI 应用和落地。钛媒体独家获悉，截至10月29日， Kimi智能助手、字节跳动豆包、腾讯元宝等所有 AI 应用10月全网广告投放（投流）支出超过3亿元人民币。

来源：钛媒体

阿里巴巴国际站推出升级版AI外贸产品：AI生意助手2.0

阿里巴巴国际站推出升级版AI外贸产品： AI生意助手2.0 ，包含四个AI Agent，覆盖发品、接待、营销和合规等外贸经营难点，旨在提升转化率和创造增量生意。AI助手能实时洞察买家需求，提供个性化服务，全球已有超6万中小企业使用。总裁张阔预测，未来外贸将全面AI化，80%的新增商业价值将在AI驱动下重新分配。

来源：阿里巴巴国际站

围攻谷歌！Meta秘密训练AI搜索引擎8个月，苹果与OpenAI发力

据The Information报道，Meta正在秘密研发一款自己的AI搜索引擎，旨在提升其Meta AI聊天机器人的搜索能力，并减少对谷歌和微软两大科技巨头的依赖。据报道，该项目已经持续了8个月，目标是为Meta AI聊天机器人提供独立的时事信息检索服务，降低因与苹果、微软等公司外部协议变动所带来的潜在风险。

来源：智东西

2024年10月29日·周二

爱诗科技正式发布PixVerse V3，新增创意模板、对口型、视频延长等功能

爱诗科技正式发布了 PixVerse V3 ，具备多模态生成能力，包括创意模板、对口型、故事续写和风格转换。能精准理解提示词，生成有情感和质感的视频，实现现实与虚拟的融合。PixVerse V3支持多种视频比例和风格化功能，新增对口型功能，能自动适配视频中人物的口型。Effect功能提供了8个创意效果，支持类似Pika的“捏爆”特效。

来源：爱诗科技

MiniMax：7000万美金营收下的甜蜜和隐忧

MiniMax的AI应用Talkie在海外市场表现出色，预计年收入超过7000万美元，成为公司主要收入来源。Talkie自2023年6月上线以来，迅速占据全球陪伴类AI应用下载量前三，吸引大量用户并实现高付费率。尽管国内版本“ 星野 ”未能复刻其成功，MiniMax仍计划拓展东南亚市场，以应对营收来源单一的风险。

来源：智能涌现

神秘模型“小熊猫”一夜刷屏：排名超Flux、Midjourney

神秘文生图模型”red_panda”（小熊猫）近日走红，其ELO得分超过Flux 1.1 Pro，胜率高达79%，每7秒生成一张图像。该模型无人认领，引发广泛猜测，可能来自中国厂商或Midjourney V7等。量子位进行了实测，red_panda在竞技场中表现强劲，但并非压倒性胜利。

来源：量子位

2024年10月28日·周一

谷歌 DeepMind 开源 SynthID Text 工具，可辨别 AI 生成的文字

谷歌DeepMind开源了SynthID Text工具，这是一个可以辨别AI生成文字的水印工具。SynthID Text通过分析文本中特定Token的概率分数来识别AI生成的内容，不影响输出质量和准确性。谷歌DeepMind的SynthID-Text文本水印技术登上Nature杂志封面，并已开源。

每日AI简报

阿里通义千问推出视觉推理模型 QVQ-Max：可分析、推理图片和视频内容

GPT-4o「吉卜力风」一夜爆火，奥特曼连夜换头像！宫崎骏痛批AI侮辱生命

华为ModelEngine全流程AI开发工具链正式开源！

豆包新版深度思考开启测试，支持边想边搜

可灵AI平台全面升级，新增AI音效与资产管理功能 快手科技旗下的

阿里开源全模态模型Qwen2.5-Omni，7B尺寸实现全球最强性能

腾讯ima知识号正式上线，助力知识创作与管理

DeepSeek全新版本API上线讯飞星辰MaaS平台

OpenAI宣布Agent SDK 正式支持 MCP 服务，解锁无限工具扩展

微信 AI 搜索新增“快速思考”，采用混元 T1 模型

谷歌发布Gemini 2.5 Pro，多项测试夺冠，推理能力全面超越OpenAI

昆仑万维发布全球首款音乐推理大模型Mureka O1，中国AI音乐革命领跑全球

OpenAI发布GPT-4o图像生成功能，免费向用户开放

它石智航官宣天使轮融资1.2亿美元，开启具身智能创业新征程

谷歌Gemini Live推出实时AI视频新功能，实时交互能力再升级

智元发布首个通用具身基座大模型GO-1

超算互联网QwQ-32B API接口服务上线，免费100万Tokens 超算互联网

北京大学联合华为发布全栈开源DeepSeek推理方案

CAMEL-AI推出OWL项目：0天复刻Manus，开源且性能卓越

OpenAI 更新 macOS 版 ChatGPT，可在 Xcode 等 IDE 中直接编辑代码

通义千问QwQ-32B，更小尺寸，性能比肩全球最强开源推理模型

逐际动力半年完成5亿元融资，阿里、蔚来、联想等巨头加持

智源开源多模态向量模型BGE-VL：多模态检索新突破

Vidu API 开放平台全面开放，开启智能化内容生产范式

OpenAI宣布提供3.6亿，联合15个大学和机构建立NextGenAI教育联盟

智谱发布开源图像生成模型CogView4，首个支持中英双语，图像生成迎来新突破

通义灵码上新Qwen2.5-Max模型，体验数学和编程双冠王能力

Anthropic完成35亿美元E轮融资，估值飙升至615亿美元

秘塔AI搜索推出视频搜索功能，高效学习娱乐新体验

百川智能调整业务布局，聚焦医疗领域

智谱AI完成超10亿元新轮战略融资，杭州城投产业基金参与投资

中国首款AI IDE：Trae国内版发布，配置豆包1.5pro，支持切换满血版DeepSeek模型

MiniMax Video-01系列收官，海螺视频App全球上线

稀宇科技 科大讯飞星火X1升级，推出星火一体机及多款新品

亚马逊推出Alexa+：五大技术突破 AI 助手新体验 亚马逊云科技宣布推出

夸克AI搜索上线深度思考，新亮点，新体验！

DeepSeek API 错峰优惠，R1 价格降至1/4

ChatGPT 变身苹果 Safari 浏览器默认搜索引擎

Perplexity 官宣“Comet”浏览器，主打“AI 智能体搜索”

字节AI加速调整，豆包正测试深度思考模型，暂未接入DeepSeek

LiblibAI一年内完成四轮融资，再次斩获数亿元资金

爱诗科技推出PixVerse V4：5秒生成AI视频，音画同步

AIsphere LiblibAI 作为独家 AIGC 创作合作平台接入阶跃开源视频生成大模型

马斯克宣布 Grok 3 语音模式早期测试版已上线

小红书将接入DeepSeek，AI搜索“点点”iOS版下载量总计约20万

DeepSeek 官宣下周陆续开源 5 个代码库，每日解锁新内容

Spotify 启动 AI 配音有声书服务，29 种语言可供选择

腾讯元宝升级：DeepSeek图生文功能上线

「捏 Ta」X「清影」达成战略合作，多模态模型商业化持续发力

ima App安卓端正式上线 云存储空间扩容至2GB

xAI 公司宣布 Grok 3 限时免费开放，直到服务器不堪重负为止

Codeium 获新一轮融资，估值推至 28.5 亿美元

「灵境AI」完成数百万元种子轮融资，打造AI时代文创IP“造梦新基建”

「灵宝CASBOT」完成超亿元天使轮融资，加速推进人形机器人量产进程

硅基流动完成新一轮亿元人民币融资

阶跃星辰联合吉利首次开源，为开源世界贡献多模态力量

秘塔AI搜索推出“浅度研究”功能，2-3分钟完成数百网页分析

昆仑万维开源中国首个面向AI短剧创作的视频生成模型，重塑AI短剧行业格局

xAI即将发布Grok 3，马斯克称之为“地球上最聪明的人工智能”

腾讯多款产品接入DeepSeek-R1模型，全面升级AI体验

中国AI变局：腾讯、百度接入DeepSeek模型，字节反思，“大模型六虎”加速分化

通义灵码全新上线模型选择功能，新增支持 DeepSeek-V3 和 DeepSeek-R1 模型

昆仑万维发布Matrix-Zero世界模型，开启空间智能新时代

谷歌 Gemini 宣布上线“全局记忆”功能，订阅用户可令 AI 回忆曾经所有对话

OpenAI 将在未来几个月内推出 GPT-5：整合 o3 等多项技术，可免费无限使用

文心一言 4 月起全面免费，上线深度搜索功能

Agentic GLM全面登陆三星最新款手机Galaxy S25

苹果抛弃DeepSeek，选择与阿里合作开发中国iPhone AI 功能

七家国产芯片鼎力支持！无问芯穹异构云打通DeepSeek-R1多芯片适配优化

OpenAI、谷歌、Roblox 等联手，成立新组织以保障 AI 时代儿童安全

庖丁科技宣布完成新一轮融资，金山办公及顺为联合领投

沙特将向 AI 芯片创企 Groq 投资 15 亿美元，支持后者在沙 AI 基础设施扩建

OpenAI CEO 深夜发文：AI 成本每年暴跌 10倍，2035 年人人都有超级大脑

晚点对话王小川丨不是文本创作、不是物理模型，AGI 的尽头是生命科学

VideoWorld开源：多方合作打造仅靠视觉认知世界的视频生成模型

美国网约车巨头 Lyft 同 Anthropic 达成合作：Claude 将为百万司机提供服务

昆仑万维旗下天工AI正式上线DeepSeek R1+联网搜索

软银即将完成对 OpenAI 的 400 亿美元投资，超越微软成为最大金主

OpenAI 更新 o3-mini 模型思维链展示方式，提高 AI 推理透明度

可灵AI平台全面升级，新增AI音效与资产管理功能快手科技旗下的

稀宇科技科大讯飞星火X1升级，推出星火一体机及多款新品

亚马逊推出Alexa+：五大技术突破 AI 助手新体验亚马逊云科技宣布推出

ima App安卓端正式上线云存储空间扩容至2GB