音视频技术开发周刊

每周一期，纵览音视频技术领域的干货。

新闻投稿：contribute@livevideostack.com。

Meta牵头组建开源「AI复仇者联盟」，AMD等盟友800亿美元力战OpenAI英伟达

超过50家科技大厂名校和机构，共同成立了全新的人工智能联盟。以开源为旗号，誓于OpenAI和英伟达一决高下。

深度学习大牛权威预测2024年AI行业热点，盘点开源AI趋势！

AI社区大佬Sebastian总结了2023年全年AI行业的热点和问题，针对开源社区和AI研究的热点问题给出了自己读到的解读和发展建议，精彩内容千万不能错过。

跨语种「AI同传」震撼登场！Meta谷歌连发重大突破，颠覆语音翻译

Meta谷歌接连放出重磅成果！Meta开源无缝交流语音翻译模型，谷歌放出无监督语音翻译重大突破Translation 3。

AI颠覆材料学！DeepMind重磅研究登Nature，预测220万晶体结构赢人类800年

继AlphaFold系列改变了生物学领域之后，谷歌DeepMind今日再发Nature，全新AI工具GNoME，成功预测220万种晶体结构，颠覆了材料学领域。

Gemini：我们规模最大、能力最强的 AI 模型

每一次技术的变革都是推进科学发现、加快人类进步和改善人们生活的机会。我相信我们此时正在见证的 AI 转变将是我们一生中影响最为深远的转变，其影响力远超过移动技术或互联网的转变。AI 有着为世界各地的人们创造机会的潜力，无论是在日常生活中还是在铸就非凡成就方面。它将带来新一轮的创新和经济进步，并以前所未有的规模推动知识、学习、创造力和生产力的发展。

横扫13个视觉语言任务！哈工深发布多模态大模型「九天」，性能直升5%

哈工深发布全新多模态大语言模型九天（JiuTian-LION），融合细粒度空间感知和高层语义视觉知识，在13个评测任务上实现了sota性能。

脑机接口重要突破！国内团队成功实现「全谱汉语解码」：Top 3准确率接近100%

国内团队实现对脑机接口汉语解码「零的突破」，系统覆盖了全部407个汉语拼音音节以及汉语发音特点，句子完全正确率高达30%！

全球首个开源多模态医疗基础模型：人工打分平均超越GPT-4V、支持2D/3D放射影像

本文中，上海交大 & 上海 AI Lab 发布 Radiology Foundation Model (RadFM)，开源 14B 多模态医疗基础模型，首次支持 2D/3D 放射影像输入。

手机上0.2秒出图、当前速度之最，谷歌打造超快扩散模型MobileDiffusion

近日，来自谷歌的一篇论文「MobileDiffusion: Subsecond Text-to-Image Generation on Mobile Devices」，提出了手机端最快文生图，在 iPhone 15 Pro 上只要 0.2 秒。论文出自 UFOGen 同一团队，在打造超小扩散模型的同时，采用当前大火的 Diffusion GAN 技术路线做采样加速。

3D Gaussian Splatting的福音！快速提取精确且可编辑的3D网格来啦！

本文介绍了一种从3D Gaussian Splatting表示中快速提取精确且可编辑的网格的方法。该方法利用Gaussian Splatting的渲染速度快、训练速度慢的特点，通过引入正则化项鼓励Gaussian Splatting表示与场景表面对齐，并使用Poisson重建方法从Gaussian Splatting表示中提取网格。此外，该方法还引入了一种优化策略，将Gaussian Splatting表示与网格一起优化，通过Gaussian Splatting渲染实现高效的编辑、雕塑、动画和重新光照。这种方法能够在几分钟内检索到具有更好渲染质量的可编辑网格，相比于从SDF中提取网格的方法需要几个小时。

使用库普曼线性化以及数据驱动的批量定位和SLAM

本文提出了一个无模型批量定位和SLAM的框架。我们使用提升函数将控制仿射系统映射到高维空间，其中过程模型和测量模型都被渲染为双线性。在训练过程中，使用真实数据求解一个最小二乘问题，以纯粹从数据中计算与提升系统相关的高维模型矩阵。在推理时，通过一个优化问题来解决未知的机器人轨迹和路标，其中引入了约束，以保持解在提升函数的流形上。使用序列二次规划( SQP )有效地解决了该问题，其中SQP迭代的复杂度与时间步数呈线性比例关系。

UWB雷达SLAM：一种在视觉拒止的室内环境中的无锚点方法

激光雷达和相机常被用作同步定位与地图构建( SLAM )的传感器。然而，这些传感器在低能见度(例如烟雾)或具有反射面(例如反射镜)的地方容易失效。另一方面，电磁波在波长增加时表现出更好的穿透特性，因此不受低能见度的影响。因此，本文提出了超宽带( UWB )雷达作为现有传感器的替代方案。UWB通常被用于锚点-标签SLAM系统。在环境中安装一个或多个锚点，并将标签附着在机器人上。

https://ieeexplore.ieee.org/document/10175555/

iPhone 15 Pro+三方软件，开拓“空间视频”平民时代

2023 苹果秋季发布会上，iPhone 15 Pro 系列带来了一个彩蛋功能——空间视频拍摄。该功能将 iPhone 与 Vision Pro 进行了生态联动，不仅增强了 Vision Pro 的用户生活场景，更能为明年 Vision Pro 的销售埋下伏笔。

评测丨一键成为虚拟偶像？索尼mocopi会是新的动捕黑科技吗？

此前，一名游戏动捕演员“曦曦鱼SAKANA”走出幕后，在b站发布了多条关于不同风格游戏角色的动作捕捉视频，因其传神的动作与表情获得了观众的高度认可，不少观众纷纷表示“仿佛看到了xx角色本人”。

Varjo最新VR/MR头显XR-4开始面向专业消费者提供

在过去，Varjo的设备主要面向企业市场，定价高昂，而且购买需要咨询问价。对于这家公司刚刚发布的全新XR-4系列头显，这是一款无需支付高额年费且直接向专业消费者销售的旗舰设备。

亚马逊AI芯片，深度解读

亚马逊网络服务可能不是第一家创建自己的定制计算引擎的超大规模提供商和云构建商，但它紧随谷歌之后发布了自研的AI芯片——谷歌于 2015 年开始使用其自主研发的 TPU 加速器来处理人工智能工作负载。

GPU，巨变前夜

在3D图像学中，对于真实场景和物体的高精度建模/渲染一直是整个学界梦寐以求的目标之一。在过去几十年中，3D场景和物体建模的主流方式是基于多边形（ploygon mesh）的建模，即把一个3D建模的物体表面近似为由大量多边形组成，而多边形数量越多，则3D建模和真实物体/场景越接近。

3D封装，成本最优的选择？

当 2.5D 和 3D 封装最初被构想出来时，普遍的共识是只有最大的半导体公司才能负担得起，但开发成本很快就得到了控制。在某些情况下，这些先进的封装实际上可能是成本最低的选择。

苹果芯片实验室首次对外公开！

美国 CNBC 发布新闻报道，称于今年 11 月访问了苹果位于加州库比蒂诺的园区，首次获批公开了苹果芯片实验室内部场景。

空间音频体验与评价方案

区别于传统单通道和立体声音频，3D音频是一种带来三维沉浸式音频体验的新范式，其在制作、传输分发、端侧渲染端到端全链条都引入了更复杂的音频数据存储格式、编解码策略以及音效算法，继而为消费者带来了更身临其境的音频体验感以及空气感（eg：戴上耳机听音频，感觉就像没戴耳机且听到身边真实三维世界的声音一样），极有潜力成为未来交互式社交、沉浸式多媒体创作&娱乐、XR等产业的技术底座。

任意文本、视觉、音频混合生成，多模态有了强大的基础引擎CoDi-2

今年 5 月，北卡罗来纳大学教堂山分校、微软提出一种可组合扩散（Composable Diffusion，简称 CoDi）模型，让一种模型统一多种模态成为可能。CoDi 不仅支持从单模态到单模态的生成，还能接收多个条件输入以及多模态联合生成。

https://arxiv.org/pdf/2311.18775.pdf

如何优化智能扬声器的语音和音频测试？

智能扬声器已经风靡千家万户，消费者满意度与其智能扬声器对语音命令的理解程度密切相关。语音清晰度和音质对于领先的平台提供商至关重要。那么，如何确保您的产品能够满足消费者的严格要求？

超声波可实现侵入性较小的脑机接口

脑机接口（BMI）是可以读取大脑活动并将该活动转换为控制假肢或计算机光标等电子设备的设备。科学家们希望能借用BMI使瘫痪的人能够用自己的思想移动假肢装置。许多BMI需要侵入性手术将电极植入大脑以读取神经活动。然而，在2021年，加州理工学院的研究人员开发了一种使用功能性超声（fUS）读取大脑活动的方法，这是一种侵入性小得多的技术。

音视频编解码--随机访问Random Access

在理想情况下，视频编码器可以发送视频第一帧的关键帧，然后每个后续帧都将表示为差异，直到视频结束。

NeurIPS2023 | ResShift：通过残差位移实现的用于图像超分辨率的高效扩散模型

基于扩散的图像超分辨率（SR）方法主要因需要进行数百甚至数千次采样步骤，导致推理速度较慢而受到限制。现有的加速采样技术不可避免地在一定程度上牺牲性能，导致超模糊的SR结果。为了解决这个问题，本文提出了一种新颖高效的扩散模型用于SR，显著减少了扩散步骤的数量，从而在推理过程中消除了后加速的需求及其相关的性能下降。

ICCV 2023 | 基于不规则群解耦的语义结构图像压缩

图像压缩技术通常侧重于压缩图像以供人类消费，这导致为下游应用传输冗余内容。为了解决这一问题，一些先前的工作提出对比特流进行语义结构划分，通过选择性的传输和重构可以满足特定的应用需求。它们根据语义将输入图像划分为多个矩形区域，但忽略了区域之间的交互信息，导致比特率的浪费和区域边界的重建失真。本文提出了基于定制的组掩码将图像解耦为多个具有不规则形状的组，并对其进行独立压缩。组掩码以更精细的粒度描述图像，减少冗余内容的传输。

年终王炸！Amazon Q重磅登场，云巨头开创企业级生成式AI新赛道

就在刚刚，亚马逊云科技祭出了全新AI「大杀器」Amazon Q。不仅只用两天时间就升级了上千款Java应用，更是将企业的数据屏障一举击穿。

苹果选择视涯和京东方供应Vision Pro微显示器；复旦科创母基金首期十亿元启动

苹果首款 AR 硬件 Apple Vision Pro 将采用双 1.3 英寸 4K Micro-OLED 微显示器。苹果一直在与生产首款 Micro-OLED 微显示器的索尼合作，但后来的报道表明，苹果正在寻求用视涯和京东方的合作，以取代索尼作为其供应商，降低成本（并且也可能增加潜在供应，因为索尼产能有限）。

SteamVR官方串流工具上线Quest Store；中兴通讯发布5G VR大空间沉浸剧场解决方案头条

近日，Valve所发布的官方免费串流工具Steam Link正式上线Quest Store。借助该工具，用户可以基于无线WiFi网络畅玩《Half-Life: Alyx》等SteamVR知名游戏，此外，用户还可以通过VR头显体验传统的平面游戏。

重磅首发｜2024音视频技术发展报告（文末附下载）

11月24日，在LiveVideoStackCon 2023深圳站大会上，我们与腾讯云音视频联合首发《2024音视频技术发展报告》。报告通过300+音视频开发者调研，40+专家一线访谈，下沉8大细分技术领域进行全面解读，涵盖音视频编解码/AI编码/多媒体处理框架/媒体传输协议/超低延迟技术/虚拟现实/AIGC/出海等领域，深入洞察音视频技术现状和未来发展趋势。

▲点击“阅读原文”▲

跳转报告下载链接