音视频技术开发周刊 | 323

news/2024/5/17 16:14:27/文章来源:https://blog.csdn.net/vn9PLgZvnPs1522s82g/article/details/134917748

每周一期,纵览音视频技术领域的干货。

新闻投稿:contribute@livevideostack.com。

844745d62465f582cdfcd92dfff636e1.png

Meta牵头组建开源「AI复仇者联盟」,AMD等盟友800亿美元力战OpenAI英伟达

超过50家科技大厂名校和机构,共同成立了全新的人工智能联盟。以开源为旗号,誓于OpenAI和英伟达一决高下。 

深度学习大牛权威预测2024年AI行业热点,盘点开源AI趋势!

AI社区大佬Sebastian总结了2023年全年AI行业的热点和问题,针对开源社区和AI研究的热点问题给出了自己读到的解读和发展建议,精彩内容千万不能错过。

跨语种「AI同传」震撼登场!Meta谷歌连发重大突破,颠覆语音翻译

Meta谷歌接连放出重磅成果!Meta开源无缝交流语音翻译模型,谷歌放出无监督语音翻译重大突破Translation 3。

AI颠覆材料学!DeepMind重磅研究登Nature,预测220万晶体结构赢人类800年

继AlphaFold系列改变了生物学领域之后,谷歌DeepMind今日再发Nature,全新AI工具GNoME,成功预测220万种晶体结构,颠覆了材料学领域。

Gemini:我们规模最大、能力最强的 AI 模型 

每一次技术的变革都是推进科学发现、加快人类进步和改善人们生活的机会。我相信我们此时正在见证的 AI 转变将是我们一生中影响最为深远的转变,其影响力远超过移动技术或互联网的转变。AI 有着为世界各地的人们创造机会的潜力,无论是在日常生活中还是在铸就非凡成就方面。它将带来新一轮的创新和经济进步,并以前所未有的规模推动知识、学习、创造力和生产力的发展。 

1c09c0e149d780139b2cd2fc5445c182.png

横扫13个视觉语言任务!哈工深发布多模态大模型「九天」,性能直升5%

哈工深发布全新多模态大语言模型九天(JiuTian-LION),融合细粒度空间感知和高层语义视觉知识,在13个评测任务上实现了sota性能。

脑机接口重要突破!国内团队成功实现「全谱汉语解码」:Top 3准确率接近100%

国内团队实现对脑机接口汉语解码「零的突破」,系统覆盖了全部407个汉语拼音音节以及汉语发音特点,句子完全正确率高达30%!

全球首个开源多模态医疗基础模型:人工打分平均超越GPT-4V、支持2D/3D放射影像

本文中,上海交大 & 上海 AI Lab 发布 Radiology Foundation Model (RadFM),开源 14B 多模态医疗基础模型,首次支持 2D/3D 放射影像输入。

手机上0.2秒出图、当前速度之最,谷歌打造超快扩散模型MobileDiffusion

近日,来自谷歌的一篇论文「MobileDiffusion: Subsecond Text-to-Image Generation on Mobile Devices」,提出了手机端最快文生图,在 iPhone 15 Pro 上只要 0.2 秒。论文出自 UFOGen 同一团队,在打造超小扩散模型的同时, 采用当前大火的 Diffusion GAN 技术路线做采样加速。

9fe3a161549b3b2807bd40d563fe0b6f.png

3D Gaussian Splatting的福音!快速提取精确且可编辑的3D网格来啦!

本文介绍了一种从3D Gaussian Splatting表示中快速提取精确且可编辑的网格的方法。该方法利用Gaussian Splatting的渲染速度快、训练速度慢的特点,通过引入正则化项鼓励Gaussian Splatting表示与场景表面对齐,并使用Poisson重建方法从Gaussian Splatting表示中提取网格。此外,该方法还引入了一种优化策略,将Gaussian Splatting表示与网格一起优化,通过Gaussian Splatting渲染实现高效的编辑、雕塑、动画和重新光照。这种方法能够在几分钟内检索到具有更好渲染质量的可编辑网格,相比于从SDF中提取网格的方法需要几个小时。

使用库普曼线性化以及数据驱动的批量定位和SLAM 

本文提出了一个无模型批量定位和SLAM的框架。我们使用提升函数将控制仿射系统映射到高维空间,其中过程模型和测量模型都被渲染为双线性。在训练过程中,使用真实数据求解一个最小二乘问题,以纯粹从数据中计算与提升系统相关的高维模型矩阵。在推理时,通过一个优化问题来解决未知的机器人轨迹和路标,其中引入了约束,以保持解在提升函数的流形上。使用序列二次规划( SQP )有效地解决了该问题,其中SQP迭代的复杂度与时间步数呈线性比例关系。

UWB雷达SLAM:一种在视觉拒止的室内环境中的无锚点方法

激光雷达和相机常被用作同步定位与地图构建( SLAM )的传感器。然而,这些传感器在低能见度(例如烟雾)或具有反射面(例如反射镜)的地方容易失效。另一方面,电磁波在波长增加时表现出更好的穿透特性,因此不受低能见度的影响。因此,本文提出了超宽带( UWB )雷达作为现有传感器的替代方案。UWB通常被用于锚点-标签SLAM系统。在环境中安装一个或多个锚点,并将标签附着在机器人上。

https://ieeexplore.ieee.org/document/10175555/

4f5dbc9ad940b78fb283237f852c0eea.png

iPhone 15 Pro+三方软件,开拓“空间视频”平民时代

2023 苹果秋季发布会上,iPhone 15 Pro 系列带来了一个彩蛋功能——空间视频拍摄。该功能将 iPhone 与 Vision Pro 进行了生态联动,不仅增强了 Vision Pro 的用户生活场景,更能为明年 Vision Pro 的销售埋下伏笔。

评测丨一键成为虚拟偶像?索尼mocopi会是新的动捕黑科技吗?

此前,一名游戏动捕演员“曦曦鱼SAKANA”走出幕后,在b站发布了多条关于不同风格游戏角色的动作捕捉视频,因其传神的动作与表情获得了观众的高度认可,不少观众纷纷表示“仿佛看到了xx角色本人”。

Varjo最新VR/MR头显XR-4开始面向专业消费者提供

在过去,Varjo的设备主要面向企业市场,定价高昂,而且购买需要咨询问价。对于这家公司刚刚发布的全新XR-4系列头显,这是一款无需支付高额年费且直接向专业消费者销售的旗舰设备。

ba6220b8cd2a8fa82d2f25fcac673f83.png

亚马逊AI芯片,深度解读

亚马逊网络服务可能不是第一家创建自己的定制计算引擎的超大规模提供商和云构建商,但它紧随谷歌之后发布了自研的AI芯片——谷歌于 2015 年开始使用其自主研发的 TPU 加速器来处理人工智能工作负载。

GPU,巨变前夜

在3D图像学中,对于真实场景和物体的高精度建模/渲染一直是整个学界梦寐以求的目标之一。在过去几十年中,3D场景和物体建模的主流方式是基于多边形(ploygon mesh)的建模,即把一个3D建模的物体表面近似为由大量多边形组成,而多边形数量越多,则3D建模和真实物体/场景越接近。  

3D封装,成本最优的选择?

当 2.5D 和 3D 封装最初被构想出来时,普遍的共识是只有最大的半导体公司才能负担得起,但开发成本很快就得到了控制。在某些情况下,这些先进的封装实际上可能是成本最低的选择。

苹果芯片实验室首次对外公开!

美国 CNBC 发布新闻报道,称于今年 11 月访问了苹果位于加州库比蒂诺的园区,首次获批公开了苹果芯片实验室内部场景。

b2f7c0313c45e10eb58775e70164029e.png

空间音频体验与评价方案

区别于传统单通道和立体声音频,3D音频是一种带来三维沉浸式音频体验的新范式,其在制作、传输分发、端侧渲染端到端全链条都引入了更复杂的音频数据存储格式、编解码策略以及音效算法,继而为消费者带来了更身临其境的音频体验感以及空气感(eg:戴上耳机听音频,感觉就像没戴耳机且听到身边真实三维世界的声音一样),极有潜力成为未来交互式社交、沉浸式多媒体创作&娱乐、XR等产业的技术底座。

任意文本、视觉、音频混合生成,多模态有了强大的基础引擎CoDi-2

今年 5 月,北卡罗来纳大学教堂山分校、微软提出一种可组合扩散(Composable Diffusion,简称 CoDi)模型,让一种模型统一多种模态成为可能。CoDi 不仅支持从单模态到单模态的生成,还能接收多个条件输入以及多模态联合生成。

https://arxiv.org/pdf/2311.18775.pdf

如何优化智能扬声器的语音和音频测试?

智能扬声器已经风靡千家万户,消费者满意度与其智能扬声器对语音命令的理解程度密切相关。语音清晰度和音质对于领先的平台提供商至关重要。那么,如何确保您的产品能够满足消费者的严格要求?

超声波可实现侵入性较小的脑机接口

脑机接口(BMI)是可以读取大脑活动并将该活动转换为控制假肢或计算机光标等电子设备的设备。科学家们希望能借用BMI使瘫痪的人能够用自己的思想移动假肢装置。许多BMI需要侵入性手术将电极植入大脑以读取神经活动。然而,在2021年,加州理工学院的研究人员开发了一种使用功能性超声(fUS) 读取大脑活动的方法,这是一种侵入性小得多的技术。

23121341d8496c8c9a4e103cfd257af2.png

音视频编解码--随机访问Random Access

在理想情况下,视频编码器可以发送视频第一帧的关键帧,然后每个后续帧都将表示为差异,直到视频结束。 

92e9c0cc7fbc36e84b36f5489ec8a2e7.png

NeurIPS2023 | ResShift:通过残差位移实现的用于图像超分辨率的高效扩散模型 

基于扩散的图像超分辨率(SR)方法主要因需要进行数百甚至数千次采样步骤,导致推理速度较慢而受到限制。现有的加速采样技术不可避免地在一定程度上牺牲性能,导致超模糊的SR结果。为了解决这个问题,本文提出了一种新颖高效的扩散模型用于SR,显著减少了扩散步骤的数量,从而在推理过程中消除了后加速的需求及其相关的性能下降。

ICCV 2023 | 基于不规则群解耦的语义结构图像压缩 

图像压缩技术通常侧重于压缩图像以供人类消费,这导致为下游应用传输冗余内容。为了解决这一问题,一些先前的工作提出对比特流进行语义结构划分,通过选择性的传输和重构可以满足特定的应用需求。它们根据语义将输入图像划分为多个矩形区域,但忽略了区域之间的交互信息,导致比特率的浪费和区域边界的重建失真。本文提出了基于定制的组掩码将图像解耦为多个具有不规则形状的组,并对其进行独立压缩。组掩码以更精细的粒度描述图像,减少冗余内容的传输。

385f4cb58f5d230e9f5c28637191b5a7.png

年终王炸!Amazon Q重磅登场,云巨头开创企业级生成式AI新赛道

就在刚刚,亚马逊云科技祭出了全新AI「大杀器」Amazon Q。不仅只用两天时间就升级了上千款Java应用,更是将企业的数据屏障一举击穿。

苹果选择视涯和京东方供应Vision Pro微显示器;复旦科创母基金首期十亿元启动

苹果首款 AR 硬件 Apple Vision Pro 将采用双 1.3 英寸 4K Micro-OLED 微显示器。苹果一直在与生产首款 Micro-OLED 微显示器的索尼合作,但后来的报道表明,苹果正在寻求用视涯和京东方的合作,以取代索尼作为其供应商,降低成本(并且也可能增加潜在供应,因为索尼产能有限)。    

SteamVR官方串流工具上线Quest Store;中兴通讯发布5G VR大空间沉浸剧场解决方案头条

近日,Valve所发布的官方免费串流工具Steam Link正式上线Quest Store。借助该工具,用户可以基于无线WiFi网络畅玩《Half-Life: Alyx》等SteamVR知名游戏,此外,用户还可以通过VR头显体验传统的平面游戏。

7570e034fd467b5566c687b91f96c7e0.png

重磅首发|2024音视频技术发展报告(文末附下载)

11月24日,在LiveVideoStackCon 2023深圳站大会上,我们与腾讯云音视频联合首发《2024音视频技术发展报告》。报告通过300+音视频开发者调研,40+专家一线访谈,下沉8大细分技术领域进行全面解读,涵盖音视频编解码/AI编码/多媒体处理框架/媒体传输协议/超低延迟技术/虚拟现实/AIGC/出海等领域,深入洞察音视频技术现状和未来发展趋势。  

点击阅读原文

跳转报告下载链接

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_379789.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux 中的网站服务管理

目录 1.安装服务 2.启动服务 3.停止服务 4.重启服务 5.开机自启 6.案例 1.安装服务 网址服务程序 yum insatll httpd -y 查看所有服务 systemctl list-unit-files 2.启动服务 systemctl start httpd 查看服务进程,确认是否启动 ps -ef|grep httpd 3.停止…

Github与Gitlab

学习目标 能够使用GitHub创建远程仓库并使用能够安装部署GitLab服务器能够使用GitLab创建仓库并使用掌握CI/CD的概念掌握蓝绿部署, 滚动更新,灰度发布的概念 GitHub是目前最火的开源项目代码托管平台。它是基于web的Git仓库,提供公有仓库和私有仓库,但私…

智能优化算法应用:基于群居蜘蛛算法3D无线传感器网络(WSN)覆盖优化 - 附代码

智能优化算法应用:基于群居蜘蛛算法3D无线传感器网络(WSN)覆盖优化 - 附代码 文章目录 智能优化算法应用:基于群居蜘蛛算法3D无线传感器网络(WSN)覆盖优化 - 附代码1.无线传感网络节点模型2.覆盖数学模型及分析3.群居蜘蛛算法4.实验参数设定5.算法结果6.…

记录一次chatGPT人机协同实战辅助科研——根据词库自动进行情感分析

有一个Excel中的一列,读取文本判断文本包含积极情感词.txt和消极情感词.txt的个数,分别生成两列统计数据 请将 ‘your_file.xlsx’ 替换为你的Excel文件名,Your Text Column’替换为包含文本的列名。 这个程序首先读取了积极和消极情感词&…

【Hadoop_06】MapReduce的概述与wc案例

1、MapReduce概述1.1 MapReduce定义1.2 MapReduce优点1.3 MapReduce缺点1.4 MapReduce核心思想1.5 MapReduce进程1.6 常用数据序列化类型1.7 源码与MapReduce编程规范 2、WordCount案例实操2.1 本地测试2.2 提交到集群测试 1、MapReduce概述 1.1 MapReduce定义 MapReduce是一…

04-详解Eureka注册中心的作用,具体配置,服务注册和服务发现

Eureka注册中心的作用 Eureka架构 远程调用的两个问题 服务的ip地址和端口号写死: 生产环境中服务的地址可能会随时发生变化,如果写死每次都需要重新修改代码多实例问题: 在高并发的情况下一个服务可以有多个实例形成一个集群,此时如果采用硬编码的方式只能访问服务的一个实…

谈一谈网络协议中的传输层

文章目录 UDPTCPTCP为什么可靠 UDP 传输层的作用是负责能够从发送端到传输端。 我们的主机上有多个程序,那么怎么分辨哪个信息是发给哪个程序的呢?—端口号。其是一个16位的无符号整型,端口号分为知名端口号(0-1023)和…

设计模式——建造者模式(创建型)

引言 生成器模式是一种创建型设计模式, 使你能够分步骤创建复杂对象。 该模式允许你使用相同的创建代码生成不同类型和形式的对象。 问题 假设有这样一个复杂对象, 在对其进行构造时需要对诸多成员变量和嵌套对象进行繁复的初始化工作。 这些初始化代码…

SpringMVC上传下载文件解读

知识点 文件上传(File Upload): 创建一个控制器方法,使用 MultipartFile 参数来接收上传的文件。在 Spring 配置文件中配置一个 MultipartResolver,常用的实现类是 CommonsMultipartResolver。在 MultipartResolver …

vscode

文章目录 变量引用Multi-selections(multi-cursor)Column (box) selection在正则表达式替换中改变大小写tasks.jsonlaunch.json vscode工作空间下有一个.vscode文件夹,该文件夹下放置了vscode的配置文件,主要有: settings.json : vscode的设置…

多维时序 | MATLAB实现RIME-CNN-BiLSTM-Multihead-Attention多头注意力机制多变量时间序列预测

多维时序 | MATLAB实现RIME-CNN-BiLSTM-Multihead-Attention多头注意力机制多变量时间序列预测 目录 多维时序 | MATLAB实现RIME-CNN-BiLSTM-Multihead-Attention多头注意力机制多变量时间序列预测预测效果基本介绍模型描述程序设计参考资料 预测效果 基本介绍 MATLAB实现RIME-…

Kibana搜索数据利器:KQL与Lucene

文章目录 一、搜索数据二、KQL查询1、字段搜索2、逻辑运算符3、通配符4、存在性检查5、括号 三、Lucene查询1、字段搜索2、逻辑运算符3、通配符4、范围搜索5、存在性检查6、括号 四、总结 一、搜索数据 默认情况下,您可以使用 Kibana 的标准查询语言,该…

JAVA:深入探讨Java 8 Stream的强大功能与用法

1、简述 Java 8引入了Stream API,为处理集合数据提供了一种更为强大和灵活的方式。Stream是一种抽象的数据结构,它允许你以一种声明性的方式处理数据集合。与传统的集合操作不同,Stream并不是一个存储数据的数据结构,而是在源数据…

【Spring】@SpringBootApplication注解解析

前言: 当我们第一次创建一个springboot工程时,我们会对启动类(xxxApplication)有许多困惑,为什么只要运行启动类我们在项目中自定义的bean无需配置类配置,扫描就能自动注入到IOC容器中?为什么我…

GO的sql注入盲注脚本

之间学习了go的语法 这里就开始go的爬虫 与其说是爬虫 其实就是网站的访问如何实现 因为之前想通过go写sql注入盲注脚本 发现不是那么简单 这里开始研究一下 首先是请求网站 这里貌似很简单 package mainimport ("fmt""net/http" )func main() {res, …

推荐算法:HNSW【推荐出与用户搜索的类似的/用户感兴趣的商品】

HNSW算法概述 HNSW(Hierarchical Navigable Small Word)算法算是目前推荐领域里面常用的ANN(Approximate Nearest Neighbor)算法了。其目的就是在极大量的候选集当中如何快速地找到一个query最近邻的k个元素。 要找到一个query的…

Firmware Analysis Plus (Fap)固件模拟安装教程(最新)

最近在搞IoT的研究,但是难在设备比较难弄,只有固件,而没有设备,买吧,又太费钱,不划算。好在有很多项目可以在模拟环境中运行固件。但是几乎没有一个平台能够模拟所有硬件设备。IoT产品的架构也不尽相同。 …

企业计算机服务器中了halo勒索病毒如何解密,halo勒索病毒恢复流程

网络技术的不断发展与应用,为企业的生产运营提供了极大便利,越来越多的企业使用数据库存储企业的重要数据,方便工作与生产,但网络是一把双刃剑,网络安全威胁一直存在,并且网络威胁的手段也在不断升级。在本…

C++笔记之重载和重写辨别

C笔记之重载和重写辨别 code review! 文章目录 C笔记之重载和重写辨别重载(overloading)重写(Overriding) 在C中,重载(overloading)和重写(overriding)是面向对象编程中…

Kotlin 笔记 -- Kotlin 语言特性的理解(二)

都是编译成字节码,为什么 Kotlin 能支持 Java 中没有的特性? kotlin 有哪些 Java 中没有的特性: 类型推断、可变性、可空性自动拆装箱、泛型数组高阶函数、DSL顶层函数、扩展函数、内联函数伴生对象、数据类、密封类、单例类接口代理、inter…