计算机视觉GPT时刻到来：Meta新模型实现“终极抠图”|世界微速讯

AI领域战火再次升级。这次是人工智能另一重要分支，计算机视觉领域迎来关键转折——

4月5日周三，Meta正式推出模型SAM(Segment Anything Model)，称这一模型可用于识别图像和视频中的物体，甚至是从未被训练学习过的物品。技术论文也一并推出，标题甚至只有两个单词——Segment Anything(分割一切)。

消息一出，国内外科研圈齐齐震动，对此，已有人发出了这样的感叹：

(资料图片仅供参考)

——“这是计算机视觉领域的GPT时刻。”

···

“分割一切”能干什么？

要了解这一模型，首先要明白此次官方介绍中的一个关键词——分割(Segment)。

这是计算机视觉(Computer vision，CV)领域中的核心任务，即识别某一图像像素是否属于某一个对象。相关技术可以应用在自动驾驶的感知系统、医疗影像、图像美化、三维重建等多个领域。

如果说ChatGPT的能力通俗来讲是“说话”，那么这次SAM的能力就是“识图”或“抠图”。而就是在这种看似普通的能力上，双方都展现出了一种“朴素的强大”：

对于任何一张照片，SAM都可以快速识别其中的各个物体并将其标出。根据论文数据，基于单块英伟达V100显卡的算力，模型能在2-3秒内识别出一张1200x800分辨率图像中的所有物体。

不仅是静态图像，SAM也能处理动态视频。在Meta官网的演示中，模型能够快速识别出一段视频中特定物品的名称、种类或其他属性信息。

同时，官方也表示这一功能将在未来与Meta的VR/AR设备相结合，比如用于通过AR眼镜识别日常物品，向用户提示提醒和指示。

上述分割都属于“自动分割”，即让AI按照一定规则激动提取画面中的物体。

论文强调，SAM在各种分割任务上具有较强的零样本(Zero-shot Transfer)能力，也就是说，即使没有任何先验知识或监督，没有在特定领域进行额外训练或微调(Fine Tune)，SAM仍能对图像中的特定事物进行分割。

而除了“自动分割”，SAM模型也提供了“即时分割”(或“交互分割”)的能力，即允许用户使用一个可交互的界面，实时地对画面进行操作。

而SAM可接受的输入包括鼠标的悬浮点击、框选或者语言描述。也就是说，用户可以通过这些方式实时定位出画面中具体物体的轮廓。而也像是ChatGPT的持续对话一样——用户也可以不断对SAM下达多个指令，直到选出自己想要的物体。

而对于“抠”出来的图像，也可以再次提取出来，进行二次编辑(改变颜色或进行三维重建)。Meta官方提供的数据显示，基于SAM及相关平台，平均14秒就可以完成“交互分割”，最快可达7秒，而这个速度比之前经典方法快5倍之多。

···

模型、数据集均已开源

在Meta推出SAM模型当天，英伟达AI科学家Jim Fan发推表示，这是可以被称作计算机视觉领域的“GPT-3时刻”的一天，因为SAM模型已经能理解“物品”或者“对象”的一般概念，即使对于不熟悉的、未知的、模棱两可的画面也能够完成较好的理解。

同时，他还在推文中强调，“难以想象模型和数据都是开源的。”

是的，随着模型发布，Meta现已将模型及其背后的训练数据集一并开源。

SAM模型背后的数据集是一个包括了1100万张图像和11亿个掩膜(指图像分割任务重被选定的具体物体)的巨大训练数据集，由Meta研究团队进行收集和标注，也是当前最大的图像分割数据集，可以通过Meta官网进行下载。模型也可以在GitHub上进行查看或下载。

此外，Meta也推出了SAM模型的Demo网页，点击即可进行试用。

对此，各个领域的科学家已经兴致勃勃地开始试用。有自然科学领域的学者通过SAM识别卫星图像、有医学家通过它识别人体成像、还有生物学家将其应用到了显微镜下的组织图像中，甚至开发了相应插件……

而Meta也表示，当前公司内部也已开始在Facebook、Instagram等社交平台上照片的标记、内容审核和内容推荐等领域试用SAM相关技术，之后，生成式AI也将作为今年的重点优先事项，被逐渐整合到Meta更多的应用程序中。

（文章来源：南方都市报·湾财社）

标签：

计算机视觉GPT时刻到来：Meta新模型实现“终极抠图”|世界微速讯

FSD完全版将在上海试点？特斯拉中国回应：不实消息

海螺水泥跌近4%领跌水泥股淡季水泥需求延续疲弱后期价格或以底部徘徊为主

恭喜内马尔！神秘豪门送2亿年薪，替代梅西，可不受姆巴佩气了环球热资讯

中超控股：6月9日融资买入55.91万元，融资融券余额9598.25万元

【我在中国当大使】逛国家公园看动物世界焦点报道

全球时讯：sales manager职责_sales manager

“海峡组合”，法网女双夺冠！_天天快报

天天头条：正月十五问候短信正月十五问候语

快手上给人刷赞做兼职犯法吗？

报道：RTX4060 Ti显卡破发跌到2900多

双良新能源产业一期项目开工杜小刚启动项目并培土奠基_全球微头条

天天快播：百万UP主人设崩塌背后：精致生活博主的转型困境

三星正开发自有AI大语言模型已投入全部GPU资源

全球快讯:π等于多少rad_π等于多少

国产最大盾构主轴承“破壁者”面世|环球热点评

世界视点！RK3588开发板（armsom-w3）之PWM实操

苹果M2 Ultra在Geekbench 5跑分并没有碾压英特尔、AMD，还不如i9-13900K

重点聚焦!学制苗族银饰传承非遗之美

今日热搜：长安大学学子以“三色”模式助力陕西乡村振兴

每日聚焦：中国吸引跨国公司的不单是大市场

《波斯语课》《1917》后又一部高分战争佳作即将上映

小米产品序列号查询（小米序列号查询官网查询系统）-今日聚焦

暗黑4索命陷阱技能怎么用比较好焦点信息

川渝自贸试验区协同开放示范区交流座谈会在两江新区举行聚看点

热头条丨牵涉移民！刺童事件挑动法国神经，马克龙：极其卑鄙的袭击

RTX4060 Ti显卡破发跌到2900多|世界即时看

发繁体满江红（发繁体）播报

适合幼儿园早上播放的歌曲清单_幼儿园早晨放的歌曲

【天天速看料】cdr2019图片置于容器内（cdr2019图片置入容器）

黑龙江12件涉黑涉恶案件集中公开宣判85人获刑-资讯

计算机视觉GPT时刻到来：Meta新模型实现“终极抠图”|世界微速讯

FSD完全版将在上海试点？特斯拉中国回应：不实消息

海螺水泥跌近4%领跌水泥股 淡季水泥需求延续疲弱 后期价格或以底部徘徊为主

恭喜内马尔！神秘豪门送2亿年薪，替代梅西，可不受姆巴佩气了 环球热资讯

中超控股：6月9日融资买入55.91万元，融资融券余额9598.25万元

【我在中国当大使】逛国家公园看动物世界 焦点报道

全球时讯：sales manager职责_sales manager

“海峡组合”，法网女双夺冠！_天天快报

天天头条：正月十五问候短信 正月十五问候语

快手上给人刷赞做兼职犯法吗？

报道：RTX4060 Ti显卡破发 跌到2900多

双良新能源产业一期项目开工 杜小刚启动项目并培土奠基_全球微头条

天天快播：百万UP主人设崩塌背后：精致生活博主的转型困境

三星正开发自有AI大语言模型 已投入全部GPU资源

全球快讯:π等于多少rad_π等于多少

国产最大盾构主轴承“破壁者”面世|环球热点评

世界视点！RK3588开发板（armsom-w3）之PWM实操

苹果M2 Ultra在Geekbench 5跑分并没有碾压英特尔、AMD，还不如i9-13900K

重点聚焦!学制苗族银饰 传承非遗之美

今日热搜：长安大学学子以“三色”模式助力陕西乡村振兴

每日聚焦：中国吸引跨国公司的不单是大市场

《波斯语课》《1917》后又一部高分战争佳作即将上映

小米产品序列号查询（小米序列号查询官网查询系统）-今日聚焦

暗黑4索命陷阱技能怎么用比较好 焦点信息

川渝自贸试验区协同开放示范区交流座谈会在两江新区举行 聚看点

热头条丨牵涉移民！刺童事件挑动法国神经，马克龙：极其卑鄙的袭击

RTX4060 Ti显卡破发 跌到2900多|世界即时看

发繁体 满江红（发繁体） 播报

适合幼儿园早上播放的歌曲清单_幼儿园早晨放的歌曲

【天天速看料】cdr2019图片置于容器内（cdr2019图片置入容器）

黑龙江12件涉黑涉恶案件集中公开宣判85人获刑-资讯

海螺水泥跌近4%领跌水泥股淡季水泥需求延续疲弱后期价格或以底部徘徊为主

恭喜内马尔！神秘豪门送2亿年薪，替代梅西，可不受姆巴佩气了环球热资讯

【我在中国当大使】逛国家公园看动物世界焦点报道

天天头条：正月十五问候短信正月十五问候语

报道：RTX4060 Ti显卡破发跌到2900多

双良新能源产业一期项目开工杜小刚启动项目并培土奠基_全球微头条

三星正开发自有AI大语言模型已投入全部GPU资源

重点聚焦!学制苗族银饰传承非遗之美

暗黑4索命陷阱技能怎么用比较好焦点信息

川渝自贸试验区协同开放示范区交流座谈会在两江新区举行聚看点

RTX4060 Ti显卡破发跌到2900多|世界即时看

发繁体满江红（发繁体）播报