看了昨天 Arc CEO 的视频我确定他们会推出一个颠覆性的产品。

里面展示的一些交互 Demo 和可能性是在太性感了。

我相信你只要有体验设计或者产品设计经验看到这些 Demo 就大概可以想象这是个多么牛皮的产品。

他们宣布不会更新 Arc 浏览器 2.0 版本,而是会推出一个新的产品。

目标是让用户在网络中获得类似的"滑行"体验。

基于Command+T快捷键加上 LLM 拓展可能性,新产品会超越传统的 URL 和搜索这个范畴。

核心是帮助用户减少电脑使用时间,将浏览器能力整合到日常工作中。

具体特点是用自动化代替手动操作、保持熟悉感但具备强大的能力并且深度集成到日常应用和文件中。

当然这些更新对 Arc 浏览器用户就不是什么好事了,评论区全是骂他们不更新 Arc 又去搞其他新产品的。

说一下我的猜测:

用户通过输入框或者语音说出自己的希望的检索或者书写目标,工具帮助用户浏览网页给出一个完整的方案,而且用户可以通过四象限选择的交互选择生成内容的风格或者长度之类的,这部分 AI 会根据用户写作或者查询的需求进行预测
An image to describe post

用户将一个类似光标的地方拖到网页内容上,根据光标所处位置的模态和内容预测用户需求给出操作建议,用户可以快速选择。
An image to describe post

完全的电脑或者手机自动使用是危险而且不可靠的,但是折中一下加入预测这个功能就不一样了,现在完全是可以实现的。

所以这套系统出了我们都能想到的自动完成内容生成步骤之外核心就是:预测

他们说自己的灵感来自于谷歌 Waymo 自动驾驶的方案。

我去搜了一下这个自动驾驶的方案发现这个简直也是做设备自动控制的方法论,看来不管是驾驶汽车还是驾驶鼠标都是类似的,他们也特别强调了“预测”的重要性。

谷歌 Waymo 自动驾驶方案主要由四个步骤组成:

  • 感知(Perception):利用激光雷达、摄像头和雷达等传感器组合,实时监测周围环境,识别障碍物、行人及其他车辆的状态。
  • 定位(Localization):通过高精度地图、GPS和传感器数据,准确确定车辆在道路上的位置。
  • 预测(Prediction):预测系统负责分析周围交通参与者的行为,以便判断它们可能采取的行动。
  • 规划(Planning):基于感知和定位信息,生成安全的行驶路径和行为策略。
    An image to describe post

我们通过上面的来介绍一下 AI 界面操作自动化的四个步骤

  • 感知(Perception):获取当前界面内容,识别目前界面的所有部分按钮、链接、不通过模态的内容。
  • 定位(Localization):为所有内容进行定位,让 LLM 记住每个部分的具体内容及坐标。
  • 预测(Prediction):分析界面内容和布局,预测用户可能对每部分进行的操作。
  • 规划(Planning):用户针对预测内容下达命令后,基于感知和定位信息给出具体的操作路径开始进行操作。

可以看到感知、定位和规划都是目前大家都涉及到的步骤和部分,但是 LLM 的能力不足以完成完全的界面自动驾驶,这时关键的“意图预测”让用户在合适的部分介入就很重要了,让并不完美的自动驾驶变得可用。

一点小想法,基于这四个步骤和用户目标可以优化的地方还有很多,可以在评论区多交流。觉得有帮助或者有启发可以点个赞,或者转发给自己的朋友。