“点击执行”功能方便实用,减少了在 Windows 11 中执行重复性操作所需的步骤。苹果和谷歌在这方面还有待改进。
(图片来源:Jeffrey Hazelwood/PCMag Composite;微软/联想)
在实际测试 Windows 的“回忆”功能时——该功能允许用户按时间顺序搜索和翻阅电脑活动,并利用 AI 对内容执行操作——我提到,它的强大之处很大程度上来自于与“点击即用”(Click to Do)功能的协同工作,后者是另一项Copilot+ PC专属功能。微软将这两项功能都标记为“预览”功能,但它们在当前的Windows 11正式版中可用,而不仅仅是在测试版中。
简而言之,“点击操作”可以高亮显示屏幕上的文本和图像,并根据它们提供快捷操作。其理念是帮助您轻松完成日常琐事,无需思考下一步该做什么或打开多个应用程序。如果您仍然因为安全问题而对“召回”有所顾虑,好消息是,“点击操作”可以独立于它运行。以下是如何充分利用“点击操作”的方法。
设置 Microsoft Click to Do
如前所述,“点击即做”功能仅适用于 Copilot+ PC,因此您需要一台配备内置神经网络处理单元 (NPU) 的最新 Windows 电脑才能体验此功能。第一步是打开“设置”应用并启用“点击即做”。您可以在“隐私与安全”部分找到它,也可以直接搜索。 
(图片来源:微软/PCMag)
与“回忆”功能类似,“点击执行”功能也会截取屏幕截图进行分析。但与“回忆”功能不同的是,“点击执行”功能仅在您启用该功能时才会进行截图。它会在您的电脑本地执行分析,不会将任何内容发送到微软的服务器。当然,您选择的某些操作可能会通过互联网发送信息——例如,根据您的选择进行网络搜索。
如何启动“点击执行”功能
启动“点击执行”功能有多种方式:
- 在截图工具应用程序中单击一个按钮
- 按住 Windows 键,然后点击鼠标
- 按下 Windows 键 + Q
- 在触摸屏上向右滑动
当您通过上述任何方法激活“点击执行”功能时,光标会变成蓝色圆圈、水滴或垂直线,具体取决于光标位于背景、图像还是文本上方。当您在屏幕上移动光标时,光标下方的项目会显示轮廓,表明您可以与之交互。我非常喜欢“点击执行”功能的一点是它的外观:它使屏幕元素呈现出一种液化和晃动的效果,从而吸引您的注意力。与 Windows 系统中几乎所有操作一样,您可以按 Esc 键退出特殊光标状态。 
(图片来源:微软/PCMag)
我发现启动“点击即用”的不同方式有所不同:使用 Windows 键加鼠标启动时,“点击即用”光标并非总是出现,尤其是在鼠标悬停在 Microsoft 内容(例如“小部件”面板)上时。而使用 Windows 键加 Q 启动则始终有效。选择此方法后,除了光标之外,屏幕顶部还会出现一个搜索框。
触摸屏操作方法需要稍作说明。你需要从屏幕右边缘向内滑动。我最初阅读说明时,以为是指在屏幕上向右滑动。掌握正确的手势后,我看到了使用 Windows 键 + Q 弹出的搜索框。在截图工具中,你会在其顶部工具栏看到“点击执行”的新选项: 
(图片来源:微软/PCMag)
上述某些方法出现的搜索栏允许您搜索屏幕上的任何文本,无论是实际文本还是图像中的文本。但它对不可见的内容无效,例如网页下方的文本和图像。这一点很重要,因为启用“点击执行”后您将无法滚动页面内容。 
(图片来源:微软/PCMag)
该功能也无法像 Copilot+ 的语义搜索工具那样识别图像内容。例如,当我在搜索框中输入“山”和“鸟”时,它并没有找到下图所示的山的照片。(为此,您可以使用Copilot Vision,它现在可以在任何 Windows 11 电脑和任何应用程序窗口中使用,而不仅仅是 Edge 浏览器。)
使用 Click to Do 可以做什么?
看到略显晃动、色彩鲜艳的 Click to Do 界面后,您只需点击图片或选择文本(无论是实际文本还是图片中的文本)。您也可以右键单击任何内容,打开上下文菜单。Click to Do 的功能取决于您的点击操作。例如,如果您点击图片中的文本,您可以选择创建项目符号列表、复制文本、在记事本或 Word 等应用程序(或任何支持文本输入的应用程序)中打开文本、将文本用于网络搜索、使用 AI 以多种样式重写文本,或使用 AI 生成摘要。
(图片来源:微软/PCMag)
我成功地在 Word 中打开了文本,对其进行了概括(尽管这比在线 AI 工具慢),并从我在古腾堡计划网站上找到的安布罗斯·比尔斯的《正确写作》中创建了一个文本项目符号列表。
(图片来源:微软/PCMag)
“点击执行”功能只能处理屏幕上可见的内容,这在文本选择方面存在缺陷。这意味着你无法对超出屏幕可见范围的长文档使用“摘要”选项。我还发现,有时我只能选择几个段落。如果你需要摘要整个网页,Edge 浏览器中的 Copilot 侧边栏会是更好的选择。
如果对图像使用“单击执行”功能,则会出现诸如模糊背景、复制、擦除对象、打开方式、保存、共享(使用任何支持 Windows 共享菜单的应用程序)、移除背景或使用 Bing 进行视觉搜索等选项。
你可以用系统上的任何应用打开图片,但Click to Do自动推荐的应用更符合你的需求。所有自带选项都运行流畅。例如,在测试中,我用Microsoft Paint打开了网页上的图片来去除背景。只有WhatsApp连接在尝试发送图片时出了问题。虽然WhatsApp支持粘贴图片,但代码中的某些部分似乎阻止了它与Click to Do的通信。这很可惜,因为这样我就不用截图再单独打开WhatsApp(或其他即时通讯应用)了。 
(图片来源:微软/PCMag)
点击操作 vs. 苹果和谷歌的 AI 工具
苹果目前没有为 macOS 提供能够根据屏幕上的项目提供信息并提出操作建议的 AI 工具。苹果的Visual Intelligence 功能与之类似,但目前仅适用于 iOS,并且需要先截屏。不过,它确实允许用户对截屏内容进行操作。
ChromeOS中的Google文本捕捉功能与 Windows 的“点击执行”功能非常接近。使用 Google 的这项功能,您可以长按启动器按钮,在屏幕上查看高亮显示的文本项(无论是实际文本还是图像中的文本),但 Windows 的“点击执行”功能不仅限于文本,还提供其他操作。
不过,在某个特定用例中,Text Capture 的表现更胜一筹:它可以将图像中的数字以与图像中布局相似的方式导入电子表格。当我尝试使用 Click to Do 执行相同的操作时,所有数字都出现在顶行。Click to Do 比 Text Capture 更大的优势在于,您可以选择系统上的任何应用程序来打开相关内容;而 ChromeOS 则限制了您只能使用有限的应用程序。
你可以指出 Click to Do 需要 Copilot PC 作为其缺点。但谷歌的文本捕捉功能仅适用于 Chromebook Plus 机型,而苹果的视觉智能功能也仅适用于最新两代 iPhone。
Copilot Vision怎么样?
Click to Do 与 Copilot Vision 有些相似之处。后者适用于所有Windows 11 电脑,但它需要连接云端,而且不提供可执行操作的菜单。不过,你可以和它对话,了解屏幕上的内容。与 Click to Do 不同的是,它能够描述图像内容。例如,它识别出了我照片中的黑冠夜鹭和暗眼灯芯草雀。我计划在即将发布的文章中深入探讨这项功能。
比其他所有都好
正如我前面提到的,“点击执行”功能并不完美,但它是微软在桌面操作系统人工智能辅助工具领域引领潮流的最新例证。不过,我并不认为苹果和谷歌Chrome会止步不前,所以请密切关注视觉智能和文本捕获功能的发展。
“点击执行”功能方便实用,减少了在 Windows 11 中执行重复性操作所需的步骤。苹果和谷歌在这方面还有待改进。
(图片来源:Jeffrey Hazelwood/PCMag Composite;微软/联想)
在实际测试 Windows 的“回忆”功能时——该功能允许用户按时间顺序搜索和翻阅电脑活动,并利用 AI 对内容执行操作——我提到,它的强大之处很大程度上来自于与“点击即用”(Click to Do)功能的协同工作,后者是另一项Copilot+ PC专属功能。微软将这两项功能都标记为“预览”功能,但它们在当前的Windows 11正式版中可用,而不仅仅是在测试版中。
简而言之,“点击操作”可以高亮显示屏幕上的文本和图像,并根据它们提供快捷操作。其理念是帮助您轻松完成日常琐事,无需思考下一步该做什么或打开多个应用程序。如果您仍然因为安全问题而对“召回”有所顾虑,好消息是,“点击操作”可以独立于它运行。以下是如何充分利用“点击操作”的方法。
设置 Microsoft Click to Do
如前所述,“点击即做”功能仅适用于 Copilot+ PC,因此您需要一台配备内置神经网络处理单元 (NPU) 的最新 Windows 电脑才能体验此功能。第一步是打开“设置”应用并启用“点击即做”。您可以在“隐私与安全”部分找到它,也可以直接搜索。 
(图片来源:微软/PCMag)
与“回忆”功能类似,“点击执行”功能也会截取屏幕截图进行分析。但与“回忆”功能不同的是,“点击执行”功能仅在您启用该功能时才会进行截图。它会在您的电脑本地执行分析,不会将任何内容发送到微软的服务器。当然,您选择的某些操作可能会通过互联网发送信息——例如,根据您的选择进行网络搜索。
如何启动“点击执行”功能
启动“点击执行”功能有多种方式:
- 在截图工具应用程序中单击一个按钮
- 按住 Windows 键,然后点击鼠标
- 按下 Windows 键 + Q
- 在触摸屏上向右滑动
当您通过上述任何方法激活“点击执行”功能时,光标会变成蓝色圆圈、水滴或垂直线,具体取决于光标位于背景、图像还是文本上方。当您在屏幕上移动光标时,光标下方的项目会显示轮廓,表明您可以与之交互。我非常喜欢“点击执行”功能的一点是它的外观:它使屏幕元素呈现出一种液化和晃动的效果,从而吸引您的注意力。与 Windows 系统中几乎所有操作一样,您可以按 Esc 键退出特殊光标状态。 
(图片来源:微软/PCMag)
我发现启动“点击即用”的不同方式有所不同:使用 Windows 键加鼠标启动时,“点击即用”光标并非总是出现,尤其是在鼠标悬停在 Microsoft 内容(例如“小部件”面板)上时。而使用 Windows 键加 Q 启动则始终有效。选择此方法后,除了光标之外,屏幕顶部还会出现一个搜索框。
触摸屏操作方法需要稍作说明。你需要从屏幕右边缘向内滑动。我最初阅读说明时,以为是指在屏幕上向右滑动。掌握正确的手势后,我看到了使用 Windows 键 + Q 弹出的搜索框。在截图工具中,你会在其顶部工具栏看到“点击执行”的新选项: 
(图片来源:微软/PCMag)
上述某些方法出现的搜索栏允许您搜索屏幕上的任何文本,无论是实际文本还是图像中的文本。但它对不可见的内容无效,例如网页下方的文本和图像。这一点很重要,因为启用“点击执行”后您将无法滚动页面内容。 
(图片来源:微软/PCMag)
该功能也无法像 Copilot+ 的语义搜索工具那样识别图像内容。例如,当我在搜索框中输入“山”和“鸟”时,它并没有找到下图所示的山的照片。(为此,您可以使用Copilot Vision,它现在可以在任何 Windows 11 电脑和任何应用程序窗口中使用,而不仅仅是 Edge 浏览器。)
使用 Click to Do 可以做什么?
看到略显晃动、色彩鲜艳的 Click to Do 界面后,您只需点击图片或选择文本(无论是实际文本还是图片中的文本)。您也可以右键单击任何内容,打开上下文菜单。Click to Do 的功能取决于您的点击操作。例如,如果您点击图片中的文本,您可以选择创建项目符号列表、复制文本、在记事本或 Word 等应用程序(或任何支持文本输入的应用程序)中打开文本、将文本用于网络搜索、使用 AI 以多种样式重写文本,或使用 AI 生成摘要。
(图片来源:微软/PCMag)
我成功地在 Word 中打开了文本,对其进行了概括(尽管这比在线 AI 工具慢),并从我在古腾堡计划网站上找到的安布罗斯·比尔斯的《正确写作》中创建了一个文本项目符号列表。
(图片来源:微软/PCMag)
“点击执行”功能只能处理屏幕上可见的内容,这在文本选择方面存在缺陷。这意味着你无法对超出屏幕可见范围的长文档使用“摘要”选项。我还发现,有时我只能选择几个段落。如果你需要摘要整个网页,Edge 浏览器中的 Copilot 侧边栏会是更好的选择。
如果对图像使用“单击执行”功能,则会出现诸如模糊背景、复制、擦除对象、打开方式、保存、共享(使用任何支持 Windows 共享菜单的应用程序)、移除背景或使用 Bing 进行视觉搜索等选项。
你可以用系统上的任何应用打开图片,但Click to Do自动推荐的应用更符合你的需求。所有自带选项都运行流畅。例如,在测试中,我用Microsoft Paint打开了网页上的图片来去除背景。只有WhatsApp连接在尝试发送图片时出了问题。虽然WhatsApp支持粘贴图片,但代码中的某些部分似乎阻止了它与Click to Do的通信。这很可惜,因为这样我就不用截图再单独打开WhatsApp(或其他即时通讯应用)了。 
(图片来源:微软/PCMag)
点击操作 vs. 苹果和谷歌的 AI 工具
苹果目前没有为 macOS 提供能够根据屏幕上的项目提供信息并提出操作建议的 AI 工具。苹果的Visual Intelligence 功能与之类似,但目前仅适用于 iOS,并且需要先截屏。不过,它确实允许用户对截屏内容进行操作。
ChromeOS中的Google文本捕捉功能与 Windows 的“点击执行”功能非常接近。使用 Google 的这项功能,您可以长按启动器按钮,在屏幕上查看高亮显示的文本项(无论是实际文本还是图像中的文本),但 Windows 的“点击执行”功能不仅限于文本,还提供其他操作。
不过,在某个特定用例中,Text Capture 的表现更胜一筹:它可以将图像中的数字以与图像中布局相似的方式导入电子表格。当我尝试使用 Click to Do 执行相同的操作时,所有数字都出现在顶行。Click to Do 比 Text Capture 更大的优势在于,您可以选择系统上的任何应用程序来打开相关内容;而 ChromeOS 则限制了您只能使用有限的应用程序。
你可以指出 Click to Do 需要 Copilot PC 作为其缺点。但谷歌的文本捕捉功能仅适用于 Chromebook Plus 机型,而苹果的视觉智能功能也仅适用于最新两代 iPhone。
Copilot Vision怎么样?
Click to Do 与 Copilot Vision 有些相似之处。后者适用于所有Windows 11 电脑,但它需要连接云端,而且不提供可执行操作的菜单。不过,你可以和它对话,了解屏幕上的内容。与 Click to Do 不同的是,它能够描述图像内容。例如,它识别出了我照片中的黑冠夜鹭和暗眼灯芯草雀。我计划在即将发布的文章中深入探讨这项功能。
比其他所有都好
正如我前面提到的,“点击执行”功能并不完美,但它是微软在桌面操作系统人工智能辅助工具领域引领潮流的最新例证。不过,我并不认为苹果和谷歌Chrome会止步不前,所以请密切关注视觉智能和文本捕获功能的发展。
