Skip to content

Chrome AI

July 26, 2024 by ccforeverd

Chrome 浏览器内置 AI 功能, 可以在本地设备上运行 Gemini Nano 模型, 为用户提供更快速、更安全的 AI 功能. 本文介绍如何开启 Built-in AI 功能, 并展示如何在 Web 应用中使用 Gemini API

介绍

Gemini API

Gemini 是由 Google DeepMind 开发的一系列多模态大型语言模型, 它于 2023 年 12 月 6 日发布, 定位为 OpenAIGPT-4 的竞争对手. 主要有以下特点:

  • 多模态能力:
    • 与其他 LLMs 不同, Gemini 的独特之处在于它不是单独在文本语料库上训练的, 而是被设计为多模态的, 这意味着它可以同时处理多种类型的数据, 包括文本, 图像, 音频, 视频和计算机代码
  • 长上下文理解:
    • Gemini 具有复杂的长上下文理解能力, 能够有效处理和解释大型文档和复杂代码. 这一能力对于需要深度上下文理解的应用至关重要, 如高级文档编辑, 长篇内容生成和综合数据分析
  • 高效性和适应性:
    • Gemini 设计高效, 能够在各种平台上无缝运行, 从大型数据中心到设备端应用. 这种适应性确保其可以集成到各种环境中, 不论操作规模如何, 都能提供强大的性能
  • 增强 AI 助手:
    • 凭借其先进的功能, Gemini 显著增强了 AI 助手的有效性和可靠性. 它支持复杂任务的执行, 为用户提供更智能和直观的互动. 无论是协助编写代码, 生成详细报告, 还是创建多媒体内容, Gemini 都提升了 AI 助手的标准.

模型种类

Gemini 包含多个模型种类, 每个模型针对不同的应用场景和任务进行了优化. 这些模型包括:

  • Gemini Ultra:
    • 最大的多模态模型, 适用于大规模, 高度复杂的任务
  • Gemini Pro:
    • 性能最佳的多模态模型, 具有适用于各种推理任务的功能
  • Gemini Flash:
    • 最快的多模态模型, 具有出色的性能, 适用于各种任务
  • Gemini Nano:
    • 专为边缘计算而构建的最高效模型, 如以下介绍的 Chrome Built-in AI

Chrome Built-in AI

Built-in AI 是指将人工智能模型直接集成到用户设备 (如台式机、笔记本电脑、移动设备等) 中运行, 而不依赖于云端服务器进行处理。这种方法结合了设备本地处理能力和 AI 模型, 使得用户可以在本地设备上直接执行 AI 任务

它的优点是:

  1. 隐私和安全:
    • 数据本地处理确保用户隐私和安全
  2. 更高的可用性:
    • 即使没有互联网连接, 用户也能使用 AI 功能, 提高可用性
  3. 低延迟:
    • 本地处理减少数据传输时间, 提供更快的响应和更好的用户体验

它的缺点是:

  1. 硬件限制:
    • 设备性能差异使得不能保证所有设备都能高效运行复杂的 AI 模型
  2. 模型大小和下载需求:
    • AI 模型可能非常大, 占用用户设备的存储空间和流量
  3. 适用场景有限:
    • 本地 AI 模型通常较小, 无法处理需要大型模型的复杂任务

Built-in AI 提供了一种将 AI 功能直接带到用户设备的方法, 具备显著的隐私、安全和低延迟优势。然而, 它也面临硬件限制和模型传输的挑战。在实际应用中, 可以结合云端和本地处理的混合方法, 最大化利用两者的优势。这种方式能够在不牺牲用户体验的情况下, 提高 AI 应用的可用性和安全性

开启 Built-in AI

准备工作

  1. 申请加入体验计划, 在 Chrome for developer 官网页面 点击 "加入我们的早期预览版计划", 在打开的窗口填写信息, 提交后会收到邮件回复
  2. 下载 Chrome Dev 版本 (或 Canary 版本), 并确认版本大于等于 128.0.6545.0
  3. 确保电脑可用存储空间需要大于 22GB

启用 Gemini NanoPrompt API

  1. Chrome 中打开 chrome://flags/#optimization-guide-on-device-model, 选择 Enabled BypassPerfRequirement 状态
  2. Chrome 中打开 chrome://flags/#prompt-api-for-gemini-nano, 选择 Enabled 状态
  3. 重新启动 Chrome

确认 Gemini Nano 的可用性

  1. 打开 Chrome DevTools 并发送 await window.ai.canCreateTextSession() 在控制台中, 如果返回 readily, 即代表可用
  2. 如果返回状态不是 readily, 打开 chrome://components/, 确认 Gemini Nano 可用或正在下载, 组件名称是 Optimization Guide On Device Model

    这里可能会遇到组件一直不出现, 可以尝试修改浏览器语言, 或尝试刷新, 以及在页面多停留一段时间, 初次访问加载较慢, 等待时间会比较久

  3. 如果模型已经下载完毕, 则在控制台执行 await window.ai.createTextSession() 命令, 观察结果
  4. 重新启动 Chrome

代码示例

在 Web 应用里使用 Gemini API

准备工作

  1. 准备一个web项目
  2. 获取 Gemini API Key, 可以在 Google AI Studio 里申请
  3. 在页面里导入 SDK @google/generative-ai 并初始化模型