Chrome AI
July 26, 2024 by
Chrome
浏览器内置 AI
功能, 可以在本地设备上运行 Gemini Nano
模型, 为用户提供更快速、更安全的 AI
功能. 本文介绍如何开启 Built-in AI
功能, 并展示如何在 Web
应用中使用 Gemini API
介绍
Gemini API
Gemini
是由 Google DeepMind
开发的一系列多模态大型语言模型, 它于 2023 年 12 月 6 日发布, 定位为 OpenAI
的 GPT-4
的竞争对手. 主要有以下特点:
- 多模态能力:
- 与其他
LLMs
不同,Gemini
的独特之处在于它不是单独在文本语料库上训练的, 而是被设计为多模态的, 这意味着它可以同时处理多种类型的数据, 包括文本, 图像, 音频, 视频和计算机代码
- 与其他
- 长上下文理解:
Gemini
具有复杂的长上下文理解能力, 能够有效处理和解释大型文档和复杂代码. 这一能力对于需要深度上下文理解的应用至关重要, 如高级文档编辑, 长篇内容生成和综合数据分析
- 高效性和适应性:
Gemini
设计高效, 能够在各种平台上无缝运行, 从大型数据中心到设备端应用. 这种适应性确保其可以集成到各种环境中, 不论操作规模如何, 都能提供强大的性能
- 增强
AI
助手:- 凭借其先进的功能,
Gemini
显著增强了AI
助手的有效性和可靠性. 它支持复杂任务的执行, 为用户提供更智能和直观的互动. 无论是协助编写代码, 生成详细报告, 还是创建多媒体内容,Gemini
都提升了AI
助手的标准.
- 凭借其先进的功能,
模型种类
Gemini
包含多个模型种类, 每个模型针对不同的应用场景和任务进行了优化. 这些模型包括:
Gemini Ultra
:- 最大的多模态模型, 适用于大规模, 高度复杂的任务
Gemini Pro
:- 性能最佳的多模态模型, 具有适用于各种推理任务的功能
Gemini Flash
:- 最快的多模态模型, 具有出色的性能, 适用于各种任务
Gemini Nano
:- 专为边缘计算而构建的最高效模型, 如以下介绍的
Chrome Built-in AI
- 专为边缘计算而构建的最高效模型, 如以下介绍的
Chrome Built-in AI
Built-in AI
是指将人工智能模型直接集成到用户设备 (如台式机、笔记本电脑、移动设备等) 中运行, 而不依赖于云端服务器进行处理。这种方法结合了设备本地处理能力和 AI
模型, 使得用户可以在本地设备上直接执行 AI
任务
它的优点是:
- 隐私和安全:
- 数据本地处理确保用户隐私和安全
- 更高的可用性:
- 即使没有互联网连接, 用户也能使用
AI
功能, 提高可用性
- 即使没有互联网连接, 用户也能使用
- 低延迟:
- 本地处理减少数据传输时间, 提供更快的响应和更好的用户体验
它的缺点是:
- 硬件限制:
- 设备性能差异使得不能保证所有设备都能高效运行复杂的
AI
模型
- 设备性能差异使得不能保证所有设备都能高效运行复杂的
- 模型大小和下载需求:
AI
模型可能非常大, 占用用户设备的存储空间和流量
- 适用场景有限:
- 本地
AI
模型通常较小, 无法处理需要大型模型的复杂任务
- 本地
Built-in AI
提供了一种将AI
功能直接带到用户设备的方法, 具备显著的隐私、安全和低延迟优势。然而, 它也面临硬件限制和模型传输的挑战。在实际应用中, 可以结合云端和本地处理的混合方法, 最大化利用两者的优势。这种方式能够在不牺牲用户体验的情况下, 提高AI
应用的可用性和安全性
开启 Built-in AI
准备工作
- 申请加入体验计划, 在
Chrome for developer
官网页面 点击 "加入我们的早期预览版计划", 在打开的窗口填写信息, 提交后会收到邮件回复 - 下载 Chrome Dev 版本 (或 Canary 版本), 并确认版本大于等于
128.0.6545.0
- 确保电脑可用存储空间需要大于
22GB
启用 Gemini Nano
和 Prompt API
- 在
Chrome
中打开 chrome://flags/#optimization-guide-on-device-model, 选择Enabled BypassPerfRequirement
状态 - 在
Chrome
中打开 chrome://flags/#prompt-api-for-gemini-nano, 选择Enabled
状态 - 重新启动
Chrome
确认 Gemini Nano 的可用性
- 打开
Chrome DevTools
并发送await window.ai.canCreateTextSession()
在控制台中, 如果返回readily
, 即代表可用 - 如果返回状态不是
readily
, 打开 chrome://components/, 确认Gemini Nano
可用或正在下载, 组件名称是Optimization Guide On Device Model
这里可能会遇到组件一直不出现, 可以尝试修改浏览器语言, 或尝试刷新, 以及在页面多停留一段时间, 初次访问加载较慢, 等待时间会比较久
- 如果模型已经下载完毕, 则在控制台执行
await window.ai.createTextSession()
命令, 观察结果 - 重新启动
Chrome
代码示例
在 Web 应用里使用 Gemini API
准备工作
- 准备一个web项目
- 获取
Gemini API Key
, 可以在 Google AI Studio 里申请 - 在页面里导入
SDK
@google/generative-ai
并初始化模型