Chrome AI
July 26, 2024 by
Chrome 浏览器内置 AI 功能, 可以在本地设备上运行 Gemini Nano 模型, 为用户提供更快速、更安全的 AI 功能. 本文介绍如何开启 Built-in AI 功能, 并展示如何在 Web 应用中使用 Gemini API
介绍
Gemini API
Gemini 是由 Google DeepMind 开发的一系列多模态大型语言模型, 它于 2023 年 12 月 6 日发布, 定位为 OpenAI 的 GPT-4 的竞争对手. 主要有以下特点:
- 多模态能力:
- 与其他
LLMs不同,Gemini的独特之处在于它不是单独在文本语料库上训练的, 而是被设计为多模态的, 这意味着它可以同时处理多种类型的数据, 包括文本, 图像, 音频, 视频和计算机代码
- 与其他
- 长上下文理解:
Gemini具有复杂的长上下文理解能力, 能够有效处理和解释大型文档和复杂代码. 这一能力对于需要深度上下文理解的应用至关重要, 如高级文档编辑, 长篇内容生成和综合数据分析
- 高效性和适应性:
Gemini设计高效, 能够在各种平台上无缝运行, 从大型数据中心到设备端应用. 这种适应性确保其可以集成到各种环境中, 不论操作规模如何, 都能提供强大的性能
- 增强
AI助手:- 凭借其先进的功能,
Gemini显著增强了AI助手的有效性和可靠性. 它支持复杂任务的执行, 为用户提供更智能和直观的互动. 无论是协助编写代码, 生成详细报告, 还是创建多媒体内容,Gemini都提升了AI助手的标准.
- 凭借其先进的功能,
模型种类
Gemini 包含多个模型种类, 每个模型针对不同的应用场景和任务进行了优化. 这些模型包括:
Gemini Ultra:- 最大的多模态模型, 适用于大规模, 高度复杂的任务
Gemini Pro:- 性能最佳的多模态模型, 具有适用于各种推理任务的功能
Gemini Flash:- 最快的多模态模型, 具有出色的性能, 适用于各种任务
Gemini Nano:- 专为边缘计算而构建的最高效模型, 如以下介绍的
Chrome Built-in AI
- 专为边缘计算而构建的最高效模型, 如以下介绍的
Chrome Built-in AI
Built-in AI 是指将人工智能模型直接集成到用户设备 (如台式机、笔记本电脑、移动设备等) 中运行, 而不依赖于云端服务器进行处理。这种方法结合了设备本地处理能力和 AI 模型, 使得用户可以在本地设备上直接执行 AI 任务
它的优点是:
- 隐私和安全:
- 数据本地处理确保用户隐私和安全
- 更高的可用性:
- 即使没有互联网连接, 用户也能使用
AI功能, 提高可用性
- 即使没有互联网连接, 用户也能使用
- 低延迟:
- 本地处理减少数据传输时间, 提供更快的响应和更好的用户体验
它的缺点是:
- 硬件限制:
- 设备性能差异使得不能保证所有设备都能高效运行复杂的
AI模型
- 设备性能差异使得不能保证所有设备都能高效运行复杂的
- 模型大小和下载需求:
AI模型可能非常大, 占用用户设备的存储空间和流量
- 适用场景有限:
- 本地
AI模型通常较小, 无法处理需要大型模型的复杂任务
- 本地
Built-in AI提供了一种将AI功能直接带到用户设备的方法, 具备显著的隐私、安全和低延迟优势。然而, 它也面临硬件限制和模型传输的挑战。在实际应用中, 可以结合云端和本地处理的混合方法, 最大化利用两者的优势。这种方式能够在不牺牲用户体验的情况下, 提高AI应用的可用性和安全性
开启 Built-in AI
准备工作
- 申请加入体验计划, 在
Chrome for developer官网页面 点击 "加入我们的早期预览版计划", 在打开的窗口填写信息, 提交后会收到邮件回复 - 下载 Chrome Dev 版本 (或 Canary 版本), 并确认版本大于等于
128.0.6545.0 - 确保电脑可用存储空间需要大于
22GB
启用 Gemini Nano 和 Prompt API
- 在
Chrome中打开 chrome://flags/#optimization-guide-on-device-model, 选择Enabled BypassPerfRequirement状态 - 在
Chrome中打开 chrome://flags/#prompt-api-for-gemini-nano, 选择Enabled状态 - 重新启动
Chrome
确认 Gemini Nano 的可用性
- 打开
Chrome DevTools并发送await window.ai.canCreateTextSession()在控制台中, 如果返回readily, 即代表可用 - 如果返回状态不是
readily, 打开 chrome://components/, 确认Gemini Nano可用或正在下载, 组件名称是Optimization Guide On Device Model这里可能会遇到组件一直不出现, 可以尝试修改浏览器语言, 或尝试刷新, 以及在页面多停留一段时间, 初次访问加载较慢, 等待时间会比较久
- 如果模型已经下载完毕, 则在控制台执行
await window.ai.createTextSession()命令, 观察结果 - 重新启动
Chrome
代码示例
在 Web 应用里使用 Gemini API
准备工作
- 准备一个web项目
- 获取
Gemini API Key, 可以在 Google AI Studio 里申请 - 在页面里导入
SDK@google/generative-ai并初始化模型