小众AI

OWL
OWL - 优化劳动力学习的通用智能体
OWL 是一个前沿的多智能体协作框架,推动任务自动化的边界,构建在 CAMEL-AI Framework。愿景是彻底变革 AI 智能体协作解决现实任务的方式。通过利用动态智能体交互,OWL 实现了跨多领域更自然、高效且稳健的任务自动化。
  代码仓

🦉 OWL 是一个前沿的多智能体协作框架,推动任务自动化的边界,构建在 CAMEL-AI Framework。愿景是彻底变革 AI 智能体协作解决现实任务的方式。通过利用动态智能体交互,OWL 实现了跨多领域更自然、高效且稳健的任务自动化。🏆 OWL 在 GAIA 基准测试中取得 58.18 平均分,在开源框架中排名 🏅️ #1! 🏆

主要功能

  • 在线搜索:支持多种搜索引擎(包括维基百科、Google、DuckDuckGo、百度、博查等),实现实时信息检索与知识获取
  • 多模态处理:支持互联网或本地视频、图片、语音处理
  • 浏览器操作:借助Playwright框架开发浏览器模拟交互,支持页面滚动、点击、输入、下载、历史回退等功能
  • 文件解析:word、excel、PDF、PowerPoint信息提取,内容转文本/Markdown
  • 代码执行:编写python代码,并使用解释器运行
  • 丰富工具包:提供丰富的工具包,包括ArxivToolkit(学术论文检索)、AudioAnalysisToolkit(音频分析)、CodeExecutionToolkit(代码执行)、DalleToolkit(图像生成)、DataCommonsToolkit(数据共享)、ExcelToolkit(Excel处理)、GitHubToolkit(GitHub交互)、GoogleMapsToolkit(地图服务)、GoogleScholarToolkit(学术搜索)、ImageAnalysisToolkit(图像分析)、MathToolkit(数学计算)、NetworkXToolkit(图形分析)、NotionToolkit(Notion交互)、OpenAPIToolkit(API操作)、RedditToolkit(Reddit交互)、SearchToolkit(搜索服务)、SemanticScholarToolkit(语义学术搜索)、SymPyToolkit(符号计算)、VideoAnalysisToolkit(视频分析)、WeatherToolkit(天气查询)、BrowserToolkit(网页交互)等多种专业工具,满足各类特定任务需求。

🛠️ 安装

选项1:使用 uv(推荐)

# 克隆 GitHub 仓库
git clone https://github.com/camel-ai/owl.git

# 进入项目目录
cd owl

# 如果你还没有安装 uv,请先安装
pip install uv

# 创建虚拟环境并安装依赖
# 我们支持使用 Python 3.10、3.11、3.12
uv venv .venv --python=3.10

# 激活虚拟环境
# 对于 macOS/Linux
source .venv/bin/activate
# 对于 Windows
.venv\Scripts\activate

# 安装 CAMEL 及其所有依赖
uv pip install -e .

# 完成后退出虚拟环境
deactivate

选项2:使用 venv 和 pip

# 克隆 GitHub 仓库
git clone https://github.com/camel-ai/owl.git

# 进入项目目录
cd owl

# 创建虚拟环境
# 对于 Python 3.10(也适用于 3.11、3.12)
python3.10 -m venv .venv

# 激活虚拟环境
# 对于 macOS/Linux
source .venv/bin/activate
# 对于 Windows
.venv\Scripts\activate

# 从 requirements.txt 安装
pip install -r requirements.txt --use-pep517

选项3:使用 conda

# 克隆 GitHub 仓库
git clone https://github.com/camel-ai/owl.git

# 进入项目目录
cd owl

# 创建 conda 环境
conda create -n owl python=3.10

# 激活 conda 环境
conda activate owl

# 选项1:作为包安装(推荐)
pip install -e .

# 选项2:从 requirements.txt 安装
pip install -r requirements.txt --use-pep517

# 完成后退出 conda 环境
conda deactivate

设置环境变量

OWL 需要各种 API 密钥来与不同的服务进行交互。owl/.env_template 文件包含了所有必要 API 密钥的占位符,以及可以注册这些服务的链接。

选项 1:使用 .env 文件(推荐)
  1. 复制并重命名模板:

    cd owl
    cp .env_template .env
    
  2. 配置你的 API 密钥: 在你喜欢的文本编辑器中打开 .env 文件,并在相应字段中插入你的 API 密钥。

    注意:对于最小示例(examples/run_mini.py),你只需要配置 LLM API 密钥(例如,OPENAI_API_KEY)。

选项 2:直接设置环境变量

或者,你可以直接在终端中设置环境变量:

  • macOS/Linux (Bash/Zsh):

    export OPENAI_API_KEY="你的-openai-api-密钥"
    
  • Windows (命令提示符):

    set OPENAI_API_KEY="你的-openai-api-密钥"
    
  • Windows (PowerShell):

    $env:OPENAI_API_KEY = "你的-openai-api-密钥"
    

注意:直接在终端中设置的环境变量仅在当前会话中有效。

使用Docker运行

OWL可以通过Docker轻松部署,Docker提供了跨不同平台的一致环境。

设置说明
# 克隆仓库
git clone https://github.com/camel-ai/owl.git
cd owl

# 配置环境变量
cp owl/.env_template owl/.env
# 编辑.env文件,填入您的API密钥
部署选项
选项1:使用预构建镜像(推荐)
# 此选项从Docker Hub下载一个即用型镜像
# 最快速且推荐给大多数用户
docker-compose up -d

# 在容器中运行OWL
docker-compose exec owl bash
cd .. && source .venv/bin/activate
playwright install-deps
xvfb-python examples/run.py
选项2:本地构建镜像
# 适用于需要自定义Docker镜像或无法访问Docker Hub的用户:
# 1. 打开docker-compose.yml
# 2. 注释掉"image: mugglejinx/owl:latest"行
# 3. 取消注释"build:"部分及其嵌套属性
# 4. 然后运行:
docker-compose up -d --build

# 在容器中运行OWL
docker-compose exec owl bash
cd .. && source .venv/bin/activate
playwright install-deps
xvfb-python examples/run.py
选项3:使用便捷脚本
# 导航到容器目录
cd .container

# 使脚本可执行并构建Docker镜像
chmod +x build_docker.sh
./build_docker.sh

# 使用您的问题运行OWL
./run_in_docker.sh "您的问题"
MCP Desktop Commander设置

如果在Docker中使用MCP Desktop Commander,请运行:

npx -y @wonderwhy-er/desktop-commander setup --force-file-protocol

更多详细的Docker使用说明,包括跨平台支持、优化配置和故障排除,请参阅 DOCKER_README.md

🚀 开始使用

基本用法

运行以下示例:

python examples/run.py

我们还提供了一个最小化示例,只需配置LLM的API密钥即可运行:

python examples/run_mini.py

使用不同的模型

模型要求
  • 工具调用能力:OWL 需要具有强大工具调用能力的模型来与各种工具包交互。模型必须能够理解工具描述、生成适当的工具调用,并处理工具输出。
  • 多模态理解能力:对于涉及网页交互、图像分析或视频处理的任务,需要具备多模态能力的模型来解释视觉内容和上下文。
支持的模型

有关配置模型的信息,请参阅我们的 CAMEL 模型文档

注意:为获得最佳性能,我们强烈推荐使用 OpenAI 模型(GPT-4 或更高版本)。我们的实验表明,其他模型在复杂任务和基准测试上可能表现明显较差,尤其是那些需要多模态理解和工具使用的任务。

OWL 支持多种 LLM 后端,但功能可能因模型的工具调用和多模态能力而异。您可以使用以下脚本来运行不同的模型:

# 使用 Qwen 模型运行
python examples/run_qwen_zh.py

# 使用 Deepseek 模型运行
python examples/run_deepseek_zh.py

# 使用其他 OpenAI 兼容模型运行
python examples/run_openai_compatiable_model.py

# 使用 Azure OpenAI模型运行
python examples/run_azure_openai.py

# 使用 Ollama 运行
python examples/run_ollama.py

你可以通过修改 examples/run.py 脚本来运行自己的任务:

# Define your own task
question = "Task description here."

society = construct_society(question)
answer, chat_history, token_count = run_society(society)

print(f"\033[94mAnswer: {answer}\033[0m")

上传文件时,只需提供文件路径和问题:

# 处理本地文件(例如,文件路径为 `tmp/example.docx`)
question = "给定的 DOCX 文件中有什么内容?文件路径如下:tmp/example.docx"

society = construct_society(question)
answer, chat_history, token_count = run_society(society)

print(f"答案:{answer}")

OWL 将自动调用与文档相关的工具来处理文件并提取答案。

你可以尝试以下示例任务:

  • “查询苹果公司的最新股票价格”
  • “分析关于气候变化的最新推文情绪”
  • “帮我调试这段 Python 代码:[在此粘贴你的代码]”
  • “总结这篇研究论文的主要观点:[论文URL]”

🧰 工具包与功能

模型上下文协议(MCP)

OWL 的 MCP 集成为 AI 模型与各种工具和数据源的交互提供了标准化的方式。 在使用MCP前,需要先安装Node.js。

安装 Node.js
Windows

下载官方安装包:Node.js

安装时,勾选 “Add to PATH” 选项。

Linux
sudo apt update
sudo apt install nodejs npm -y
Mac
brew install node
安装 MCP 服务
npm install -g @executeautomation/playwright-mcp-server
npx playwright install-deps

查看我们的综合示例 examples/run_mcp.py 来体验这些功能!

可用工具包

重要提示:有效使用工具包需要具备强大工具调用能力的模型。对于多模态工具包(Web、图像、视频),模型还必须具备多模态理解能力。

OWL支持多种工具包,可通过修改脚本中的tools列表进行自定义:

# 配置工具包
tools = [
    *BrowserToolkit(headless=False).get_tools(),  # 浏览器自动化
    *VideoAnalysisToolkit(model=models["video"]).get_tools(),
    *AudioAnalysisToolkit().get_tools(),  # 需要OpenAI API密钥
    *CodeExecutionToolkit(sandbox="subprocess").get_tools(),
    *ImageAnalysisToolkit(model=models["image"]).get_tools(),
    SearchToolkit().search_duckduckgo,
    SearchToolkit().search_google,  # 如果不可用请注释
    SearchToolkit().search_wiki,
    SearchToolkit().search_bocha,
    SearchToolkit().search_baidu,
    *ExcelToolkit().get_tools(),
    *DocumentProcessingToolkit(model=models["document"]).get_tools(),
    *FileWriteToolkit(output_dir="./").get_tools(),
]

主要工具包

关键工具包包括:

多模态工具包(需要模型具备多模态能力)
  • BrowserToolkit:浏览器自动化,用于网页交互和导航
  • VideoAnalysisToolkit:视频处理和内容分析
  • ImageAnalysisToolkit:图像分析和解释
基于文本的工具包
  • AudioAnalysisToolkit:音频处理(需要 OpenAI API)
  • CodeExecutionToolkit:Python 代码执行和评估
  • SearchToolkit:网络搜索(Google、DuckDuckGo、维基百科)
  • DocumentProcessingToolkit:文档解析(PDF、DOCX等)

其他专用工具包:ArxivToolkit、GitHubToolkit、GoogleMapsToolkit、MathToolkit、NetworkXToolkit、NotionToolkit、RedditToolkit、WeatherToolkit等。完整工具包列表请参阅CAMEL工具包文档

自定义配置

自定义可用工具的方法:

# 1. 导入工具包
from camel.toolkits import BrowserToolkit, SearchToolkit, CodeExecutionToolkit

# 2. 配置工具列表
tools = [
    *BrowserToolkit(headless=True).get_tools(),
    SearchToolkit().search_wiki,
    *CodeExecutionToolkit(sandbox="subprocess").get_tools(),
]

# 3. 传递给助手代理
assistant_agent_kwargs = {"model": models["assistant"], "tools": tools}

选择必要的工具包可优化性能并减少资源使用。

🌐 网页界面

🚀 全新升级的网页界面现已发布!

体验更稳定的系统性能和优化后的执行效率。 通过我们直观的界面,开启OWL强大功能的探索之旅!

OWL 现在包含一个基于网页的用户界面,使与系统交互变得更加容易。要启动网页界面,请运行:

# 中文版本
python owl/webapp_zh.py

# 英文版本
python owl/webapp.py

网页界面提供以下功能:

  • 便捷的模型选择:选择不同的模型(OpenAI、Qwen、DeepSeek等)
  • 环境变量管理:直接从界面配置API密钥和其他设置
  • 交互式聊天界面:通过用户友好的界面与OWL智能体交流
  • 任务历史:查看交互的历史记录和结果

网页界面使用Gradio构建,在您的本地机器上运行。除了您配置的模型API调用所需的数据外,不会向外部服务器发送任何数据。

🧪 实验

我们提供了一个脚本用于复现 GAIA 上的实验结果。 要复现我们在 GAIA 基准测试中获得的 58.18 分:

  1. 切换到 gaia58.18 分支:
git checkout gaia58.18
  1. 运行评估脚本:
python examples/run_gaia_roleplaying.py

更多...


wdoc
一个功能强大的 RAG(检索增强生成)系统,旨在汇总、搜索和查询各种文件类型的文档。
ai-financial-agent
探索人工智能在投资研究中的应用。
Meetily
一个 AI 驱动的会议助手,可捕获实时会议音频、实时转录并生成摘要,同时确保用户隐私。