AgenticSeek
一个 100% 本地替代 Manus AI 的方案,这款支持语音的 AI 助理能够自主浏览网页、编写代码和规划任务,同时将所有数据保留在您的设备上。专为本地推理模型量身打造,完全在您自己的硬件上运行,确保完全的隐私保护和零云端依赖。
agent-zero
Agent Zero 是一个与众不同的 AI 框架,它并非预先定义,而是随着你的使用而有机地成长和学习。它旨在成为一个透明、易读、可理解、可定制和交互式的工具,能够利用你的电脑来完成各项任务。它就像一个通用的个人助理,可以帮你搜集信息、执行命令和代码,与其他智能体协作,尽其所能地完成你给定的任务。
AI-Media2Doc
AI 视频图文创作助手是一款Web工具, 基于AI大模型, 将视频和音频转化为各种风格的文档, 无需登录注册, 前后端本地部署,以极低的成本体验 AI 视频/音频转风格文档服务。一键将视频和音频转化为小红书/公众号/知识笔记/思维导图/视频字幕等各种风格的文档。
magentic-ui
Magentic-UI 是一个以人为本的界面的研究原型,由多代理系统提供支持,可以在 Web 上浏览和执行作,生成和执行代码,以及生成和分析文件。 Magentic-UI 对于需要在 Web 上执行作(例如,填写表单、自定义食品订单)、在未被搜索引擎索引的网站中进行深度导航(例如,过滤航班、从个人站点查找链接)或需要 Web 导航和代码执行的任务(例如,从在线数据生成图表)的 Web 任务特别有用。
lobe-chat
Dify 是一个易用的 LLMOps 平台,旨在让更多人可以创建可持续运营的原生 AI 应用。Dify 提供多种类型应用的可视化编排,应用可开箱即用,也能以“后端即服务”的 API 提供服务。
dify
Dify 是一个易用的 LLMOps 平台,旨在让更多人可以创建可持续运营的原生 AI 应用。Dify 提供多种类型应用的可视化编排,应用可开箱即用,也能以“后端即服务”的 API 提供服务。
Craw4AI
Crawl4AI旨在让网页爬取和数据提取变得简单而高效。无论构建复杂的 AI 应用程序还是增强大语言模型,Crawl4AI 都能提供简化工作流程所需的工具。凭借完全的异步支持,Crawl4AI 可确保爬取任务快速、可靠且可扩展。
Opik
Opik 是一个用于评估、测试和监控 LLM 应用程序的开源平台。由 Comet 建造。从 RAG 聊天机器人到代码助手,再到复杂的代理管道等等,通过跟踪、评估和仪表板构建运行得更好、更快、更便宜的 LLM 系统。
Suna
Suna 是一个完全开源的 AI 助手,可帮助您轻松完成实际任务。通过自然对话,Suna 成为您进行研究、数据分析和日常挑战的数字伴侣 — 将强大的功能与直观的界面相结合,了解您的需求并提供结果。
Void
Void,这款编辑器号称是开源的 Cursor 和 GitHub Copilot 替代品,而且完全免费!
UI-TARS
基于视觉语言模型(Vision-Language Model)的 GUI 代理应用,允许用户通过自然语言控制电脑操作。它结合了视觉识别和自然语言处理技术,能够理解用户的指令并执行相应的操作。
fastmcp
用于构建 MCP(Model Context Protocol)服务器和客户端的 Python 框架,帮助开发者以更快速、简洁的方式向 LLM 暴露数据资源和工具。
Ableton-MCP
AbletonMCP 通过模型上下文协议 (MCP) 将 Ableton Live 连接到 Claude AI,使 Claude 能够直接与 Ableton Live 交互和控制。此集成支持提示辅助音乐制作、音轨创建和 Live 会话作。
Agent-S
让 AI 像人一样操作电脑(如 macOS、Windows、Linux、Android),可自动完成复杂的 GUI 操作任务的 AI Agent 框架。它采用“通用体+专家体”组合架构,支持主动分层规划。
agent-service-toolkit
帮助开发者用 Python 快速搭建和运行基于 LangGraph 框架的 AI 代理服务。它结合 FastAPI、Streamlit 和 Pydantic 等技术栈,提供了用户界面、自定义 Agent、流式传输等功能,并集成了内容审核(LlamaGuard)和用户反馈机制(LangSmith),极大地简化了 AI Agent 应用的开发和优化过程。
agent-zero
Agent Zero 是一个与众不同的 AI 框架,它并非预先定义,而是随着你的使用而有机地成长和学习。它旨在成为一个透明、易读、可理解、可定制和交互式的工具,能够利用你的电脑来完成各项任务。它就像一个通用的个人助理,可以帮你搜集信息、执行命令和代码,与其他智能体协作,尽其所能地完成你给定的任务。
AgenticSeek
一个 100% 本地替代 Manus AI 的方案,这款支持语音的 AI 助理能够自主浏览网页、编写代码和规划任务,同时将所有数据保留在您的设备上。专为本地推理模型量身打造,完全在您自己的硬件上运行,确保完全的隐私保护和零云端依赖。
agno
一个高性能、开源的 Python 库,用于构建多模态智能代理。通过统一大语言模型的 API,并赋予它们记忆、知识、工具和推理等强大功能。该项目速度快、内存占用少,支持文本、图像、音频和视频等多种内容形式,以及多代理、结构化输出,兼容几乎任何模型和服务供应商。
AI Hedge Fund
通过模拟多种投资策略的智能代理(agents),进行股票分析和交易决策。项目仅用于教育和研究目的,不适用于实际交易或投资。
ai-financial-agent
探索人工智能在投资研究中的应用。
AI-Media2Doc
AI 视频图文创作助手是一款Web工具, 基于AI大模型, 将视频和音频转化为各种风格的文档, 无需登录注册, 前后端本地部署,以极低的成本体验 AI 视频/音频转风格文档服务。一键将视频和音频转化为小红书/公众号/知识笔记/思维导图/视频字幕等各种风格的文档。
AI-on-the-edge-device
演示了使用 **ESP32**(一种低成本、支持 AI 的设备)进行边缘计算,以数字化您的模拟电表,无论是水表、燃气表还是电表。通过经济实惠的硬件和简单的说明,您可以将任何标准仪表变成智能设备。
aisuite
`aisuite`使开发人员能够通过标准化接口轻松使用多个 LLM。使用类似于 OpenAI 的界面,可以轻松地与最流行的 LLM 进行交互并比较结果。它是 python 客户端库的精简包装器,允许创建者无缝交换和测试来自不同 LLM 提供程序的响应,而无需更改其代码。如今,该库主要专注于聊天完成。我们将在不久的将来将其扩展到更多使用案例。
anx-reader
一款为图书爱好者精心打造的电子书阅读器。它具有强大的 AI 功能并支持各种电子书格式,使阅读更智能、更专注。凭借其现代的界面设计,我们致力于提供纯粹的阅读乐趣。
wdoc
一个功能强大的 RAG(检索增强生成)系统,旨在汇总、搜索和查询各种文件类型的文档。
ai-financial-agent
探索人工智能在投资研究中的应用。
Meetily
一个 AI 驱动的会议助手,可捕获实时会议音频、实时转录并生成摘要,同时确保用户隐私。
Spark-TTS
Spark-TTS 完全基于Qwen2.5 构建,无需使用流匹配等额外生成模型。它无需依赖单独的模型来生成声学特征,而是直接从 [LLM]预测的代码中重建音频。这种方法简化了流程,提高了效率并降低了复杂性。
VoiceCanvas
VoiceCanvas 是一款开源的文本转语音系统,支持超过 50 种语言和多种音色选择,还具备声音克隆功能。
agent-zero
Agent Zero 是一个与众不同的 AI 框架,它并非预先定义,而是随着你的使用而有机地成长和学习。它旨在成为一个透明、易读、可理解、可定制和交互式的工具,能够利用你的电脑来完成各项任务。它就像一个通用的个人助理,可以帮你搜集信息、执行命令和代码,与其他智能体协作,尽其所能地完成你给定的任务。
watermark-removal
使用基于机器学习的图像修复方法从图像中去除水印,这与图像的真实版本完全没有区别。
one-api
通过标准的 OpenAI API 格式访问所有的大模型,统一 API 适配,可用于 key 管理与二次分发。
DevDocs
DevDocs 是一个完全免费的开源工具,由 CyberAGI 团队开发,托管在 GitHub 上。它专为程序员和软件开发者设计,能从技术文档的网址开始,自动爬取相关页面并整理成简洁的 Markdown 或 JSON 文件。
AutoAgent
由香港大学数据智能实验室(HKUDS)开发的一个开源AI智能体框架,托管于GitHub。它允许用户通过纯自然语言描述需求,快速创建和部署定制化的AI智能体,无需任何编程基础。
new-api
AI模型接口管理与分发系统,支持将多种大模型转为OpenAI格式调用、支持Midjourney Proxy、Suno、Rerank,兼容易支付协议,可供个人或者企业内部管理与分发渠道使用,本项目基于One API二次开发。
CHRONOS
CHRONOS是一种新颖的基于检索的时间线摘要 (TLS) 方法,通过迭代提出有关主题和检索到的文档的问题来生成按时间顺序排列的摘要。
Manus
Manus AI Agent是一款由中国团队研发的全球首款通用型AI Agent产品。
360AI搜索
360推出的新一代答案引擎,全新的AI助手,绿色安全。
Bing Image Creator
Bing Image Creator是微软推出的一款基于深度学习的图片生成工具,能够根据用户的文字描述自动生成高质量的真实图画。
Bolt.New
Bolt 是由 StackBlitz 推出的基于浏览器的 AI 全栈 Web 开发工具,无需本地设置即可进行提示、运行、编辑和部署全栈应用程序,对中文支持很友好。
Bubble AI
Bubble AI是一款可以利用最新的技术包括OpenAI和ChatGPT构建、测试和扩展应用程序的平台。它提供了一种简单而强大的方式来创建功能丰富的网站,并可以自定义和集成各种功能。通过Bubble AI,用户可以使用无代码的方式快速开发应用程序,并利用内置的AI功能提供更智能、更交互式的用户体验。Bubble AI还提供了灵活的定价选项,以满足不同用户的需求。
Canva AI
Canva AI是Canva推出的一系列基于深度学习的创意设计工具,旨在通过自动化和智能化技术简化设计流程,让用户能够轻松创建高质量的图形和视频内容。
ChatGPT
ChatGPT是由OpenAI公司推出的火爆全球的聊天对话机器人,该AI聊天对话工具建立在OpenAI开发的GPT-4语言模型上,它可以执行各种自然语言处理(NLP)任务,如总结、分类、提问和回答,以及类似人类反应的错误纠正。ChatGPT是一项革命性的技术,通过将人们的工作效率提高到一个新的水平,使人们的生活更加轻松。
Claude
Claude是由Anthropic开发的一款强大的人工智能聊天机器人,专注于提供富有个性化的沟通交互体验。
Colorize.cc
Colorize.cc是一款使用深度学习技术为黑白照片和视频上色的人工智能服务。通过几个简单的步骤,您可以在几分钟内给数百张家庭照片上色。
ElevenLabs
ElevenLabs.io是一个基于人工智能技术的文字转语音配音合成平台。它通过先进的深度学习技术,能够生成高保真、高清晰度、高自然度的语音,为用户提供创新的AI语音合成体验。
Github Copilot
Github Copilot是一款由GitHub、OpenAI和Microsoft联合开发的AI辅助开发工具,旨在通过提供代码补全、错误修正、优化建议等功能,帮助开发者更高效地编写代码。
GPTZero
GPTZero是由普林斯顿大学的华人学生Edward Tian开发的一款人工智能模型,它基于深度学习算法和统计特征,能够有效地区分人类书写的文本和由机器(如ChatGPT、GPT-4等)生成的文本。
AI-on-the-edge-device
演示了使用 **ESP32**(一种低成本、支持 AI 的设备)进行边缘计算,以数字化您的模拟电表,无论是水表、燃气表还是电表。通过经济实惠的硬件和简单的说明,您可以将任何标准仪表变成智能设备。
Lite.Ai.ToolKit
一个轻量级的 C++ 工具包,包含 100+ 个很棒的 AI 模型,例如对象检测、人脸检测、人脸识别、分割、遮罩等。请参阅 Model Zoo 和 ONNX Hub、MNN Hub、TNN Hub、NCNN Hub。
xiaozhi-esp32
xiaozhi-esp32是一款基于 ESP-IDF 开发框架的开源硬件项目,旨在利用低成本硬件打造个人专属的 AI 聊天机器人。它通过 WebSocket 或 UDP 协议与 LLM、TTS API 服务连接,实现实时语音交互功能,无需在设备上运行 LLM,支持中文在内的多国语言、语音识别用户身份、自定义提示词和音色等功能,兼容多款 ESP32 开发板。
miniMNIST-c
在 C 语言中实现了一个最小的神经网络,用于对 MNIST 数据集中的手写数字进行分类。整个实现是 ~200 行代码,并且只使用标准 C 库。
one-api
通过标准的 OpenAI API 格式访问所有的大模型,统一 API 适配,可用于 key 管理与二次分发。
new-api
AI模型接口管理与分发系统,支持将多种大模型转为OpenAI格式调用、支持Midjourney Proxy、Suno、Rerank,兼容易支付协议,可供个人或者企业内部管理与分发渠道使用,本项目基于One API二次开发。
KrillinAI
简约而强大的工具可以处理从翻译、配音到语音克隆、格式化的所有内容——在横向和纵向模式之间无缝转换视频,以便在所有内容平台(YouTube、TikTok、Bilibili、抖音、微信频道、RedNote、快手)上实现最佳显示。
GeekAI
GeekAI 基于 AI 大语言模型 API 实现的 AI 助手全套开源解决方案,自带运营管理后台,开箱即用。集成了 OpenAI, Azure, ChatGLM,讯飞星火,文心一言等多个平台的大语言模型。集成了 MidJourney 和 Stable Diffusion AI绘画功能。
ollama
用 Go 语言写的工具,用于在本地一条命令安装、启动和管理大型语言模型,支持 Llama 3、Gemma、Mistral 等大模型,适用于 Windows、macOS、Linux 操作系统。
Chat2DB
AI 驱动的数据库工具和 SQL 客户端,最热门的 GUI 客户端,支持 MySQL、Oracle、PostgreSQL、DB2、SQL Server、DB2、SQLite、H2、ClickHouse 等。
midjourney-proxy
midjourney-proxy为使用 MidJourney Discord 频道的用户提供了一个代理,使他们可以通过 API 调用 AI 绘图功能。这样的代理能够简化用户与 AI 绘图功能的交互,使得调用过程更加便捷。
AI-Media2Doc
AI 视频图文创作助手是一款Web工具, 基于AI大模型, 将视频和音频转化为各种风格的文档, 无需登录注册, 前后端本地部署,以极低的成本体验 AI 视频/音频转风格文档服务。一键将视频和音频转化为小红书/公众号/知识笔记/思维导图/视频字幕等各种风格的文档。
lobe-chat
Dify 是一个易用的 LLMOps 平台,旨在让更多人可以创建可持续运营的原生 AI 应用。Dify 提供多种类型应用的可视化编排,应用可开箱即用,也能以“后端即服务”的 API 提供服务。
NextChat
NextChat,全称为ChatGPTNextWeb,是一款开源免费的私有ChatGPT网页应用部署工具 。它适合所有人搭建Web聊天机器人,能够支持GPT3、GPT4、GeminiPro等人工智能大模型,已在Github上获得了显著的关注,这表明其在开发者和用户群体中相当受欢迎,并且该项目已被收购,这无疑预示着NextChat巨大的商业价值潜力 。
codex
OpenAI 开源的命令行智能编码助手,旨在通过自然语言交互提升开发效率。它依赖 OpenAI 的 API 服务,仅需配置 OpenAI API Key 即可零门槛上手,支持代码生成、文件操作、版本控制和多模态(截图输入)等功能,适用于个人开发者、团队协作以及 CI/CD 流程。
HowToCook
做饭的时候,偶尔在网上找找菜谱和做法。但是这些菜谱往往写法千奇百怪,经常中间莫名出来一些材料。对于习惯了形式语言的程序员来说极其不友好。
cherry-studio
支持多种大语言模型服务的跨平台桌面客户端,兼容 Windows、Linux 和 macOS 系统。
TrendPublish
实时追踪和发布人工智能领域的最新趋势。帮助开发者、技术爱好者和研究人员快速获取 AI 领域的动态信息,例如前沿技术、热门项目和行业新闻等。
anx-reader
一款为图书爱好者精心打造的电子书阅读器。它具有强大的 AI 功能并支持各种电子书格式,使阅读更智能、更专注。凭借其现代的界面设计,我们致力于提供纯粹的阅读乐趣。
FoloUp
FoloUp 是一个开源平台,供公司对候选人进行 AI 驱动的招聘面试。
open-webui
功能强大、用户友好的自托管 AI 平台,支持完全离线运行。它集成了多种大型语言模型运行器,如 Ollama 和 OpenAI 兼容的 API,支持网页搜索、本地 RAG 集成、权限管理、适配移动端、Markdown 和 LaTeX 等功能。
video-starter-kit
用于构建 AI 驱动的视频应用程序的强大入门套件。该工具包使用 Next.js、Remotion 和 fal.ai 构建,简化了在浏览器中使用 AI 视频模型的复杂性。
trendFinder
Trend Finder 收集并分析来自关键影响者的帖子,然后在检测到新趋势或产品发布时发送 Slack 通知。
Moondream
Moondream开源项目是一个拥有 16 亿参数的视觉AI模型,它采用了 SigLIP、Phi-1.5 技术和 LLaVa 训练数据集,能够在任何平台运行。它致力于通过深度学习和计算机视觉技术实现“看图说话”的神奇功能。
wdoc
一个功能强大的 RAG(检索增强生成)系统,旨在汇总、搜索和查询各种文件类型的文档。
ai-financial-agent
探索人工智能在投资研究中的应用。
Meetily
一个 AI 驱动的会议助手,可捕获实时会议音频、实时转录并生成摘要,同时确保用户隐私。
Spark-TTS
Spark-TTS 完全基于Qwen2.5 构建,无需使用流匹配等额外生成模型。它无需依赖单独的模型来生成声学特征,而是直接从 [LLM]预测的代码中重建音频。这种方法简化了流程,提高了效率并降低了复杂性。
VoiceCanvas
VoiceCanvas 是一款开源的文本转语音系统,支持超过 50 种语言和多种音色选择,还具备声音克隆功能。
agent-zero
Agent Zero 是一个与众不同的 AI 框架,它并非预先定义,而是随着你的使用而有机地成长和学习。它旨在成为一个透明、易读、可理解、可定制和交互式的工具,能够利用你的电脑来完成各项任务。它就像一个通用的个人助理,可以帮你搜集信息、执行命令和代码,与其他智能体协作,尽其所能地完成你给定的任务。
watermark-removal
使用基于机器学习的图像修复方法从图像中去除水印,这与图像的真实版本完全没有区别。
DevDocs
DevDocs 是一个完全免费的开源工具,由 CyberAGI 团队开发,托管在 GitHub 上。它专为程序员和软件开发者设计,能从技术文档的网址开始,自动爬取相关页面并整理成简洁的 Markdown 或 JSON 文件。
AutoAgent
由香港大学数据智能实验室(HKUDS)开发的一个开源AI智能体框架,托管于GitHub。它允许用户通过纯自然语言描述需求,快速创建和部署定制化的AI智能体,无需任何编程基础。
CHRONOS
CHRONOS是一种新颖的基于检索的时间线摘要 (TLS) 方法,通过迭代提出有关主题和检索到的文档的问题来生成按时间顺序排列的摘要。
AgenticSeek
一个 100% 本地替代 Manus AI 的方案,这款支持语音的 AI 助理能够自主浏览网页、编写代码和规划任务,同时将所有数据保留在您的设备上。专为本地推理模型量身打造,完全在您自己的硬件上运行,确保完全的隐私保护和零云端依赖。
magentic-ui
Magentic-UI 是一个以人为本的界面的研究原型,由多代理系统提供支持,可以在 Web 上浏览和执行作,生成和执行代码,以及生成和分析文件。 Magentic-UI 对于需要在 Web 上执行作(例如,填写表单、自定义食品订单)、在未被搜索引擎索引的网站中进行深度导航(例如,过滤航班、从个人站点查找链接)或需要 Web 导航和代码执行的任务(例如,从在线数据生成图表)的 Web 任务特别有用。
screenpipe
ScreenPipe是一款开箱即用、可离线的桌面 AI 应用。它可以录制屏幕内容、捕获截图和音频,并将数据存储至本地数据库,结合 LLMs 的能力,实现自动记录、上下文感知的 AI 助手,支持中文 OCR、集成 Ollama 和 Llama 等功能。
Tabby
Tabby 是一个开源的自托管 AI 编码助手。使用 Tabby,每个团队都可以轻松设置自己的 LLM 驱动的代码完成服务器。独立式,无需 DBMS 或云服务。OpenAPI 接口,易于与现有基础设施(例如 Cloud IDE)集成。支持消费级 GPU。
Upscayl
一款通过 AI 算法提高图像分辨率(超级分辨率,简称超分)的桌面工具,它免费、开源、无需联网、开箱即用,因为内置了模型,所以安装包大约 200+MB,运行要求兼容 Vulkan 的显卡,适用于 Windows、Linux 和 macOS 系统。
Farfalle
FarFalle 是一款开源的AI搜索引擎项目,类似Perplexity AI。 可使用本地或云 LLM 自托管。
Jan
这是一个支持在本地运行开源 LLMs 和连接 ChatGPT 服务的 AI 对话桌面应用,它开箱即用、界面清爽、不挑硬件,支持设置代理、接入 ChatGPT、一键下载/接入适配当前电脑配置的大模型、离线运行等功能,适用于 Windows、Linux、macOS 操作系统。
screenshot-to-code
可以将屏幕截图转化为 HTML/JS/Tailwind CSS 代码,它使用 GPT-4 Vision 生成代码、DALL-E 3 生成相似的图片。
# 内容检测 所有该分类开源>>
GPTZero
GPTZero是由普林斯顿大学的华人学生Edward Tian开发的一款人工智能模型,它基于深度学习算法和统计特征,能够有效地区分人类书写的文本和由机器(如ChatGPT、GPT-4等)生成的文本。
# 图像处理 所有该分类开源>>
watermark-removal
使用基于机器学习的图像修复方法从图像中去除水印,这与图像的真实版本完全没有区别。
ComfyUI
为Windows和macOS设计的桌面客户端,它提供了一键安装的便利性,并拥有全新的用户界面。用户可以通过加入等待名单来获得早期访问权限。这款软件的主要优点在于它的易用性和现代化的界面设计,旨在提高用户的工作效率。
Upscayl
一款通过 AI 算法提高图像分辨率(超级分辨率,简称超分)的桌面工具,它免费、开源、无需联网、开箱即用,因为内置了模型,所以安装包大约 200+MB,运行要求兼容 Vulkan 的显卡,适用于 Windows、Linux 和 macOS 系统。
Facefusion
全新一代AI换脸工具,无需安装,一键运行,可以完成去遮挡,高清化,卡通脸一键替换,并且Nvidia/AMD等显卡全平台支持。FaceFusion 新版新增了很多模型和高清算法,大大提高了图片和视频的换脸效果,同时还增加了三种遮罩功能,解决了脸部有污涤遮挡时融合效果差和跳闪的问题。
FLUX.1
FLUX.1是由Stable Diffusion创始团队推出的开源AI图像生成模型,拥有12B参数,是迄今为止最大的文生图模型。包含三种变体:顶级性能的FLUX.1 [pro]、开源非商业用途的FLUX.1 [dev] 和 快速高效的FLUX.1[schnell]。FLUX.1以卓越的图像质量、高度逼真的人体解剖学表现和先进的提示词遵循能力脱颖而出,为AI图像生成设定了新的行业标准。
HivisionIDPhotos
这是一款简单易用的 AI 证件照制作工具,能够生成标准证件照和六寸排版照。它提供了简洁的 Web 界面和 API 服务,即使在没有 GPU 的电脑上也能够运行,支持抠图、尺寸调整和自定义底色等功能。
Bing Image Creator
Bing Image Creator是微软推出的一款基于深度学习的图片生成工具,能够根据用户的文字描述自动生成高质量的真实图画。
Canva AI
Canva AI是Canva推出的一系列基于深度学习的创意设计工具,旨在通过自动化和智能化技术简化设计流程,让用户能够轻松创建高质量的图形和视频内容。
Colorize.cc
Colorize.cc是一款使用深度学习技术为黑白照片和视频上色的人工智能服务。通过几个简单的步骤,您可以在几分钟内给数百张家庭照片上色。
Leonardo.ai
Leonardo.ai 是一个领先的AI绘画和图像生成工具和平台,致力于通过先进的人工智能技术,为广大用户打造一个免费、创新、互动的视觉艺术社区。
Luma AI
Luma AI是一家专注于AI的技术公司,通过其创新技术,用户可以利用手机快速生成所需的3D模型。公司由拥有丰富3D计算机视觉经验的团队成立,其技术基于Neural Radiance Fields,能够基于少量2D图像对3D场景进行建模。
Midjourney
Midjourney是一款由独立研究实验室和产品工作室开发的AI绘画工具,它能够通过用户输入的文本描述生成高质量的图像。
# 文档处理 所有该分类开源>>
wdoc
一个功能强大的 RAG(检索增强生成)系统,旨在汇总、搜索和查询各种文件类型的文档。
DevDocs
DevDocs 是一个完全免费的开源工具,由 CyberAGI 团队开发,托管在 GitHub 上。它专为程序员和软件开发者设计,能从技术文档的网址开始,自动爬取相关页面并整理成简洁的 Markdown 或 JSON 文件。
KrillinAI
简约而强大的工具可以处理从翻译、配音到语音克隆、格式化的所有内容——在横向和纵向模式之间无缝转换视频,以便在所有内容平台(YouTube、TikTok、Bilibili、抖音、微信频道、RedNote、快手)上实现最佳显示。
DeepSearcher
DeepSearcher 结合推理 LLM(OpenAI o1、o3-mini、DeepSeek、Grok 3、Claude 3.7 Sonnet 等)和向量数据库(Milvus、Zilliz Cloud 等),基于私有数据进行搜索、评估和推理,提供高度准确的答案和全面的报告。
MarkPDFDown
MarkPDFDown 旨在简化将 PDF 文档转换为干净、可编辑的 Markdown 文本的过程。通过利用先进的多模态 AI 模型,它可以准确提取文本、保留格式并处理复杂的文档结构,包括表格、公式和图表。
anx-reader
一款为图书爱好者精心打造的电子书阅读器。它具有强大的 AI 功能并支持各种电子书格式,使阅读更智能、更专注。凭借其现代的界面设计,我们致力于提供纯粹的阅读乐趣。
pptx2md
将 Powerpoint pptx 文件转换为 markdown 的工具。
zerox
zerox基于视觉模型 API 服务,提供了将 PDF 文档转化为 Markdown 的功能。其原理是先将原文件(如 pdf、docx)转换为图片,然后把图片发给视觉模型处理,最后汇总所有结果生成完整的 Markdown 文件。
Quivr
该项目利用生成式 AI 的能力,成为你的第二大脑。你可以将多种格式的文本、数据、语言和视频上传给它,之后再和它对话时,它会学习你上传的内容后回答你的问题,支持接入多种 LLMs 和 Docker 一键部署,但目前对中文支持不是很好。
Paperpal
Paperpal是一款专为科研作者设计的AI写作工具,集语言编辑、文本改写与生成、投稿检查等功能于一体,旨在提升研究者的英语写作体验和效率。
创客贴AI
创客贴AI是一款集智能设计、图片编辑、文案创作等功能于一体的在线AI设计平台,旨在通过人工智能技术提升设计效率与创意。
星火网文助手
星火网文助手是一款基于科大讯飞星火认知大模型技术的AI辅助小说写作平台,专为网络小说作者设计,旨在提高创作效率与作品质量。
# 智能助手 所有该分类开源>>
agent-zero
Agent Zero 是一个与众不同的 AI 框架,它并非预先定义,而是随着你的使用而有机地成长和学习。它旨在成为一个透明、易读、可理解、可定制和交互式的工具,能够利用你的电脑来完成各项任务。它就像一个通用的个人助理,可以帮你搜集信息、执行命令和代码,与其他智能体协作,尽其所能地完成你给定的任务。
AutoAgent
由香港大学数据智能实验室(HKUDS)开发的一个开源AI智能体框架,托管于GitHub。它允许用户通过纯自然语言描述需求,快速创建和部署定制化的AI智能体,无需任何编程基础。
AgenticSeek
一个 100% 本地替代 Manus AI 的方案,这款支持语音的 AI 助理能够自主浏览网页、编写代码和规划任务,同时将所有数据保留在您的设备上。专为本地推理模型量身打造,完全在您自己的硬件上运行,确保完全的隐私保护和零云端依赖。
Suna
Suna 是一个完全开源的 AI 助手,可帮助您轻松完成实际任务。通过自然对话,Suna 成为您进行研究、数据分析和日常挑战的数字伴侣 — 将强大的功能与直观的界面相结合,了解您的需求并提供结果。
UI-TARS
基于视觉语言模型(Vision-Language Model)的 GUI 代理应用,允许用户通过自然语言控制电脑操作。它结合了视觉识别和自然语言处理技术,能够理解用户的指令并执行相应的操作。
NextChat
NextChat,全称为ChatGPTNextWeb,是一款开源免费的私有ChatGPT网页应用部署工具 。它适合所有人搭建Web聊天机器人,能够支持GPT3、GPT4、GeminiPro等人工智能大模型,已在Github上获得了显著的关注,这表明其在开发者和用户群体中相当受欢迎,并且该项目已被收购,这无疑预示着NextChat巨大的商业价值潜力 。
index
在做浏览器自动化脚本时,我们常常需要编写大量代码来处理复杂的网页交互,不仅耗时耗力,还难以调试和优化,要是出错更是难以精准定位问题所在。
n8n
n8n 是一个开源的工作流自动化工具,类似于 IFTTT。它的优点是开源、可以自托管、下载安装方便、易于使用,可以互联的服务包括 Github、Google、RSS、Slack、Telegram、Gitlab、Redis、RabbitMq、数据库等等上百种服务。
Second-Me
一个开源原型,您可以在其中打造自己的AI 自我 — 一种新的 AI 物种,可以保护您、提供您的背景并捍卫您的利益。
OWL
OWL 是一个前沿的多智能体协作框架,推动任务自动化的边界,构建在 CAMEL-AI Framework。愿景是彻底变革 AI 智能体协作解决现实任务的方式。通过利用动态智能体交互,OWL 实现了跨多领域更自然、高效且稳健的任务自动化。
cherry-studio
支持多种大语言模型服务的跨平台桌面客户端,兼容 Windows、Linux 和 macOS 系统。
autoMate
autoMate 是一款由开源开发的本地自动化工具,以 AI+RPA(人工智能+机器人流程自动化)为核心特色。
# 智能搜索 所有该分类开源>>
PaSa
一种由大型语言模型提供支持的高级 PaperSearch 代理。PaSa 可以自主做出一系列决策,包括调用搜索工具、阅读论文和选择相关参考文献,最终为复杂的学术查询获得全面准确的结果。
Farfalle
FarFalle 是一款开源的AI搜索引擎项目,类似Perplexity AI。 可使用本地或云 LLM 自托管。
Perplexica
Perplexica 是一个开源的 AI 驱动的搜索工具或 AI 驱动的搜索引擎,可以深入互联网寻找答案。受 Perplexity AI 的启发,它是一个开源选项,不仅可以搜索网络,还可以理解您的问题。它使用先进的机器学习算法(如相似性搜索和嵌入)来优化结果,并通过引用的来源提供明确的答案。
phidata
Phidata 是一个用于构建多模态代理的框架,使用 phidata 可以:使用内存、知识、工具和推理构建多模式代理。建立可以协同工作解决问题的代理团队。使用漂亮的 Agent UI 与您的代理聊天。
# 模型工具 所有该分类开源>>
one-api
通过标准的 OpenAI API 格式访问所有的大模型,统一 API 适配,可用于 key 管理与二次分发。
new-api
AI模型接口管理与分发系统,支持将多种大模型转为OpenAI格式调用、支持Midjourney Proxy、Suno、Rerank,兼容易支付协议,可供个人或者企业内部管理与分发渠道使用,本项目基于One API二次开发。
lobe-chat
Dify 是一个易用的 LLMOps 平台,旨在让更多人可以创建可持续运营的原生 AI 应用。Dify 提供多种类型应用的可视化编排,应用可开箱即用,也能以“后端即服务”的 API 提供服务。
magentic-ui
Magentic-UI 是一个以人为本的界面的研究原型,由多代理系统提供支持,可以在 Web 上浏览和执行作,生成和执行代码,以及生成和分析文件。 Magentic-UI 对于需要在 Web 上执行作(例如,填写表单、自定义食品订单)、在未被搜索引擎索引的网站中进行深度导航(例如,过滤航班、从个人站点查找链接)或需要 Web 导航和代码执行的任务(例如,从在线数据生成图表)的 Web 任务特别有用。
dify
Dify 是一个易用的 LLMOps 平台,旨在让更多人可以创建可持续运营的原生 AI 应用。Dify 提供多种类型应用的可视化编排,应用可开箱即用,也能以“后端即服务”的 API 提供服务。
Craw4AI
Crawl4AI旨在让网页爬取和数据提取变得简单而高效。无论构建复杂的 AI 应用程序还是增强大语言模型,Crawl4AI 都能提供简化工作流程所需的工具。凭借完全的异步支持,Crawl4AI 可确保爬取任务快速、可靠且可扩展。
Opik
Opik 是一个用于评估、测试和监控 LLM 应用程序的开源平台。由 Comet 建造。从 RAG 聊天机器人到代码助手,再到复杂的代理管道等等,通过跟踪、评估和仪表板构建运行得更好、更快、更便宜的 LLM 系统。
fastmcp
用于构建 MCP(Model Context Protocol)服务器和客户端的 Python 框架,帮助开发者以更快速、简洁的方式向 LLM 暴露数据资源和工具。
Agent-S
让 AI 像人一样操作电脑(如 macOS、Windows、Linux、Android),可自动完成复杂的 GUI 操作任务的 AI Agent 框架。它采用“通用体+专家体”组合架构,支持主动分层规划。
cua
一个专为 AI 智能体设计的高性能操作系统虚拟化与控制框架。它通过轻量级、近乎原生速度的虚拟容器,让 AI Agent 能够在完全隔离的 macOS 或 Linux 环境中自动执行“用电脑”任务,如操作应用、上网、写代码、自动化复杂办公流程等,并内置多种主流 LLM(大模型)接口。
WeClone
使用微信聊天记录微调大语言模型,使用微信语音消息大模➕0.5B大模型实现高质量声音克隆,并绑定到微信机器人,实现自己的数字分身。数字克隆/数字分身/声音克隆/LLM/大语言模型/微信聊天机器人/LoRA
BitNet
微软专为 CPU 本地推理和极致压缩(低比特)大模型设计的推理框架。它支持对 1-bit/1.58-bit 量化模型进行高效、低能耗的推理,兼容 BitNet、Llama3-8B-1.58、Falcon3 等模型,无需 GPU。
# 行业应用 所有该分类开源>>
ai-financial-agent
探索人工智能在投资研究中的应用。
Meetily
一个 AI 驱动的会议助手,可捕获实时会议音频、实时转录并生成摘要,同时确保用户隐私。
CHRONOS
CHRONOS是一种新颖的基于检索的时间线摘要 (TLS) 方法,通过迭代提出有关主题和检索到的文档的问题来生成按时间顺序排列的摘要。
HowToCook
做饭的时候,偶尔在网上找找菜谱和做法。但是这些菜谱往往写法千奇百怪,经常中间莫名出来一些材料。对于习惯了形式语言的程序员来说极其不友好。
AI Hedge Fund
通过模拟多种投资策略的智能代理(agents),进行股票分析和交易决策。项目仅用于教育和研究目的,不适用于实际交易或投资。
TrendPublish
实时追踪和发布人工智能领域的最新趋势。帮助开发者、技术爱好者和研究人员快速获取 AI 领域的动态信息,例如前沿技术、热门项目和行业新闻等。
FoloUp
FoloUp 是一个开源平台,供公司对候选人进行 AI 驱动的招聘面试。
stocks-insights-ai-agent
使用 Agentic Retrieval-Augmented Generation (RAG) 工作流程从与特定公司和更广泛的股票市场相关的新闻和财务数据中提取见解。它利用大型语言模型 (LLM)、ChromaDB 作为向量数据库、LangChain、LangChain 表达式语言 (LCEL) 和 LangGraph 来提供全面的分析。
ElevenLabs
ElevenLabs.io是一个基于人工智能技术的文字转语音配音合成平台。它通过先进的深度学习技术,能够生成高保真、高清晰度、高自然度的语音,为用户提供创新的AI语音合成体验。
Kolors Virtual Try-On
Kolors Virtual Try-On是由快手可图团队开发的一项先进的AI试衣技术。这项技术利用大规模文本到图像生成模型,为用户提供了逼真的虚拟试衣体验。
MakeLogoAI
一个人工智能驱动的Logo生成器,用户可以在短时间内(不到24小时)为他们的企业创建独特的高清Logo。该平台使用先进的人工智能技术,能够根据用户的输入和需求生成多种创意方向的Logo设计,并允许用户通过Logo编辑器进行微调,以确保最终设计符合用户的愿景和品牌要求。
Runway
Runway 是一家应用人工智能研究公司,致力于塑造艺术、娱乐和人类创造力的下一个时代。
# 视频处理 所有该分类开源>>
AI-Media2Doc
AI 视频图文创作助手是一款Web工具, 基于AI大模型, 将视频和音频转化为各种风格的文档, 无需登录注册, 前后端本地部署,以极低的成本体验 AI 视频/音频转风格文档服务。一键将视频和音频转化为小红书/公众号/知识笔记/思维导图/视频字幕等各种风格的文档。
bininote
BiliNote 是一个开源的 AI 视频笔记助手,支持通过哔哩哔哩、YouTube 等视频链接,自动提取内容并生成结构清晰、重点明确的 Markdown 格式笔记。支持插入截图、原片跳转等功能。
story-flicks
可以输入一个故事主题,使用大语言模型生成故事视频,视频中包含大模型生成的图片、故事内容,以及音频和字幕信息。
LivePortrait
通过输入静态肖像照片,LivePortrait 能够实时生成动态的肖像动画,使静态图像“活”起来。用户可以通过摄像头或手动输入来控制生成动画中的面部表情,如微笑、眨眼、皱眉等。
video-starter-kit
用于构建 AI 驱动的视频应用程序的强大入门套件。该工具包使用 Next.js、Remotion 和 fal.ai 构建,简化了在浏览器中使用 AI 视频模型的复杂性。
TRELLIS
TRELLIS 是一个大型 3D 资产生成模型。它接收文本或图像提示,并生成各种格式的高质量 3D 资产,例如 Radiance Fields、3D Gaussians 和网格。
MagicMirror
一键打造全新的自己!
supervision
Supervision库是一款出色的Python计算机视觉低代码工具,其设计初衷在于为用户提供一个便捷且高效的接口,用以处理数据集以及直观地展示检测结果。简化了对象检测、分类、标注、跟踪等计算机视觉的开发流程。开发者仅需加载数据集和模型,就能轻松实现对图像和视频进行检测、统计某区域的被检测数量等操作。
HitPaw Edimakor
HitPaw Edimakor是一款在Mac平台上备受好评的视频编辑软件,它以其简洁而高效的操作界面,将复杂的视频编辑技巧化为易于上手的操作,深受初学者和非专业用户的喜爱。
MOKI
美图旗下的MOKI工具是一款创新的AI短片创作工具,专为视频创作者设计,旨在简化视频制作流程,提高创作效率。
Sora
Sora是OpenAI开发的全新生成式人工智能模型,能够通过文本指令直接输出长达60秒的高质量视频,展现了AI在视频生成领域的重大突破。
Stable Video
Stable Video是一个基于AI的视频生成平台,能够将文本或图像快速转化为高质量的视频内容,广泛应用于企业宣传、教学培训等多个领域。
# 语言处理 所有该分类开源>>
必应翻译
必应翻译是微软提供的一项免费在线翻译服务,支持多种语言互译,为用户提供高质量的翻译结果。
百度AI同传助手
百度AI同传助手是一款功能卓越的AI翻译工具,为用户提供实时、准确、高效的音视频同传字幕服务,实现无障碍沟通新体验。
Co-op Translator
Co-op Translator是一个 Python 包,旨在使用先进的大语言模型 ( LLM ) 技术和 Azure AI 服务自动为您的项目进行多语言翻译。该项目旨在简化将内容翻译成多种语言的过程,使开发人员可以轻松访问并提高效率。
PDFMathTranslate
这是一个基于 AI 的 PDF 文档翻译工具,专门用于翻译科学论文。它能够完整保留 PDF 文档的原始排版,确保译文与原文排版一致,实现双语对照翻译,支持 Google、DeepL、Ollama 和 OpenAI 等多种翻译服务。
spaCy
spaCy 是 Python 中的高级自然语言处理库,并且 赛顿。它建立在最新的研究基础上,从第一天到 用于实际产品。
# 辅助编程 所有该分类开源>>
Void
Void,这款编辑器号称是开源的 Cursor 和 GitHub Copilot 替代品,而且完全免费!
codex
OpenAI 开源的命令行智能编码助手,旨在通过自然语言交互提升开发效率。它依赖 OpenAI 的 API 服务,仅需配置 OpenAI API Key 即可零门槛上手,支持代码生成、文件操作、版本控制和多模态(截图输入)等功能,适用于个人开发者、团队协作以及 CI/CD 流程。
Bolt.New
Bolt 是由 StackBlitz 推出的基于浏览器的 AI 全栈 Web 开发工具,无需本地设置即可进行提示、运行、编辑和部署全栈应用程序,对中文支持很友好。
Bubble AI
Bubble AI是一款可以利用最新的技术包括OpenAI和ChatGPT构建、测试和扩展应用程序的平台。它提供了一种简单而强大的方式来创建功能丰富的网站,并可以自定义和集成各种功能。通过Bubble AI,用户可以使用无代码的方式快速开发应用程序,并利用内置的AI功能提供更智能、更交互式的用户体验。Bubble AI还提供了灵活的定价选项,以满足不同用户的需求。
Github Copilot
Github Copilot是一款由GitHub、OpenAI和Microsoft联合开发的AI辅助开发工具,旨在通过提供代码补全、错误修正、优化建议等功能,帮助开发者更高效地编写代码。
Replit Agent
AI初创公司Replit推出的AI编程工具。告诉Replit Agent:“我要做一个贪吃蛇游戏”,剩下的交给Replit Agent。
豆包MarsCode
豆包MarsCode是一款基于AI技术的智能化、便利化开发工具,旨在提升开发者的编码效率和体验,支持多种编程语言和主流IDE的集成。
通义灵码
通义灵码是阿里云出品的一款基于通义大模型的智能编码助手,旨在通过人工智能技术提高开发者的编码效率和准确性。
Chat2DB
AI 驱动的数据库工具和 SQL 客户端,最热门的 GUI 客户端,支持 MySQL、Oracle、PostgreSQL、DB2、SQL Server、DB2、SQLite、H2、ClickHouse 等。
screenshot-to-code
可以将屏幕截图转化为 HTML/JS/Tailwind CSS 代码,它使用 GPT-4 Vision 生成代码、DALL-E 3 生成相似的图片。
Tabby
Tabby 是一个开源的自托管 AI 编码助手。使用 Tabby,每个团队都可以轻松设置自己的 LLM 驱动的代码完成服务器。独立式,无需 DBMS 或云服务。OpenAPI 接口,易于与现有基础设施(例如 Cloud IDE)集成。支持消费级 GPU。
Vanna
与你的 SQL 数据库聊天。该项目使用 LLM+RAG+数据库技术,让用户能够通过自然语言查询 SQL 数据库,用生成的 SQL 回答你的问题。
# 音频处理 所有该分类开源>>
Spark-TTS
Spark-TTS 完全基于Qwen2.5 构建,无需使用流匹配等额外生成模型。它无需依赖单独的模型来生成声学特征,而是直接从 [LLM]预测的代码中重建音频。这种方法简化了流程,提高了效率并降低了复杂性。
VoiceCanvas
VoiceCanvas 是一款开源的文本转语音系统,支持超过 50 种语言和多种音色选择,还具备声音克隆功能。
Ableton-MCP
AbletonMCP 通过模型上下文协议 (MCP) 将 Ableton Live 连接到 Claude AI,使 Claude 能够直接与 Ableton Live 交互和控制。此集成支持提示辅助音乐制作、音轨创建和 Live 会话作。
GPT-SoVITS
强大的少样本语音转换和语音合成 WebUI 工具,输入 5 秒的声音样本就能体验文本到语音转换。支持少样本 TTS、英语、日语和中文,集成了声音伴奏分离、中文自动语音识别和文本标注等功能。
VoiceCraft
VoiceCraft 能够复制或克隆或甚至编辑你从未听过的语音。
Suno
一个专业高质量的AI歌曲和音乐创作平台,方便分享的音乐创作社区。
Udio
专业AI音乐创作平台-建设一个任何人都能创作出伟大音乐的未来. 不需要任何工具,只需要想象力.从你的思想到音乐,一句话即可创造高质量原创音乐。
Auralis
Auralis 是一种文本转语音引擎,使语音生成在现实世界中变得实用:在 10 分钟内将整本《哈利·波特》第一本书转换为语音。
Buzz
Buzz 是一款基于 OpenAI Whisper 的开源、可离线的实时语音转文字工具,支持 Windows、macOS、Linux,它可以将麦克风的语音实时转换为文字,也支持将视频、音频文件转换为文字、字幕。
ChatTTS
ChatTTS是专为对话场景设计的语音生成模型,特别适用于大型语言模型(LLM)助手的对话任务,以及诸如对话式音频和视频介绍等应用。它支持中文和英文,通过使用大约100,000小时的中文和英文数据进行训练,ChatTTS在语音合成中表现出高质量和自然度。
MMAudio
MMAudio 在给定视频和/或文本输入的情况下生成同步音频。我们的关键创新是多模式联合训练,它允许对广泛的视听和音频文本数据集进行训练。此外,同步模块将生成的音频与视频帧对齐。
PDF2Audio
PDF2Audio,它将彻底改变我们阅读和理解 PDF 文件的方式。我们不再需要盯着屏幕,而是让信息以声音的形式流淌进你的耳朵,无论是在通勤的路上、健身时,还是任何需要解放双手的场合。