AI开源
AI实验室
AI期刊
关于
更多...
小众AI
AI开源
AI实验室
AI期刊
关于
Ai应用
C++
Golang
Java
Javascript
Jupyter
Python
Rust
Typescript
内容检测
图像处理
文档处理
智能助手
智能搜索
模型工具
行业应用
视频处理
语言处理
辅助编程
音频处理
AI开源软件
Ai应用
C++
Golang
Java
Javascript
Jupyter
Python
Rust
Typescript
内容检测
图像处理
文档处理
智能助手
智能搜索
模型工具
行业应用
视频处理
语言处理
辅助编程
音频处理
AI开源软件
>
Python
gpt-computer-assistant - 极简的 GPT-4o 客户端
适用于 Windows、macOS 和 Ubuntu 的 GPT-4o 客户端,它拥有极简的用户界面,支持执行多种任务,包括读取屏幕、打开应用、系统音频和文本输入等。
GraphRAG - 使用 LLM 生成知识图谱
微软开源的一个项目,它利用图(Graph)来增强检索(Retrieval)和生成(Generation)的能力,通过结合知识图谱与图机器学习,提升大型语言模型在私有数据集上的推理和问答性能。
Hallo - 音频驱动的肖像动画生成
一个音频驱动的视觉合成系统,可以根据输入的音频和图像生成肖像动画。它可以让静态的肖像图像,根据音频中的声音变化动起来,就像真人说话一样。
Keep - AI驱动的告警管理平台
一个智能告警管理和 AIOps 平台,运用 AI 技术实现告警关联和分析。它提供了统一的操作界面,便于集中管理各种告警和事件,支持告警去重、过滤、相关性分析和自动化处理等功能,可与多种监控工具、数据库、通信平台和事件管理工具集成。
Khoj AI - 一个开源的个人 AI
Khoj 是一个开源的个人 AI,你可以和它聊任何事情。它将使用您与之共享的文件进行回复(如果相关)。它还可以从公共互联网访问信息,使用自然语言快速查找相关笔记和文档,它理解 pdf、纯文本、markdown、组织模式文件、概念页面和 github 存储库,从您的 Emacs、Obsidian、Khoj 桌面应用程序或任何 Web 浏览器访问它,使用我们的云实例随时随地访问您的 Khoj,在消费类硬件上自托管以保护隐私。
litgpt - 一站式的 LLM 开发和部署工具
提供了 20 多种 LLMs 的预训练、微调和部署的工具。它可以通过 Pyhton 库或者命令行的方式使用,对模型进行微调、预训练、评估和部署服务等操作,支持自动从 HF 下载模型、自定义数据集、性能优化、降低内存要求(precision)等功能,以及 LoRA、QLoRA、Adapter 等多种微调方法。
markitdown - 各种文件格式转换为 markdown 格式
用于将文件和 Office 文档转换为 Markdown 的 Python 工具。使用大型语言模型进行图像描述。
MMAudio - 自动给视频配音效
MMAudio 在给定视频和/或文本输入的情况下生成同步音频。我们的关键创新是多模式联合训练,它允许对广泛的视听和音频文本数据集进行训练。此外,同步模块将生成的音频与视频帧对齐。
MoneyPrinterTurbo - 自动生成高清短视频
MoneyPrinterTurbo是一款基于AI大模型的开源软件,旨在通过一键操作帮助用户自动生成高清短视频。只需提供一个视频 主题 或 关键词 ,就可以全自动生成视频文案、视频素材、视频字幕、视频背景音乐,然后合成一个高清的短视频。
ollama-webui - Ollama的ChatGPT 风格的 Web 界面
Ollama的ChatGPT 风格的 Web 界面,我们的聊天界面从 ChatGPT 中汲取灵感,确保用户友好的体验。
PDF2Audio - 阅读 PDF 的新方式
PDF2Audio,它将彻底改变我们阅读和理解 PDF 文件的方式。我们不再需要盯着屏幕,而是让信息以声音的形式流淌进你的耳朵,无论是在通勤的路上、健身时,还是任何需要解放双手的场合。
PDFMathTranslate - 基于AI的双语对照 PDF 翻译工具
这是一个基于 AI 的 PDF 文档翻译工具,专门用于翻译科学论文。它能够完整保留 PDF 文档的原始排版,确保译文与原文排版一致,实现双语对照翻译,支持 Google、DeepL、Ollama 和 OpenAI 等多种翻译服务。
phidata - 具有记忆、知识、工具和推理能力的多模态代理
Phidata 是一个用于构建多模态代理的框架,使用 phidata 可以:使用内存、知识、工具和推理构建多模式代理。建立可以协同工作解决问题的代理团队。使用漂亮的 Agent UI 与您的代理聊天。
PhotoMaker - AI 生成各种风格人类照片的工具
可以通过上传的人物照片,生成任意风格的人物图像,如写实、卡通、艺术等风格,可用于生成别具一格的头像。
RapidOCR - 兼容性广泛的多平台多语言OCR工具
RapidOCR是一款兼容性最为广泛的多平台多语言OCR工具,它完全开源免费,并支持离线环境下的快速部署。其核心亮点在于采用ONNXRuntime作为推理引擎,相比传统的PaddlePaddle推理引擎,速度实现了4至5倍的提升,同时彻底解决了内存泄露问题,确保了高效稳定的运行。
««
«
1
2
3
4
5
»
»»