gpt-computer-assistant
适用于 Windows、macOS 和 Ubuntu 的 GPT-4o 客户端,它拥有极简的用户界面,支持执行多种任务,包括读取屏幕、打开应用、系统音频和文本输入等。
GraphRAG
微软开源的一个项目,它利用图(Graph)来增强检索(Retrieval)和生成(Generation)的能力,通过结合知识图谱与图机器学习,提升大型语言模型在私有数据集上的推理和问答性能。
Hallo
一个音频驱动的视觉合成系统,可以根据输入的音频和图像生成肖像动画。它可以让静态的肖像图像,根据音频中的声音变化动起来,就像真人说话一样。
Keep
一个智能告警管理和 AIOps 平台,运用 AI 技术实现告警关联和分析。它提供了统一的操作界面,便于集中管理各种告警和事件,支持告警去重、过滤、相关性分析和自动化处理等功能,可与多种监控工具、数据库、通信平台和事件管理工具集成。
Khoj AI
Khoj 是一个开源的个人 AI,你可以和它聊任何事情。它将使用您与之共享的文件进行回复(如果相关)。它还可以从公共互联网访问信息,使用自然语言快速查找相关笔记和文档,它理解 pdf、纯文本、markdown、组织模式文件、概念页面和 github 存储库,从您的 Emacs、Obsidian、Khoj 桌面应用程序​或任何 Web 浏览器访问它,使用我们的云实例随时随地访问您的 Khoj,在消费类硬件上自托管以保护隐私。
litgpt
提供了 20 多种 LLMs 的预训练、微调和部署的工具。它可以通过 Pyhton 库或者命令行的方式使用,对模型进行微调、预训练、评估和部署服务等操作,支持自动从 HF 下载模型、自定义数据集、性能优化、降低内存要求(precision)等功能,以及 LoRA、QLoRA、Adapter 等多种微调方法。
markitdown
用于将文件和 Office 文档转换为 Markdown 的 Python 工具。使用大型语言模型进行图像描述。
MMAudio
MMAudio 在给定视频和/或文本输入的情况下生成同步音频。我们的关键创新是多模式联合训练,它允许对广泛的视听和音频文本数据集进行训练。此外,同步模块将生成的音频与视频帧对齐。
MoneyPrinterTurbo
MoneyPrinterTurbo是一款基于AI大模型的开源软件,旨在通过一键操作帮助用户自动生成高清短视频。只需提供一个视频 主题 或 关键词 ,就可以全自动生成视频文案、视频素材、视频字幕、视频背景音乐,然后合成一个高清的短视频。
ollama-webui
Ollama的ChatGPT 风格的 Web 界面,我们的聊天界面从 ChatGPT 中汲取灵感,确保用户友好的体验。
PDF2Audio
PDF2Audio,它将彻底改变我们阅读和理解 PDF 文件的方式。我们不再需要盯着屏幕,而是让信息以声音的形式流淌进你的耳朵,无论是在通勤的路上、健身时,还是任何需要解放双手的场合。
PDFMathTranslate
这是一个基于 AI 的 PDF 文档翻译工具,专门用于翻译科学论文。它能够完整保留 PDF 文档的原始排版,确保译文与原文排版一致,实现双语对照翻译,支持 Google、DeepL、Ollama 和 OpenAI 等多种翻译服务。
phidata
Phidata 是一个用于构建多模态代理的框架,使用 phidata 可以:使用内存、知识、工具和推理构建多模式代理。建立可以协同工作解决问题的代理团队。使用漂亮的 Agent UI 与您的代理聊天。
PhotoMaker
可以通过上传的人物照片,生成任意风格的人物图像,如写实、卡通、艺术等风格,可用于生成别具一格的头像。
RapidOCR
RapidOCR是一款兼容性最为广泛的多平台多语言OCR工具,它完全开源免费,并支持离线环境下的快速部署。其核心亮点在于采用ONNXRuntime作为推理引擎,相比传统的PaddlePaddle推理引擎,速度实现了4至5倍的提升,同时彻底解决了内存泄露问题,确保了高效稳定的运行。