litgpt
提供了 20 多种 LLMs 的预训练、微调和部署的工具。它可以通过 Pyhton 库或者命令行的方式使用,对模型进行微调、预训练、评估和部署服务等操作,支持自动从 HF 下载模型、自定义数据集、性能优化、降低内存要求(precision)等功能,以及 LoRA、QLoRA、Adapter 等多种微调方法。
markitdown
用于将文件和 Office 文档转换为 Markdown 的 Python 工具。使用大型语言模型进行图像描述。
MMAudio
MMAudio 在给定视频和/或文本输入的情况下生成同步音频。我们的关键创新是多模式联合训练,它允许对广泛的视听和音频文本数据集进行训练。此外,同步模块将生成的音频与视频帧对齐。
MoneyPrinterTurbo
MoneyPrinterTurbo是一款基于AI大模型的开源软件,旨在通过一键操作帮助用户自动生成高清短视频。只需提供一个视频 主题 或 关键词 ,就可以全自动生成视频文案、视频素材、视频字幕、视频背景音乐,然后合成一个高清的短视频。
ollama-webui
Ollama的ChatGPT 风格的 Web 界面,我们的聊天界面从 ChatGPT 中汲取灵感,确保用户友好的体验。
PDF2Audio
PDF2Audio,它将彻底改变我们阅读和理解 PDF 文件的方式。我们不再需要盯着屏幕,而是让信息以声音的形式流淌进你的耳朵,无论是在通勤的路上、健身时,还是任何需要解放双手的场合。
PDFMathTranslate
这是一个基于 AI 的 PDF 文档翻译工具,专门用于翻译科学论文。它能够完整保留 PDF 文档的原始排版,确保译文与原文排版一致,实现双语对照翻译,支持 Google、DeepL、Ollama 和 OpenAI 等多种翻译服务。
phidata
Phidata 是一个用于构建多模态代理的框架,使用 phidata 可以:使用内存、知识、工具和推理构建多模式代理。建立可以协同工作解决问题的代理团队。使用漂亮的 Agent UI 与您的代理聊天。
PhotoMaker
可以通过上传的人物照片,生成任意风格的人物图像,如写实、卡通、艺术等风格,可用于生成别具一格的头像。
RapidOCR
RapidOCR是一款兼容性最为广泛的多平台多语言OCR工具,它完全开源免费,并支持离线环境下的快速部署。其核心亮点在于采用ONNXRuntime作为推理引擎,相比传统的PaddlePaddle推理引擎,速度实现了4至5倍的提升,同时彻底解决了内存泄露问题,确保了高效稳定的运行。
Reactive-Resume
这是一个基于 AI 的免费开源工具,可用于提升简历质量。它通过解析简历和职位描述,模拟求职者跟踪系统(ATS),并利用 FastEmbed 技术计算简历与职位描述的匹配程度,最后给出简历的修改建议,从而提高简历通过自动筛选系统的概率。
screenshot-to-code
可以将屏幕截图转化为 HTML/JS/Tailwind CSS 代码,它使用 GPT-4 Vision 生成代码、DALL-E 3 生成相似的图片。
spaCy
spaCy 是 Python 中的高级自然语言处理库,并且 赛顿。它建立在最新的研究基础上,从第一天到 用于实际产品。
steel-browser
Steel是一个开源浏览器 API,可以轻松构建与 Web 交互的 AI 应用程序和代理。您无需从头开始构建自动化基础设施,而是可以专注于 AI 应用程序,而 Steel 会处理复杂性。
ultralytics
Ultralytics YOLO11是一个前沿的、最先进的(SOTA)模型,建立在之前YOLO版本的成功基础上,并引入了新的特性和改进,以进一步提升性能和灵活性。YOLO11旨在实现快速、准确和易用,使其成为各种目标检测、跟踪、实例分割、图像分类和姿态估计任务的首选。