小众AI

Hallo
Hallo - 音频驱动的肖像动画生成
一个音频驱动的视觉合成系统,可以根据输入的音频和图像生成肖像动画。它可以让静态的肖像图像,根据音频中的声音变化动起来,就像真人说话一样。
  官网   代码仓

Hallo是由百度联合复旦大学、苏黎世联邦理工学院和南京大学共同推出的开源项目。在音频驱动的肖像动画生成方面,这个项目取得了令人瞩目的进展。

Hallo项目摒弃了传统的参数模型,采用了一种全新的端到端扩散范式。通过一个层次化的音频驱动视觉合成模块,显著提高了音频输入与视觉输出之间的对齐精度,包括嘴唇、表情和姿态动作。

hallo.jpg

主要功能

  • 经典电影致敬:通过动画技术向经典电影致敬。
  • 虚拟角色:创建虚拟角色,用于游戏、电影或其他媒体。
  • 真实人物:将真实人物的动作和表情转化为动画。
  • 动作控制:精确控制角色的姿态、表情和嘴唇动作。
  • 歌唱动画:生成与歌唱同步开始使用的动画。
  • 跨演员表现:实现不同演员之间的表现转换。

开始使用

环境要求:

  • 环境: Ubuntu 20.04/Ubuntu 22.04, Cuda 12.1
  • GPUs(已测): A100

创建Cuda环境:

  conda create -n hallo python=3.10
  conda activate hallo

安装包:

  pip install -r requirements.txt
  pip install .

安装ffmpeg:

  apt-get install ffmpeg

更多...


ai-financial-agent
探索人工智能在投资研究中的应用。
Meetily
一个 AI 驱动的会议助手,可捕获实时会议音频、实时转录并生成摘要,同时确保用户隐私。
CHRONOS
CHRONOS是一种新颖的基于检索的时间线摘要 (TLS) 方法,通过迭代提出有关主题和检索到的文档的问题来生成按时间顺序排列的摘要。