博客搭建过程和工具总结 长期记录,很多东西都是边学边做,要培养自己规范记录的习惯。 还不怎么熟悉图床和图链的使用,暂时就用文字叙述,主要还是给自己看。 2016-07-18 Notes #Markdown #Hexo #Tools #Github
数字人深度思考(唇形优化) 面了一家北京公司,提到希望对唇形优化,测试了官方的微信小程序,背景分割有锯齿状,口型与TTS对不上,脸部超分存在色差,应该是类似wav2lip GAN的方案,这是大部分初创公司会选择的方案。 2023-05-10 Notes #AI #AIGC #数字人
StableDiffusion深度思考(连续性) 在面试创业团队的时候被问到在StableDiffusion中如何解决离散图片/视频生成视频连续性的问题,在该应用场景上我目前完整复现了开源效果,被大佬质疑如何比开源效果还好,我认为有监督才是解决的唯一方法,临时想了一些方案被否定了,这里事后整理一些设想。 2023-05-09 Notes #AI #AIGC #StableDiffusion
AIGC项目相关全回顾 在StyleGan系列时代,AIGC还只是实验室的产物,即使DALL-E出现,仍然没有普及,但是自从stable diffusion横空出世,整个AIGC领域进入了飞速发展期,随后ChatGPT火遍全球,打通了text-image的最后一环。 基于开源实现的一个标准数字人目前的最优方案:ChatGPT出prompts+text,MidJourney出图,Elevenlabs进行text2speec 2023-05-02 Notes #AI #AIGC #StyleGAN
TalkingHead项目全回顾 TalkingHead主要分为两类: Anime face的driving,以复现开源实现为主,做娱乐产业; Human face的driving,FOM开先河,分为img驱动、audio驱动、半身驱动、nerf类等,做2D数字人、数字名片、照片动起来、视频会议化身等; 2023-03-02 Notes #AI #TalkingHead