FreeMindAI的个人主页

即刻App年轻人的同好社区

下载

FreeMindAI

8关注44被关注0夸夸

我一直在思考自由，直到 AI 出现。

FreeMindAI

2年前

2024年8月3日，快手推出的LivePortrait模型更新了动物模式，通过对约23万帧各种动物（主要是猫和狗）的数据进行微调，实现了动物动画生成。推特用户@Kijaidesign分享了他使用ComfyUI插件测试新模型的体验，称效果可以补充出猫的牙齿和舌头。虽然目前用于动物面部检测的X-Pose插件尚未支持，但已有的face-alignment功能仍能使用。

该模型采用了基于隐式关键点框架的策略，在计算效率和可控性之间实现了平衡。具体来说，LivePortrait能够在单一形象上进行动作重演，还支持不同形象间的交叉动作重演，适用于各种艺术风格和尺寸的静态图像。在技术细节方面，LivePortrait的核心在于其拼接和重定向模块。这些模块允许将动画面部无缝集成到原始图像中，并对眼睛和嘴巴的运动进行控制。通过扩展训练数据集和设计拼接模块，模型在生成质量和泛化能力上得到了提升。在RTX 4090 GPU上，生成速度缩短至每帧12.8毫秒。

用户体验方面，LivePortrait的应用场景非常广泛。内容创作者和影响者可以利用该工具从单个图像生成动画视频。电影制片人和动画师可以创建角色动画。市场营销人员和广告商可以利用LivePortrait创建视频广告。教育工作者和电子学习开发者可以通过动画肖像使学习材料更加互动。游戏开发者则可以创建角色动画。

在技术对比方面，LivePortrait与其他肖像动画生成工具相比具有优势。与基于扩散模型的方法相比，LivePortrait在生成速度和计算效率上具有优势。基于隐式关键点的框架使得LivePortrait能够在保持动画效果的同时，实现更快的生成速度和更低的计算资源消耗。

竞争对手方面，腾讯的AniPortrait是一个值得关注的竞争对手。AniPortrait同样是一款肖像动画生成工具，能够基于音频和一张参考图像生成动画人像。该项目在GitHub上获得了广泛关注和好评，Star数已经突破2800。AniPortrait的创新之处在于其Audio2Lmk和Lmk2Video两个模块，前者用于提取Landmark序列，后者则利用这些Landmark序列生成人像视频。

00:23

0 00

FreeMindAI

2年前

真不错👍

BlackRock 领投，Groq 完成 6.4 亿美元 D 轮融资，估值 28 亿美元

0 00

FreeMindAI

2年前

财务自由了

Character.AI 估值缩水 50%，谷歌 25 亿美元收购，AI 创业难逃收购命运？

0 00

FreeMindAI

2年前

兄弟们！刚做的卡片漂亮不，想不想用，评论区q1，做好后优先体验。

阿里巴巴最近推出的 CosyVoice 模型真的挺厉害的。这个模型不仅能生成特定性别、年龄和个性的声音，还能模仿人类的自然语音特征，比如笑声、咳嗽和呼吸等。更棒的是，它还能为声音添加情感和风格。

CosyVoice 支持中英日粤韩五种语言，跨语言生成效果也很不错。你可以自定义音色，生成的语音包括韵律和情感等细节，通过富文本或自然语言形式进行细粒度控制。它能模仿人类的自然语音特征，生成的语音在情感表现力上显著提升，几乎和真人发音一样。

这个模型有几个版本：基础的 CosyVoice-300M，经过微调的 CosyVoice-300M-SFT，还有支持细粒度控制的 CosyVoice-300M-Instruct。每个版本都有不同的特点和优势，特别是在情感控制方面表现得更好。

应用场景也很广泛，比如语音翻译、情感语音聊天、互动播客和有声书朗读等。CosyVoice 在自然语音生成和情感表达方面的表现确实很出色，适用于多种应用场景。

5 31

FreeMindAI

2年前

太牛了兄弟们！绝对不是标题党

硅谷那边搞了个新的视频压缩技术，能把视频压缩到原来的10%到20%，效果几乎没啥损失。这个技术是基于 H.264 压缩标准，用 FFMpeg 实现的。有人还做了个小工具，可以在线压缩视频，链接是 tools.rotato.app](tools.rotato.app。

我自己试了下，效果确实不错，压缩后的视频质量几乎没啥变化。H.264 本身就是个老牌的压缩标准，广泛应用在各种视频压缩场景中，支持多种分辨率和比特率。

图一是21M,图二是压缩后的大小8.5M，图三是原视频截图，图四是压缩后截图

17 1012

FreeMindAI

2年前

ChatGPT语音模型感觉和之前演示效果差不多啊！很有意思

01:25

0 01

FreeMindAI

2年前

#GPT-4o-64k-output-alpha：定价上涨，功能更强，值得一试！#

2024 年 7 月 29 日，OpenAI 发布了 GPT-4o 的实验版本，叫做“gpt-4o-64k-output-alpha”，这个版本每次请求能输出最多 64K 个 token。

加入长输出功能后，GPT-4o 在处理复杂任务和生成长篇内容时更具优势。比如在法律领域，它可以生成详细的法律文书和合同；在学术研究中，它能撰写长篇论文和研究报告；在内容创作方面，它还能写小说、剧本等长篇文学作品。

当然，提供更长的输出时间也意味着成本增加。gpt-4o-64k-output-alpha 的定价有所上涨，每百万输入 token 收费 6 美元，每百万输出 token 收费 18 美元。尽管价格上去了，但这个实验版本让用户有了更多的可能性，可以在更多场景中发挥 GPT-4o 的强大功能。

回忆一下gpt-4o 和 mini 的发布，既提高了效率又降低了成本。

2024 年 5 月 14 日，OpenAI 推出了最新的多模态大模型 GPT-4o。这款模型在技术和经济性方面都大有进展。GPT-4o 能够处理文本、音频和图像的任意组合输入，并生成相应的输出，这让它的应用场景变得更加广泛。比如，你可以输入一段文字和一张图片，GPT-4o 会生成一段相关的音频，或者输入一段音频和一段文字，模型可以生成一张相关的图片。这种多模态功能让 GPT-4o 在实际应用中变得更灵活、更实用。

价格方面也有好消息，GPT-4o 的价格降低了一半，这让更多人可以负担得起这种先进技术。为了让大家都能体验到 GPT-4o 的强大功能，OpenAI 还推出了有使用限额的 ChatGPT Free 版本。即使是免费用户也可以使用 GPT-4o，不过当达到使用限额时，系统会自动切换到 GPT-3.5。

2024 年 7 月 18 日，OpenAI 推出了 GPT-4o mini，新一代生成式 AI。这个小巧又实惠的模型，成为了 AI 领域的一大步。它比 GPT-4o 更小更便宜，API 调用费用仅为每百万输入标记 15 美分，每百万输出标记 60 美分，而 GPT-4o 则分别为 5 美元和 15 美元。对于需要频繁调用 API 的公司、初创企业和开发者来说，这无疑是一大福音。更棒的是，GPT-4o mini 性能比 GPT-3.5 还要强，价格却便宜了 60%。

GPT-4o mini 在多个基准测试中表现出色，比如在 MMLU 测试中得分 82%，远超 Gemini Flash 的 77.9%和 Claude Haiku 的 73.8%。在编程能力测试 HumanEval 上，GPT-4o mini 也以 87.2%的得分大幅超越了 GPT-4 的早期版本。这些成绩，足以证明 OpenAI 再次在人工智能领域取得了重大进展。

GPT-4o mini 的多模态功能和性能提升，让它在很多领域都大有可为。比如，内容创作方面，用户可以用它生成高质量的文本、音频和图像；教育领域，它能生成多媒体教学材料；在医疗领域，还能用来生成医学影像和诊断报告。GPT-4o mini 的发布，确实为各行各业带来了新的可能和机会。

1 00

FreeMindAI

2年前

苹果AI来了，重点看评测视频。

Apple Intelligence 来了！中国目前不可用？别慌，有开源替代方案

0 00

FreeMindAI

2年前

Apple Intelligence 终于来了！iOS 18.1 和 macOS 15.1 的开发者测试版已经上线，带来了这个备受期待的 AI 功能套件。这个新软件包将彻底改变我们与 iPhone 的互动方式。

改进后的 Siri 现在更聪明了，召唤它时手机边缘会发光。即使你说话结巴，它也能理解你的命令。邮件和图像生成功能也很酷，可以自动生成电子邮件和图像，还能对通知进行智能排序。照片和视频搜索功能也得到了提升，AI 可以更准确地找到你想要的照片和视频片段。

写作工具也很实用，可以帮你总结、重写和校对文本，适用于邮件、便笺、页面和第三方应用。还有一个很有趣的功能是回忆创建，只需输入描述，就能创建包含章节的故事情节，并组织成电影。

不过，这些功能目前只适用于 iPhone 15 Pro 和 iPhone 15 Pro Max（及更高版本），因为需要新的 A17 Pro 芯片来支持这些 AI 优化。

目前，只有 Apple 注册的开发人员可以使用这些新功能，需要在“设置”应用程序中注册等候名单。

0 00

FreeMindAI

2年前

因为不知道剪什么发型的有福了

Stable-Hair 是个挺有意思的工具，它能把各种真实世界的发型迁移到你的照片上，让你在虚拟世界里试试不同的发型。这个工具特别厉害的地方在于，它能处理各种复杂的发型，同时还能保持你的脸部特征和背景不变。

它的工作原理其实挺简单的。首先，它会把你的照片变成“秃头”状态，这样就有了一个干净的基础。然后，它会从你想要的发型照片中提取发型，并通过一些复杂的技术，把这个发型高保真地“贴”到你的秃头照片上。

如果你感兴趣，可以去他们的[项目主页](xiaojiu-z.github.io)看看，代码仓库也快上线了。

另外，Stable-Hair还结合了一些其他的AI动画技术，比如混合风格化、光流变形和3D衍变，这些技术让生成的发型看起来更自然、更贴合。

他们还推荐了一些工具和插件，有免费的，比如Deforum、Parseq和TemporalKit，也有付费的，比如Stability AI的动画API和Kaiber的Flipbook模式。这些工具可以帮助你更好地实现动画效果。

106 2178