即刻App年轻人的同好社区
下载
App内打开
陈言_Linkc
136关注1k被关注0夸夸
🔮 致力于创新团队工作流程 AI化
💡 跨周期产品设计师
🎲 社区、媒体科技、生态治理专精
🏄 效率工具爱好者,玩票自媒体
陈言_Linkc
4天前
昨天看完Google I/O 后第一感觉就是Google一下子变成臃肿、缓慢缺乏新意的“大公司”。虽然早就有这个感觉,但从来没有这个直观过。也许Google还是那个Google,但时代变了。

说回发布会,虽然这次发布的产品很多,Google在AI软硬件上也有不少积累,但最让人兴奋的还是Project Astra。现场demo还是比较粗糙,反馈速度和交互细节有点别扭,但和前一天的GPT-4o结合起来看,纯语音、多模态、连续对话确实是一个值得投入的方向。

目前的人机交互大多为对话框,可以向前追溯至聊天室甚至更早的命令行时代。但纯粹的语音互动,并且给AI赋予更多的输入方式,更符合人与人之间的交流习惯。从产业上讲,AI将不再受制于硬件的输入限制,耳机、眼镜,甚至一个随身摄像头都有可能搭载一个完全功能的智能体。
03:49
00
陈言_Linkc
6天前
这个视频是五一假期和闺女一起策划的,选择了8个国内外大模型,让他们分别对图片进行识别,并完成相应的任务。说实话这些任务都不简单,有的需要大模型能够识别并分析图中的元素,有的需要掌握背景知识,有的则需要具备相当的分析能力。

从评估的结论看,GPT-4、Gemini Pro 1.5 表现出色,国内的通义千问也很厉害。

Gemini 1.5 Pro:6
GPT-4:4.5
通义千问:4
智谱清言:3.5
文心一言:2.5
Claude 3:2.5
讯飞星火:2
海螺AI:1.5

其实在日常使用中,尤其是生活场景,拍照提问要比输入文字语音常用得多,这也是我们做这个评测初衷。评测方法肯定是很不严谨的,大家带着娱乐的心态看待就好。

xhslink.com
00
陈言_Linkc
1月前
今天开始写一些团队和自己应用AI的案例。第1期,哈哈。

我是Memo(图1)的早期用户,这是一个利用本地算力进行语音识别的工具,识别出的语音可以生成字幕、以及转录为其他语言。其实剪映也在前不久上线了这个功能(图2),但出于安全考虑,操作者必须验证语音,与原视频的语音一致才可以使用(图 3)。

我们最近有一个项目正好用上,不过是自己搭建的转录流程。这个客户是一家面向全球的机械公司,疫情期间拍了很多小视频介绍自己的产品,效果不错。他们希望面向海外市场重新拍摄这些视频,放到TikTok上传播。但视频拍摄成本挺高,把外国演员和设备档期凑到一起也不容易,所以想看看能不能通过AI手段实现。正好,语音转录+deepfake搞定,客户满意也节省人力。
00
陈言_Linkc
2月前
HeyGen这个数字人在真实性和场景广泛读上又更进一层。不仅仅是能动了,而且把数字人的应用场景从固定信息传达扩展开了。
xhslink.com
20
陈言_Linkc
3月前
介绍一下孩子使用AI的经历,我觉得我这辈子被AI替代不可能了,我已经被年轻人替代,AI没这个机会,但一零后还是要提前接触一下。

愁死!刚戒了游戏,孩子开始沉迷AI

00
陈言_Linkc
3月前
世界需要Sora,也需要完成特定任务的AI工具。我的需求很简单,就是让照片动起来,几秒钟就够了。现在用的是LeiaPix,输出 720P免费。

比Sora更快更真实,AI把我的照片变活了

00
陈言_Linkc
3月前
这次春节去新加坡玩,很多看不懂的标牌都交给ChatGPT了,AI识图和理解功能真强大啊。有些场景我自己还真是会懵圈。

沮丧,十年外语白学了,出国旅行也要靠GPT

00
陈言_Linkc
3月前
OpenAI昨晚发布的视频生成大模型Sora,和视频部门的小伙伴们研究了每一个样片,真的很震撼,解读都放视频里了,推荐视频行业的朋友看看。

OpenAI发布视频大模型,你还相信真实么?

00
陈言_Linkc
3月前
最近开始用Google Gemini,效果还不错,目前中文也支持Pro模型了。

谷歌AI全家桶,5分钟出发新加坡

00
陈言_Linkc
4月前
哄哄,拜年模拟器,大模型好像找到出圈的方式了。这次是个极限玩法,一句话把亲戚噎回去。

AI拜年模拟器,一句话让八大姨破防

00