即刻App年轻人的同好社区
下载
App内打开
张锑
85关注36被关注0夸夸
研究AI芯片和计算加速 ex海康威视研究院
最近沉迷语音交互
想变成e人
wx:zhangti112358
张锑
8月前
做了个图,用最简单的方式解释MCP的运行过程:
00
张锑
8月前
把去年语音交互的想法做了个软件,直接下载exe/dmg即可使用。有想要的功能可以留言~
项目链接:github.com
01:45
02
张锑
8月前
英伟达B200和上一代H100的对比。主要的结论是:
1. 同样训练GPT4,可以用1/4数量的卡和1/4能耗。
2. 从降低计算成本看,封装和互联的影响已经超过了制程。简单来说,都是通过减小连接距离来降低能耗。封装和互联进步是把芯片之间的距离从5m变成50cm,5mm。制程进步是把芯片内距离30nm的晶体管做更小。前者的性价比更高。

https://mp.weixin.qq.com/s/0Elr5hu22YO3tKfDo9tH9Q

00
张锑
8月前
之前写的关于算力的文章,因为文章里专业名词有点多,简单总结下。
(一)算力成本,从上游到下游的传导(括号内是示例):
1. 晶圆价格(4nm晶圆 15000$ 每片)
2. 计算卡价格(H100 30000$ 每张)
3. 机器价格(H100机器 2$/h/每H100)
4. Tokens价格(Deepseek R1 16¥/M tokens)
(二)让算力成本下降的各个因素:
1. 芯片制程
1. 制程提升:单位算力功耗下降。
2. 先进制程价格随时间下降:单位算力价格下降。
2. 芯片设计
1. 芯片架构提升:单位晶体管算力提升。
2. 计算软件:算力利用率提升。
3. 模型算法
1. 相同能力的模型,参数量下降。
2. 相同模型,低精度计算效果接近。
(三)另外,文章最后说成本10年下降1000倍还是保守了。主要是模型进步太快了,(相同能力的模型,参数量下降)1年就有10倍。

算力成本-从晶圆到tokens价格

00
张锑
1年前
话说现在的“截图式信息获取”和“模拟鼠标/手的点击”操作是弯路吗? 感觉程序之间用数据接口交互更准确且高效啊。 目标是帮人更好的用计算机。

Szhans: ▶️ 遇见 H:一个强大的AI Agents平台,横空出世 还记得几周前 Claude 推出了惊艳业界的Computer Use吗? 无论你是否亲自探索过它的能力边界,可能已经意识到LLMs 正在接管和「主动操作」我们的计算机了。例如让AI为自己远道而来的朋友提供服务。主动查查天气、交通路线并制定一个徒步计划等。 (虽然它还只是一个雏形,有失败率,但是令人大开眼界 [1] ) 换句话说,AI自主完成人类级别的复杂任务(部分)的时代正在加速到来。 今天 ,一家名为 H 的法国公司带来了更加印象深刻的 AI Agents平台。根据它的官方评测, 其旗舰代理 Runner H 已经在速度、准确性胜过了强大的竞争对手,包括Claude Compute Use等 。 🍝 在随附的视频中,我们能看到一个AI Agent正在工作: 1. 这是一个网络搜索的使用场景:左边是Runner H,右边是Claude 的Computer Use。 2. Runner H 只用8 步就准确完成任务,而Claude 则需要33 步以及更多的时间。 3. 这个任务对于AI来说还是比较复杂,目标是, 在allrecipes.com网站上搜索一个符合特定条件的素食千层面食谱。(这个食谱需要满足几个条件:适合6人份、超过100个评论 且4.5星以上) 4. 稍微细致观察,就不难意识到,两者执行模式略有差异。不同于Claude 操作计算机里面的各种软件来实现那互联网访问,而Runner H作为Agents直接访问了网页并进行了网页浏览、搜索,然后在不同网页区域进行了视觉理解、识别,并采取行动; 5. Runner H找到对应食谱后,经过一系列自主识别、推理和核对,让人对新的Agent闭环能力印象深刻。 6. 而Claude 的Computer Use 这边,因为涉及多个软件之间衔接,不仅影响了响应速度,而且多次出错,并重新尝试。 因此实现的步骤大幅增加了。 除了网页浏览和搜索,Runner H作为智能代理还具备许多其他能力,例如实时获查询和提取数据等。[2] 🤖 到底什么是Runner H,以及如何实现这样的能力? Runner H 是一个网络代理,通过理解自然语言指令、自动适应用户界面变化 和自我修复来提供解决任务难点。 简单来说,这要归功于它的「眼睛」(VLM 视觉模型)和「大脑」(LLMs 语言模型)的紧密配合:它能看懂屏幕上的内容,理解需求、拆解步骤,并采取恰当的行动。 ⏰ 现在开放了吗? 是的,面向开发人员版的API 和Studio已经开启申请[3] 。 在Studio中,你可以为端到端工作流,例如在电子商务场景进行测试(例如产品发现和订单确认等),或财务自动化。 很快,H 将面向所有人。 🕊️ H的使命 尽管公开资料还不多,但H 这家含着金钥匙横空出世的法国公司有着不凡的野心,这是他们向传统巨头发起的宣战书 [4] ,也是H团队的愿景: 「我们相信, 当我们减少复杂性时,我们就为创新创造了空间, 当我们在乏味的任务上花费更少的时间,我们就能更自由专注于有意义的目标和创造力。」 而Agents的易用性不仅意味着技术的普及,就像个人电脑和智能手机的普及一样,它即将成为下一个改变人们生活方式的全新工具。 📖注释和参考: [1] Claude正式推出Compute Use https://m.okjike.com/originalPosts/67184290a59d13d6d1ad27d8 [2] https://www.hcompany.ai/blog/a-research-update [3] Introducing H https://www.hcompany.ai/blog/introducing-h [4] 《千脑智能》 https://m.okjike.com/originalPosts/662d86fa9185c305d110a28e

00
张锑
1年前
AI能把键盘干掉吗?

键盘一是用来输入文字,二是进行控制。
如果用语音输入,结合更多可以语音交互的元素,可以代替键盘吗?这样用户可以直接表达需求,不用记各种快捷键了。
01:16
30
张锑
1年前
自己做了点语音交互的尝试。
使用感受是语音“所想即所得”的感觉很好,另外信息量大的优势很明显。
开发的体验是做一个特定的功能比较简单(类似siri快捷指令),想支持任意的需求太难了。
可以猜下哪个功能是开发了不用的,哪个是天天用的,答案在评论区。
02:19
11
张锑
1年前
好像研究产品的人都在即刻,发点想法看能不能找到人聊天。
最近沉迷语音交互,一个简单的想法是“借助强大的模型能力,人和机器之间的交互能变得更加自然且高效”。

人和计算机交互是从“二进制数据”到“命令行”再到“图形界面”。随着计算机对信息处理能力的提升,人机交互的趋势有:
1. 交互的信息种类增加,信息密度更大。
2. 交互方式更自然。(用眼看,手触摸)
现在的AI技术提升了对语言/图像的理解/生成能力。因此可以把图形界面交互,和语音这个人类天生,且信息密度很大的交互做的更好。
30