鳄鱼怕怕的个人主页

即刻App年轻人的同好社区

下载

鳄鱼怕怕

308关注1被关注0夸夸

热爱可抵岁月漫长

鳄鱼怕怕

10月前

今天的AI 技术水平，让我觉得任何时候如果没有一群电子牛马在吭哧吭哧帮我干活，都觉得是在辜负时间。

无论是突然想到了任何有趣/深刻/的话题，提问了之后在帮我推理回复内容；还是通过工作流在交付复杂任务，或是通过 cursor/devin 在交付代码

之前这个挥斥方遒指点牛马的权力只有老板们才有，今天人人可有。区别只在于你对 AI 能力边界的领悟和掌握。一定程度上，技术帮我们实现了人人可以享有的“牛马自由”

0 00

鳄鱼怕怕

11月前

1. 九年义务教育，加上高等教育产业化带来的长期稳定输出的工程师的红利（海量规模化的高级劳动力）
2.相对长期稳定不折腾的内外部政经环境（工商产业可以正常发育）
3.统一的规模巨大的市场需求（服务好内需就能卷出国际战斗力）

欧美缺少 1 和 2，日韩缺少 1 和 3，印度缺少 2 和 3
大部分发展中国家 123 都缺

瓦恁: 我之前听一个朋友说，中国这几十年除了人口红利，更重要的是工程师红利，这几年感受越来越深以为然。这里说的工程师并不是指MIT水平的工程师

0 00

鳄鱼怕怕

2年前

App Intents 喂数据给系统的动力来自于卷，百度地图不给高德给，QQ 音乐不给网易云给，谁给系统喂，谁就能跟 Apple Intelligence 兼容更好表现更聪明，在面向消费者时能有更强竞争优势。

当然这个对于垄断应用暂时无解。

Yachen: Apple Intelligence 的架构设计非常优雅，通过 On-device/Private Cloud/ChatGPT 三层设计，很好的平衡了隐私与便利性，而且由于前两层并不携带知识，所以进入中国的话只需要将第三层替换为中国的供应商即可，非常聪明。但依然存在两个问题： 1. 前两层的表现到底怎么样？目前只有官方提供的一些数据报告可供参考，具体效果仍需要等待发布后才可以确认。模型质量将极大的影响最终体验，甚至直接差到根本没用。 2. Personal data 的来源，从 demo 看主要是 iOS 系统自带的应用，对于不怎么使用内置应用的用户来说，iOS AI 可能会严重缺乏数据（如 Gmail 和微信），目前看来的解决方案是沿用 App Intents framework 由 app 主动喂数据给系统，但问题来了，开发者有什么动力将这些数据主动上缴呢？特别是 Google，我几乎肯定他们不会去适配。另一个可行的技术方案，是系统主动抓取应用的数据，但目前并没有信息表明 iOS 会这样做，这也存在性能和隐私问题。

0 00

鳄鱼怕怕

2年前

力大砖飞这件事情做出来是不难的，但在做之前如何能让所有人坚定地相信却是更难的事情，毕竟这个过程既漫长又缺少正反馈。要如同思想钢印一般地坚信才可以。

聪明的人类总会克制不住冲动想要把自己在认知经验上的方法用在 AI 的迭代演进过程中，事实证明走错了。用通用的方法+连绵不绝的算力才是正解，这篇文章给出了很好的答案——

从这苦涩的教训中我们应该明白，通用的方法具有巨大的力量，即使是在可用的计算能力变得极其巨大的情况下，这些方法依然可以继续拓展和升级。能够如此无限扩展的两种方法是搜索和学习。

传说OpenAI工程师必背的经典：苦涩的教训

0 00

鳄鱼怕怕

2年前

从结果来看，GPT4 相比 GPT2，在 Python 代码处理水平上的大幅提升，其中由 Tokenizer 改进带来的收益远大于大模型本身迭代的收益。

—————————分割线—————————

在看 Andrej Karpathy 最新上传的视频 Let's build the GPT Tokenizer

其中提到，Tokenizer 的设计是大模型里面不容忽略的一环。
举的例子是——在 GPT2 里面并不能很好地处理 Python 代码，因为每行的空格缩进（比如每行开头的 4 个或更多空格）在之前的Tokenizer都会被处理单独成很多个独立token，这样编码后的的 token 数会很多很长，对 transformer 实际能处理的注意力窗口带来很大影响。

而 GPT4 使用的 Tokenizer ，将每行前面的多个空格（无论是 4 个或是更多），都处理成一整个 token，极大提高了 transformer 的处理效率；从结果来看，GPT4 相比 GPT2，在 Python 代码处理水平上的大幅提升，其中由 Tokenizer 改进带来的收益远大于大模型本身迭代的收益。

（参考）具体而言：
图中的文本例子中，GPT2 的 Tokenizer 统计是 300 tokens，同样内容变成使用 GPT4 的Tokenizer之后（叫做cl100k_base），只有 185 tokens

https://www.youtube.com/watch?v=zduSFxRajkE

0 00

鳄鱼怕怕

2年前

Microsoft Ignite 2023 发布会，今晚终于看完了，几个印象深刻的点：

1、今天的微软绝不再仅仅是个软件公司了，而是端到端做了很多软硬结合的创新。从芯片到机房（虽然前些年他们也做过海底机房什么的，但没有今天 Azure 这个客户体量这么惊人），空心光纤那个也挺能说明问题的

2、微软自己还是只做架构和底层，卖水和电，keynote 里面提到非常多的东西都是给上面的应用层提供能力和基建。各个层级的基建。看下来国内的云想要追赶还是很难很难的，真的需要大投入

3、数据湖那块（Fabric）的宣传片还挺牛逼的，原本很多企业里需要复杂的人员配置和专业技能才能完成的问题分析和决策，深度做 AI 整合以后可能会大幅简化（这块也许有 2B 的机会？）

4、最后的两个演示片都很惊人，

第一个和混合现实的结合，我的感觉不是觉得酷炫，而是觉得很恐慌。AI 辅助人做拧螺丝的活，那以后等有了具身智能的机器人，真人可能就被彻底取代了，饭碗都被抢走；

第二个（Azure quantum elements）和科研的结合，让人对未来的科研发展充满期待啊，同时也很慌，掌握了 AI 技能的科研工作者，比不掌握的那些人，在信息和技能方面的优势简直是压倒性的。