即刻App年轻人的同好社区
下载
App内打开
Kai42_
172关注790被关注3夸夸
👨‍💻 独立开发者,Qwerty Learner 作者
Discover more at: kaiyi.cool
@Microsoft
置顶
Kai42_
10月前
正式介绍一下自己的开源项目 qwerty-learner,一个为键盘工作者设计的单词记忆与英语肌肉记忆锻炼软件

很多人打中文速度很快,但输入英语很慢而且容易出现错字,这是因为英语输入的肌肉记忆相对弱,同时也需要持续的背诵单词来巩固英语技能
qwerty 将打字练习和英语背诵结合在一起,可以在背诵单词的同时巩固肌肉记忆

link: qwerty.kaiyi.cool

github: github.com
1813
Kai42_
1天前
周五烤肉 小酌
😆
00
Kai42_
1天前
🤔 如果做一个 AI 全栈的教程项目,有没有搞头

包含:
基础工程:前端 、后端、部署
AI 工程:
- RAG Agent 的实战应用
- AI 工程侧的优化:query 优化、reranker 、动态 prompt 调试和优化、基于测试的的 prompt 优化、llm 缓存和降级策略 等等常见的玩法
10
Kai42_
2天前
今天跟 LLM 前沿的研究员聊了一下午,收获了很多有趣的 insights,先分享一个,后续慢慢整理

OpenAI 之前,大家只知道 transformer 是很好的架构,但 OpenAI 用现实证明了放大 transformer QKV 矩阵、增加更多的层、更多的维度和 attention heads,就能提取和学习到数据中高质量的 feature,从而产生高质量的模型

但这其中没有 magic,OpenAI 更没有断层领先其他公司的聪明大脑。当这个思路出来后,其他公司可以非常快的尝试这个路线。注意,增大模型并不是没有人想过,也不是有极高的技术含量,只是没人敢尝试。你不能跟老板说,你给我几千万美元,我试试这条路走不走得通。但 OpenAI 试出来了,并且用事实证明走得通、效果好,其他家就可以沿着这条路迅速跟进

OpenAI 之前领先其他公司大概 2 年,因为在 LLM 这条路整个链路,包括 训练、模型架构、推理 整个实现路线上,有无数的坑,OpenAI 一步步趟出来。而其他公司需要从头一步步踩坑,但因为有资本的关注,其他公司可以迅速雇到足够的人 足够的资源去趟,并且有了先行人,投入会更加高,差距也会极速收缩

如果大家都限制模型在 7b 的大小,模型的架构和细节非常重要。但因为有 scaling law,细节变得没那么重要,如果把模型比喻成人的话, “努力更重要,还没到拼天赋的时候”。暴力提升大小就能取得更好的效果

换句话说,因为深度学习的黑盒特殊性,科研处于先射击后瞄准的风格。即先实验验证某种模型架构具有领先的效果,然后尝试去解读为什么有这么好的效果。
transformer 效果很棒,但是为什么棒?你可以有很多理论去解释 QKV 三个矩阵的意义和效果,但你不能根据从多种优秀的模型架构中总结出的设计原则,去迭代出一种更优秀的架构,所以从更高维度看,大家就是在尝试各种不同的可能效果更好的架构。
因为架构迭代的不可控性,而提升参数量对效果提升的可预期性,未来主流公司还是会走在想尽办法提升参数量的这条路上。

在现在这个时间点,llama 3.1 已经达到了 gpt4o 的水平,大家基本来到跟 openAI 同一水平线上。未来可能就是
1. 继续卷模型参数量,等待 scaling law 达到瓶颈,进入价格战,开始优胜劣汰,剩下几个头部选手
2. 在卷的过程中出现了比 transformer 更优秀的架构。可能是终结 scaling law 的新架构,那 AI 的竞争走向另一条路。这就不是你我能预测的了

当然这只是对基础模型的分析和想法,应用层更加有趣和难以预测。
或者,更让我们期待的是人类在应用层的创新
01
Kai42_
2天前
让我叉腰一会!

感兴趣可以看:kaiyi.cool
01
Kai42_
2天前
GPT4o mini 每天免费 fine-tune200万tokens数据,超出后,每10万tokens 3美元收取。
9月24日后,每100万tokens微调服务收取3美元

几乎就是免费了,OpenAI 的价格战选的方向很好,不是盲目的降价 Token,而且降低 fine-tune 的价格。
低价的 fine-tune 会把用户绑定在平台,增加平台切换的成本

一般有千条左右非常高质量的数据,最好都是经过人类严格校验过的数据,就可以 fine-tune 出在特定领域效果极好的 model

可以理解成,在特定领域中: gpt4o mini + fine-tune > gpt4o, 且价格也会降低很多

看来大模型的竞争马上白热化了
00
Kai42_
5天前
大模型还是资金要求太高了,想持续发展就得看投资人有没有信心持续投入,我感觉会有两个时间点

一两年内有没有成功赚到钱的应用,决定了投资人对未来盈利的预期
GPT5 能不能有跨越性的提升,决定了投资人对 transformer 这个技术路线的信心

投资人信心 决定了 未来投资,决定了多少人才和硬件投资在大模型上,也决定了这条路能走到哪里

目前看来都略有悲观
盈利应用没出现,看起来都在亏大钱
GPT4 发布一年半了,GPT5 一直处于 如发的阶段,甚至没出来吹一下

说的更悲观一点,OpenAI 凭一己之力带偏人类10 年发展路线也不是不可能
21
Kai42_
5天前
逛推逛久了,每天都看其他人推出新东西,变得开始急躁,觉得自己动作慢了

其实大家做事情速度差不多,都是经历了类似的迷茫 焦虑和着急 才做出东西来的
所以,静下心来一步步做事就好
00
Kai42_
5天前
蒜香黄油意面

第一次做没经验,捞意面的几十秒,好好的蒜片就糊了,但味道还不错

教程:www.bilibili.com
10
Kai42_
10天前
帮转招聘

幻方/深度求索DeepSeek-全栈/前端开发工程师招募
公司简介:
我们相信,AGI 是数据x算法x算力的完美实践,是科研+工程+组织的优雅艺术。
我们正在寻找优秀的全栈/前端工程师,与我们一起进行高水平的科研探索和工程实践。如果你对AGI有浓厚的兴趣,如果你想在一个充满挑战和机遇的初创环境中展现你的才华,那么请不要犹豫,加入DeepSeek,与我们共同在AGI征程上“深度求索”吧!
www.deepseek.com

工作内容:
1. 依据LLM产品需求完成高质量的跨终端Native App/小程序/Hybrid App的代码开发和维护;
2. 能完整分析技术产品特点及洞察开发者需求, 针对产品实现的技术难题,提供完整的产品方案和基础方案;持续优化产品性能。

任职要求:
1. 计算机相关专业本科及以上学历
2. 精通前端技术,包括但不限于 Android/IOS/JavaScript/Node.JS等,熟悉React/Vue/Angular等框架实践经验;
3. 熟悉swift、kotlin、Java等语言
4. 有良好的审美追求、优质的个人项目及开源贡献者优先
5. 对AGI大模型领域感兴趣,有探索前沿科技发展的热情者优先

简历投递方式:
HR邮箱:yh.yang@high-flyer.cn
HR微信:596906589
主题:全栈工程师-姓名-学校
02
Kai42_
10天前
帮转,微软社招

职位名称:Applied Scientist计算机视觉
地点:北京
团队:Bing Multimedia团队
职位描述:我们正在寻找一位具有创新精神且在计算机视觉领域具有扎实背景的应用科学家,以增强必应的图像和视频搜索技术。作为我们活跃团队的一部分,您将参与到对必应多媒体产品用户体验和产品策略有重大影响的项目中。

职责:
- 开发用于图像和视频分类、对象检测和多媒体内容理解的最先进计算机视觉模型。
- 与跨职能团队合作,将人工智能模型整合到必应的图像和视频搜索产品中。
- 根据现实世界的数据和性能指标优化和细化模型。
- 关注人工智能和计算机视觉技术的发展,确保应用行业领先的解决方案。
- 与工程团队密切合作,设计、测试并部署可扩展的模型。
- 从概念到部署和可扩展性,贡献整个机器学习流水线。

要求:
- 拥有计算机科学、电子工程、机器学习或相关领域的硕士学位,且熟悉计算机视觉。
- 在计算机视觉领域开发和部署机器学习模型方面有2年以上的实战经验。
- 熟悉Python或C++等编程语言及TensorFlow、PyTorch或ONNX等深度学习框架。
- 对现代计算机视觉技术(包括CNN、RNN、注意力机制和迁移学习)有一定的理解。
- 在处理大规模数据集和计算机视觉项目方面有实际经验。

内推私聊我
00