即刻App年轻人的同好社区
下载
App内打开
Rehtt
37关注28被关注0夸夸
社畜furry
Rehtt
1年前
套娃
20
Rehtt
2年前

Almighty: 🧑🏻‍💻 Github Go Repos Weekly Trending (2023.12.02-2023.12.09) 📦 go-gost/gost 🔗 https://github.com/go-gost/gost 📄 GO Simple Tunnel - a simple tunnel written in golang 🇨🇳 GO 简单隧道 - 用 golang 编写的简单隧道 🛠 Go ⭐️ 480 stars this week 📦 songquanpeng/one-api 🔗 https://github.com/songquanpeng/one-api 📄 OpenAI 接口管理 & 分发系统,支持 Azure、Anthropic Claude、Google PaLM 2、智谱 ChatGLM、百度文心一言、讯飞星火认知、阿里通义千问、360 智脑以及腾讯混元,可用于二次分发管理 key,仅单可执行文件,已打包好 Docker 镜像,一键部署,开箱即用. OpenAI key management & redistribution system, using a single API for all LLMs, and features an English UI. 🛠 Go ⭐️ 315 stars this week 📦 hashicorp/terraform 🔗 https://github.com/hashicorp/terraform 📄 Terraform enables you to safely and predictably create, change, and improve infrastructure. It is a source-available tool that codifies APIs into declarative configuration files that can be shared amongst team members, treated as code, edited, reviewed, and versioned. 🇨🇳 Terraform 使您能够安全、可预测地创建、更改和改进基础架构。Terraform 是一款可获取源代码的工具,可将应用程序接口编入声明式配置文件,这些文件可在团队成员之间共享,并可作为代码处理、编辑、审核和版本控制。 🛠 Go ⭐️ 204 stars this week 📦 pocketbase/pocketbase 🔗 https://github.com/pocketbase/pocketbase 📄 Open Source realtime backend in 1 file 🇨🇳 1 个文件中的开放源代码实时后台 🛠 Go ⭐️ 433 stars this week 📦 etcd-io/etcd 🔗 https://github.com/etcd-io/etcd 📄 Distributed reliable key-value store for the most critical data of a distributed system 🇨🇳 分布式可靠键值存储,用于存储分布式系统中最关键的数据 🛠 Go ⭐️ 206 stars this week 📦 cprobe/cprobe 🔗 https://github.com/cprobe/cprobe 📄 Frankenstein made up of vmagent and exporters 🇨🇳 由 vmagent 和出口商组成的科学怪人 🛠 Go ⭐️ 58 stars this week 📦 containerd/nerdctl 🔗 https://github.com/containerd/nerdctl 📄 contaiNERD CTL - Docker-compatible CLI for containerd, with support for Compose, Rootless, eStargz, OCIcrypt, IPFS, ... 🇨🇳 contaiNERD CTL - 与 Docker 兼容的 containerd CLI,支持 Compose、Rootless、eStargz、OCIcrypt、IPFS... 🛠 Go ⭐️ 43 stars this week 📦 trustwallet/assets 🔗 https://github.com/trustwallet/assets 📄 A comprehensive, up-to-date collection of information about several thousands (!) of crypto tokens. 🇨🇳 全面、最新地收集了数千(!)种加密代币的信息。 🛠 Go ⭐️ 21 stars this week 📦 IceWhaleTech/CasaOS 🔗 https://github.com/IceWhaleTech/CasaOS 📄 CasaOS - A simple, easy-to-use, elegant open-source Personal Cloud system. 🇨🇳 CasaOS - 一个简单、易用、优雅的开源个人云系统。 🛠 Go ⭐️ 191 stars this week 📦 derailed/k9s 🔗 https://github.com/derailed/k9s 📄 🐶 Kubernetes CLI To Manage Your Clusters In Style! 🇨🇳 🐶 Kubernetes CLI,轻松管理集群! 🛠 Go ⭐️ 87 stars this week

00
Rehtt
2年前

Barret李靖: Github 花了一年多的时间,将他们的 1200 台 MySQL 集群从 v5.6 升级到了 v8.0,https://github.blog/2023-12-07-upgrading-github-com-to-mysql-8-0/,过程中需要遵循服务的 SLO 和 SLA,做了非常多的工作,值得借鉴阅读。 过去几年,随着业务规模的增长,我也实践了多次数据库的运维和变更,首先从 MySQL v5.6 迁移到 OceanBase-MySQL,在早期版本的 OB 中挣扎了一年多,建设大量的监控和应急措施来应对执行计划淘汰不及时和处理一些兼容性的问题;后来随着业务的增长,数据库体量增加,数据规模超过了 2Tb,又经历了一次数据库的扩容和版本升级,这个阶段数据的各种问题都暴露出来了,例如主从流量分配不均、单表超过一亿性能异常、热点库 CPU 暴涨、业务扩容带来的连接池不够等等,解决问题的同时,也在规范团队对数据库的使用,趣味性比较强;再后来随着业务的继续增长,又开始建设异地灾备,实现数据的异地同步和容灾切换,学到了不少。 但相比 Github 这个规模,解决的问题,还是小巫见大巫,它的 QPS 达到了 550w,极其恐怖。Github 采用的是分库分表的设计,在数据库调用这一层上,做的相对比较复杂,架构的复杂自然也带来了工具和工程的复杂度,从而增加了大量的运维成本,这篇文章提到了一些对抗软件复杂度的方法和细节,包括回滚机制的设计、混合版本提供服务等,比较有意思。只不过对细节的描述偏少,估计是不方便对外。

00
Rehtt
2年前

GitHub充电宝: GPT4ALL,gpt4all.io,是一个可以在本地运行且无需联网的大模型客户端软件,它的特点是在低配如 4G~8G 内存的消费级电脑上也能跑,无 GPU 要求,模型文件的大小在 3G~8G 左右,都是经过定制微调的可插拔 LLMs,效果优于 GPT-3,媲美 GPT-3.5。 其实这样的模型非常多,基本思路跟斯坦福开源的 Alpaca 是一致的。Alpaca(网页链接)是一个基于 LLaMa-7B 的微调模型,微调指令是使用 175 条种子任务通过 GPT-3.5 泛化生成的,共 5.2w 条,训练后的基准测试效果堪比 GPT-3.5,当然也存在很多缺陷,但瑕不掩瑜。 GPT4ALL 同样也是基于 LLaMa-7B 微调的,只不过它用到的微调指令集更庞大,有 80w+ 数据样本,在数据的多样性上做的非常好,这一点可以从这张可视化的图中看到效果如图,从数据的分布来看,已经适配了多语言。 同时,它也支持索引本地文档语料,例如 PDF、docx 等 40+ 种文件格式,你可以直接与这些文件进行 Chat,对于个人私密场景或者企业来说,可以尝试下。 如果你有自己的数据集,并且具备微调设备和编码能力,当然也可以选择自己来微调 LLMs 来满足需求,但对于大部分不具备条件的人来说,使用 GPT4ALL 来体验开源免费的大模型,还是非常方便的,私密性也可以得到保障。在官网看到不少微调过的大模型可供选择,目前还在持续更新中。

00
Rehtt
2年前

Barret李靖: 斯坦福开源的 Alpaca 是基于 LLaMa-7B 训练出来的,它的效果可以跟 173B 的 GPT-3.5 媲美,可见知识蒸馏+微调的魅力有多大;而 LaMini-LM,https://arxiv.org/abs/2304.14402,在模型缩小了将近 10 倍的情况下,其效果仍能与 Aplpaca 比肩,那它是如何保持优秀的推理效果的呢? 对比 Alpaca 和 LaMini-LM 的架构图,两者之间并没有太大的差异,唯一的区别是,Alpaca 用到的数据集是 5w 条,而 LaMini-LM 用到了 258w 条,另外,它微调的模型有好几个,分别是 T5 / Flan-T5 / Cereberas-GPT / GPT-2 / GPT-Neo,入参数量从 61M 到 1.5B 不等,效果均非常不错。这足以说明,数据集的规模、复杂度和多样性会直接影响微调效果。 LaMini-LM 的局限性也是比较明显的,通过微调产生的模型有几个通病,一个是在多轮对话的效果上会差很多,想必要构建多轮对话的数据集也是一个比较复杂的问题;另外一点是逻辑推理能力不足,尤其是涉及到解决编码、数学问题时,效果较差。 需要注意的是,并非数据集越庞大,微调的效果就越好,《AlpaGasus: Training A Better Alpaca with Fewer Data》,https://arxiv.org/abs/2307.08701,这篇论文将训练 Alpaca 的数据做了过滤,从 52k 删减到只剩下 9k 的高质量数据,使用相似的方法训练出了 AlpaGasus,其效果比 Alpaca 要更好。另外,它的训练周期也因此有了较快提速,从 80min 降低到了 14min。感兴趣的朋友也可以读一读。

00