即刻App年轻人的同好社区
下载
App内打开
彭宗中Ice
262关注3k被关注2夸夸
Ex-QCC CEO,数据产品junkie
公众号:圣狮的伙伴们
置顶
彭宗中Ice
2年前
回头看4年前的文章没有过时,体感不同。知道事物的名字和了解洞察是两回事儿,会做又是另一回事儿。“知”的目的达到了,“行”重复做。保持中庸,而非平庸。

三年读书思考:求真,从不骗自己开始

816
彭宗中Ice
4天前
年后健身房爆满多了3倍人,以为人们年后自律减冬膘,实际是旁边的倒闭了,活过冬季的吃到了第一波产能出清😂
50
彭宗中Ice
7天前
微信的壁垒有没有 DeepSeek 都一样,未来也是国内最适合做 AI Agent 的公司之一。作为产品改动极其保守克制的超级 App, 接入AI 边际的粘性只会更高。

只做一个假设,在中国可以卸载掉手机中绝大部分的 app 只保留一个微信过一个星期或更久,其实基本不会有太大问题。微信的生态位是在互联网基础设施上构建了一个半封闭的第二个互联网(互联网之父们不希望看到的)。打车出行,购物,手机水电费缴费,点外卖,沟通,看新闻,看短视频这些都是互联网的功能,微信一个 app 就满足了,因为在中国它就是超级连接&整合器/移动互联网本身。

为什么要克制,垄断者的最优解是做一个enlightened monopoly。
83
彭宗中Ice
8天前
被短视频格式化的大脑,会因为推理能力很强的大模型进一步被格式化。Attention is all you have and all you need

推荐一下哥大法学院教授Tim Wu 这本十多年前的书,和The Master Switch 一样是信息科技周期 timeless 的阅读
00
彭宗中Ice
8天前
微信的极致分发 + DS R1的极致效率,触达 13 亿用户的大杀器,百度可以作为 funding short😂😂。再看快两年前的前瞻,模型没有先发优势,掌握用户关系/信任和底层数据可以坐等跟进

彭宗中Ice: 长期是非常明确的,当 reasoning / 智能的成本无限接近于零,调用 API 成本可以不过脑子时,试错与创新的摩擦阻力也就不存在了,解锁的可能性/optionality 的价值是无法用线性公式计算的。需求的弹性 elasticity 必定是正向的,长期是不是英伟达另论

00
彭宗中Ice
11天前
A Grand Bargain could be on the table,一个大的国际政治交易不是不可能,且边际概率在上升🧐🧐
21
彭宗中Ice
14天前
应该早早开始投资和学习投资,但不需要过早进投资行业。去做产品经理,做工程师,做销售等实际创造价值的事儿。投资可以是最后一份工作
95
彭宗中Ice
15天前
长期是非常明确的,当 reasoning / 智能的成本无限接近于零,调用 API 成本可以不过脑子时,试错与创新的摩擦阻力也就不存在了,解锁的可能性/optionality 的价值是无法用线性公式计算的。需求的弹性 elasticity 必定是正向的,长期是不是英伟达另论
11
彭宗中Ice
15天前
R1 思考后的回答:中文在信息压缩效率上的表现是一个复杂且多维度的议题,需要从语言学、信息论和实际模型表现三个层面综合分析:

---

### **一、理论层面的分析**
1. **字符信息密度**
- 汉字作为表意文字,单个字符常承载完整语义(如「水」= water),而英文需多个字母组合(5字母单词)。根据信息论中的熵计算,汉字的信息熵(约9-11 bits/字)显著高于英文字母(约4 bits/字母),但需注意汉字与英文单词(非字母)的对比。
- 研究显示,相同内容的文本中,中文字符数通常比英文单词数少约30%-50%(如联合国文件对比),表明中文在字符级别的信息密度更高。

2. **语法冗余度**
- 中文语法结构更简洁:无冠词(a/an/the)、时态词尾(-ed/-ing)和单复数变形,减少了冗余信息。例如“我昨天吃饭”无需时态标记即可表达过去式,而英文需“I ate food yesterday”。
- 英文依赖功能词(如介词、连词)和语法结构(如被动语态),可能导致信息密度相对较低。

---

### **二、实际模型训练的挑战**
1. **分词与Tokenization的差异**
- **中文**:传统基于词的分词易受歧义影响(如“南京市长江大桥”),现代模型(如BERT)多采用字符级(character-level)或子词(subword)处理,每个汉字作为独立token,可能提升单token信息量。
- **英文**:通常采用子词分词(如WordPiece/BPE),将长词拆分为子单元(如“un+fortunately”),导致单个token信息量较低但组合灵活。

2. **模型表现对比**
- **优势场景**:在字符级任务(如文本生成、摘要)中,中文可能因高信息密度而生成更短输出。例如,GPT-3生成中文回答时token数通常少于英文。
- **劣势因素**:中文的上下文依赖性更强(如省略主语、多义词依赖语境),可能增加模型理解难度。例如“打”可对应数十种含义(打人、打游戏、打雷等),需更多上下文消歧。

3. **训练数据需求**
- 中文的高信息密度理论上可降低数据需求,但实际中英文拥有更丰富的公开语料(如英文维基百科条目数是中文的3倍),可能抵消这一优势。

---

### **三、实证研究与跨语言对比**
1. **机器翻译任务**
- 研究显示,中英互译时,中文到英文的翻译通常需要增加约40%的token数量,而反向翻译则减少约30%,支持中文信息密度更高的假设(Sennrich et al., 2016)。

2. **语言模型效率**
- 相同参数量的模型(如mBERT)在中文任务上的表现与英文接近,但需注意中文训练数据规模较小可能导致偏差。近期多语言模型(如PaLM)中,中文的perplexity(困惑度)常低于英文,可能反映其高效编码能力。

---

### **四、结论:中文信息效率更高,但模型表现受多因素制约**
1. **理论优势存在**:汉字的信息密度和语法简洁性使中文在字符/词级别压缩效率更高。
2. **实际模型表现复杂**:
- **正向因素**:高信息密度可能降低序列长度,减少计算开销(如Attention复杂度与序列长度平方相关)。
- **负向因素**:上下文依赖性强、训练数据规模较小、分词复杂性可能抵消优势。

3. **未来方向**:
- 开发更适合中文特性的模型架构(如强化上下文建模);
- 探索混合分词策略(字词结合);
- 增加高质量中文语料以释放理论潜力。

综上,中文在理论上的信息压缩效率优势是存在的,但在实际应用中需结合语言特性与工程技术进行优化,才能充分转化为模型性能提升。

彭宗中Ice: 中文压缩信息的效率 (information and meaning per token) 是要远远高于英文的

00
彭宗中Ice
16天前
中文压缩信息的效率 (information and meaning per token) 是要远远高于英文的
52