即刻App年轻人的同好社区
下载
App内打开
OrangeCLK
576关注6k被关注13夸夸
互联网话题优秀贡献者
www.orangeclk.com
不用「您」字
不用「她」字
置顶
OrangeCLK
8月前
大型语言模型(LLM)在不同任务上展现的能力存在差异。我觉得在写代码和写文章这两个任务中,LLM还是更擅长写代码。

语言模型物理学目前将语言模型的能力划分为三个主要方面:知识、推理和形式。

编程语言包含许多具有明确格式和规则的元素。例如,变量如何声明、函数如何定义、代码块的起始/结束标记、循环和条件语句的语法等,都有相对固定的写法。常用的设计模式也都有经过验证的代码结构供LLM学习参考。LLM擅长生成这些符合规范的代码组件,自动化完成许多需要遵循格式的编码工作,从而提高开发效率。

写作通常避免套话和冗余表述,LLM生成的文本有时显得模式化,包含空洞的填充语句。要得到精炼的文章,用户需要投入精力修改,这使得LLM直接产出所需内容时效率并不像写代码那么高。

写代码的时候有很多格式文本不得不写,使用LLM辅助可以省掉这些填充格式的工作——此前往往由IDE自动补全、模板等功能来实现,但现在LLM能做得更好;而写作则需要超越固定表达,追求内容精炼与创新,这与LLM的输出方式不同,常需要人工干预。

我最初认为,可能存在一种认知偏差:即某个领域的专家更容易发现AI在自己专业领域的不足,因为他们熟悉领域中的细微差别和高标准。因此,他们可能会推断AI在自己不熟悉的领域表现得更好。写作者可能觉得LLM不擅长写作擅长写代码;反之,计算机专家也可能觉得LLM不擅长写代码擅长写作。

这个观点的核心是,专家容易低估AI在自身领域的表现,而高估其在其他领域的表现,因为他们对其他领域的评判标准可能不那么严苛。

现在,我仍然坚持这个观点,其实这个观点就是在说LLM处在专家以下新手以上的水平。但除此之外,我认为LLM在代码方面的确展现出更强的能力,这种更强不仅仅是上述跨领域观察偏差的结果。代码本身的性质——对严格的格式、明确的规则(如变量声明、函数定义、语法结构)和既定模式的依赖——恰好与LLM处理形式、规则的能力非常契合。相比之下,高质量的写作往往要求更高的原创性、语境理解和避免模式化表达的微妙技巧,这对当前的LLM来说挑战更大。

类似,如果是写作中格式要求比较多的文书工作——比如结构明确、要写很多固定内容的文件、材料,我想LLM也格外胜任。

本作品采用知识共享署名-相同方式共享 4.0 国际许可协议进行许可。

原文地址:www.orangeclk.com
20
OrangeCLK
11:04
市场上最重要的两个推理引擎之一SGLang,这两天刚刚宣布商业化,创始人里面很多是中国籍。但是这个项目是在伯克利起步的,不过和上海交大的研究团队也有合作。项目能受到关注也是因为全球企业部署Qwen和DeepSeek等中国开源模型的巨大需求。这种在监管视角不知道怎么看。
21
OrangeCLK
2天前
觉得智谱的autoglm输入法比typeless输中文效果好,我觉得typeless应该也不会选非常擅长处理中文的模型吧。交互差不多,我都设置成了右alt键。
52
OrangeCLK
5天前
本来对影视飓风的肯尼亚纪录片报以期望,打开一看原来是食贫道风格…
我一直都没有关注影视飓风的频道,因为我觉得他们的作品很刻奇,缺乏作者性。当 Tim 在做技术类内容的时候,经常会以不容置疑的口吻讲出自己完全不懂的错误内容,信念感远非常人可及。
哪怕这个片子不是 Tim 拍的,竟依然如此。
B 站自己是投资了很多纪录片的,但是要开大会员才能看,我想那里面很多纪录片都会更好,我看过一些。把这些纪录片收到付费墙里也是一种保护吧,免于社交媒体伤害。
162
OrangeCLK
5天前
去年年初的时候抵制去泰国旅游,很多up主去日本;到了年末抵制去日本旅游,好多up主去泰国。
43
OrangeCLK
5天前
新年第一个工作日,学习欲非常旺盛
10
OrangeCLK
10天前
Gemini 3 圣诞节前有更新吗?处理数字的能力变强了好多。
00