即刻App年轻人的同好社区
下载
App内打开
OrangeCLK
579关注6k被关注13夸夸
互联网话题优秀贡献者
www.orangeclk.com
不用「您」字
不用「她」字
置顶
OrangeCLK
9月前
大型语言模型(LLM)在不同任务上展现的能力存在差异。我觉得在写代码和写文章这两个任务中,LLM还是更擅长写代码。

语言模型物理学目前将语言模型的能力划分为三个主要方面:知识、推理和形式。

编程语言包含许多具有明确格式和规则的元素。例如,变量如何声明、函数如何定义、代码块的起始/结束标记、循环和条件语句的语法等,都有相对固定的写法。常用的设计模式也都有经过验证的代码结构供LLM学习参考。LLM擅长生成这些符合规范的代码组件,自动化完成许多需要遵循格式的编码工作,从而提高开发效率。

写作通常避免套话和冗余表述,LLM生成的文本有时显得模式化,包含空洞的填充语句。要得到精炼的文章,用户需要投入精力修改,这使得LLM直接产出所需内容时效率并不像写代码那么高。

写代码的时候有很多格式文本不得不写,使用LLM辅助可以省掉这些填充格式的工作——此前往往由IDE自动补全、模板等功能来实现,但现在LLM能做得更好;而写作则需要超越固定表达,追求内容精炼与创新,这与LLM的输出方式不同,常需要人工干预。

我最初认为,可能存在一种认知偏差:即某个领域的专家更容易发现AI在自己专业领域的不足,因为他们熟悉领域中的细微差别和高标准。因此,他们可能会推断AI在自己不熟悉的领域表现得更好。写作者可能觉得LLM不擅长写作擅长写代码;反之,计算机专家也可能觉得LLM不擅长写代码擅长写作。

这个观点的核心是,专家容易低估AI在自身领域的表现,而高估其在其他领域的表现,因为他们对其他领域的评判标准可能不那么严苛。

现在,我仍然坚持这个观点,其实这个观点就是在说LLM处在专家以下新手以上的水平。但除此之外,我认为LLM在代码方面的确展现出更强的能力,这种更强不仅仅是上述跨领域观察偏差的结果。代码本身的性质——对严格的格式、明确的规则(如变量声明、函数定义、语法结构)和既定模式的依赖——恰好与LLM处理形式、规则的能力非常契合。相比之下,高质量的写作往往要求更高的原创性、语境理解和避免模式化表达的微妙技巧,这对当前的LLM来说挑战更大。

类似,如果是写作中格式要求比较多的文书工作——比如结构明确、要写很多固定内容的文件、材料,我想LLM也格外胜任。

本作品采用知识共享署名-相同方式共享 4.0 国际许可协议进行许可。

原文地址:www.orangeclk.com
20
OrangeCLK
14:51
这篇文章行话很多,“逼空”、“近月升水”、“期货贴水”,哪里不懂点哪里。
00
OrangeCLK
14:10
前段时间看即友说姚振华公开举报的事情,去搜了搜,没搜到,过了一两天再问,就有了。
00
OrangeCLK
2天前
财新对于人工智能的运用非常谨慎,因为信息的准确性很重要,经过审慎评估才交付 AI 功能。功能现在看可能有过时之处,但新版本会很快推出。在财新语料的基础上咨询问题,信源有保证。
日常或研究均可用,现在可以在搜索入口或者文章页面访问,也可以哪里不懂长按哪里。也可以直接访问这里:ask.caixin.com
01
OrangeCLK
3天前
感觉K2 K2.5的长文本能力都比K1弱
10
OrangeCLK
3天前
10
OrangeCLK
8天前
搜商也重要,好多信息明明就在网上,各路 Agent 就是没有思路去搜到。搜到互相冲突的信息时分辨能力也低。
我现在用 Deep Research 体验很不好,真遇到想要 deep research 的事情,各家 Deep Research 产品基本都搞不定。

罗锴: AI都将到差不差,但是优质的信源永远无可替代。

00
OrangeCLK
8天前
00
OrangeCLK
9天前
哈萨比斯在接受彭博社采访的时候把字节跳动作为中国领先 AI 公司的代表,而推特上流行的各种 benchmark 上都查不到字节的模型。即便在美国业内,信息差也很大。
21