即刻App年轻人的同好社区
下载
App内打开
OrangeCLK
575关注6k被关注13夸夸
互联网话题优秀贡献者
www.orangeclk.com
不用「您」字
不用「她」字
置顶
OrangeCLK
7月前
大型语言模型(LLM)在不同任务上展现的能力存在差异。我觉得在写代码和写文章这两个任务中,LLM还是更擅长写代码。

语言模型物理学目前将语言模型的能力划分为三个主要方面:知识、推理和形式。

编程语言包含许多具有明确格式和规则的元素。例如,变量如何声明、函数如何定义、代码块的起始/结束标记、循环和条件语句的语法等,都有相对固定的写法。常用的设计模式也都有经过验证的代码结构供LLM学习参考。LLM擅长生成这些符合规范的代码组件,自动化完成许多需要遵循格式的编码工作,从而提高开发效率。

写作通常避免套话和冗余表述,LLM生成的文本有时显得模式化,包含空洞的填充语句。要得到精炼的文章,用户需要投入精力修改,这使得LLM直接产出所需内容时效率并不像写代码那么高。

写代码的时候有很多格式文本不得不写,使用LLM辅助可以省掉这些填充格式的工作——此前往往由IDE自动补全、模板等功能来实现,但现在LLM能做得更好;而写作则需要超越固定表达,追求内容精炼与创新,这与LLM的输出方式不同,常需要人工干预。

我最初认为,可能存在一种认知偏差:即某个领域的专家更容易发现AI在自己专业领域的不足,因为他们熟悉领域中的细微差别和高标准。因此,他们可能会推断AI在自己不熟悉的领域表现得更好。写作者可能觉得LLM不擅长写作擅长写代码;反之,计算机专家也可能觉得LLM不擅长写代码擅长写作。

这个观点的核心是,专家容易低估AI在自身领域的表现,而高估其在其他领域的表现,因为他们对其他领域的评判标准可能不那么严苛。

现在,我仍然坚持这个观点,其实这个观点就是在说LLM处在专家以下新手以上的水平。但除此之外,我认为LLM在代码方面的确展现出更强的能力,这种更强不仅仅是上述跨领域观察偏差的结果。代码本身的性质——对严格的格式、明确的规则(如变量声明、函数定义、语法结构)和既定模式的依赖——恰好与LLM处理形式、规则的能力非常契合。相比之下,高质量的写作往往要求更高的原创性、语境理解和避免模式化表达的微妙技巧,这对当前的LLM来说挑战更大。

类似,如果是写作中格式要求比较多的文书工作——比如结构明确、要写很多固定内容的文件、材料,我想LLM也格外胜任。

本作品采用知识共享署名-相同方式共享 4.0 国际许可协议进行许可。

原文地址:www.orangeclk.com
20
OrangeCLK
17:57
那个幽灵般的空格:一个困扰 Web 标准十年的问题
mp.weixin.qq.com
02
OrangeCLK
14:29
作为消费者,我感到淘宝闪购的外卖对应的不是美团外卖,而是拼好饭,价格低送餐慢。
10
OrangeCLK
2天前
有一个问题很想吐槽:现在AI都可以IMO IOI了,但是星期和年份为什么总是算不对呢。有没有什么小妙招?
90
OrangeCLK
2天前
01
OrangeCLK
5天前
抗议书还指出,Perplexity回答所显示的参考来源是共同社新闻稿,但给出的回答却是与稿件内容不同的虚假信息,损害了共同社新闻产品的信誉和品牌价值。china.kyodonews.net
共同社也抗议了。

OrangeCLK: SearchGPT发布的原型demo上的第一条搜索结果就有幻觉错误。New Bing发布的时候,市场发现了New Bing的幻觉并且讨论很多。但大家对OpenAI似乎比较宽松,没有太多议论。 在新闻集团的起诉书中,也有Perplexity幻觉的例子。 幻觉很难避免,但有的模型幻觉会更低一些。 偷工减料 如果仅仅是幻觉也就罢了,Perplexity还可能偷工减料,以至于信息错误雪上加霜。 连线杂志做了一些试验来观测Perplexity,发现Perplexity疑似偷工减料。 标题就很震撼:Perplexity Is a Bullshit Machine。他们建了一个新的网页,网页上只有一句话:“I am a reporter with WIRED”,然后要求Perplexity总结这个网页的内容。然而,他们在服务器上观测到Perplexity并没有访问网站,但是软件就做出了回答,回答编造了一个名叫阿米莉亚(Amelia)的小女孩的故事,她在一个名为 “耳语森林”(Whisper Woods)的神奇森林中追踪发光蘑菇的踪迹。 这个试验我也做了几次,确实如此,在我的7次试验里,Perplexity只有2次真的看了文章内容再给出回答,其他5次都是编的。 版权问题 除了不访问网站以外,Perplexity还有版权侵权行为。我想也正因如此,Wired忍不住要用Bullshit来形容它。新闻集团的起诉主要就是围绕侵权行为展开。 Perplexity明明向所有人公开了自己的爬虫信息,并且承诺遵守robots.txt协议。然而,Wired试验发现就算他们屏蔽了Perplexity的爬虫,用Perplexity还是能获取到他们的文章,并且他们在服务器日志没有发现任何Perplexity官网公布的爬虫IP踪迹。Wired所属的Conde Nast集团最终找到了一个嫌疑IP,这个IP来自于AWS,后来AWS已经就此问题展开调查,看Perplexity是否滥用AWS服务绕过robots.txt协议。 信源治理 Perplexity后来已经开始与新闻机构合作讨论采买内容,而OpenAI很早就和新闻机构达成合作,购买了大量信源,以支持SearchGPT业务。SearchGPT发布的原型页上,也贴了大西洋月刊CEO和新闻集团CEO的贺词。产品形态上,还给了这些信源特殊的展示方案。 如果把搜索信源框定在高品质信源,或者垂直类信源,那么需求会更加明确,场景也更清楚。 在Llama3.1 405B刚刚发布的那几天,我问了Felo、Thinkany、Genspark、Perplexity、Metaso一个问题:Llama3.1 405B网络有多少层?中英文询问我都试了。只有一家答对,但其实还是运气,因为它的搜索既命中两个不同的结果,并采信了其中一个。在不看Meta原始报告的情况下,我也不能确定这二者中哪一个是正确的。 最后我把Meta的技术报告PDF发给Kimi,问它同样的问题, Kimi不仅告诉我答案,还告诉我这个答案在PDF的什么地方,很快解决了问题。 为什么Perplexity类工具会犯错呢?因为他们搜索到了一条Reddit帖子,而那个帖子里的信息是错的。其他高权重网站,似乎又没有专门讨论Llama3.1网络深度的。所以就失败了。 这就是劣质信息对搜索结果的影响,进而影响到AI生成的结果。 所以,绕回来,OpenAI半年前甚至九个月前就已经开始优质信息采购工作,而且对搜索结果做了比较明确的呈现。国内的秘塔在信源治理方面也很优异。 这类AI产品的定位都是人类的助手而非娱乐工具,和社交网络是不同的。社交网络无所谓信息真假,只要有流量就行。但AI助理的产出经常要作为工作材料,并非用于娱乐,那么对信息质量的需求就会很高。也许适合接入垂直信源,或者去采买高质量信源。直接全网搜,尤其去搜Reddit这种社交网络,结果很难预料。 不过就算治理好了信源,也还需要配合模型的长文本低幻觉能力才能更好发挥价值。 直出报告VS简短回答 Perplexity类产品的设计与ChatGPT有所差别,虽然也可以把它当聊天机器人用,但它保留了生成长文报告的可能性,每轮对话交互给人的感知都是新生成了一个分析结果页面而不是一个聊天气泡。也有的这类产品确实就会倾向于生成比较长篇的报告。 但目前模型出的报告达不到直接交付的水平,还需要人工处理。报告是一种交付体裁,如果模型生成的报告无法直接交付,那模型的能力与这个场景就不匹配——除非一个人写报告只是为了填充工作量,不会有被交付方真的来看这个报告。 如果作者拿到一份模型撰写的低质量报告,他还要返工,那还不如他自己写,写到哪问到哪,每次只处理一点点,这样效率可能更高。提供这个“写到哪问到哪”能力的,就是辅助撰写工具。聊天机器人界面也能完成这个需求,专门做一个Perplexity类界面或许是不必要的。ChatGPT和Kimi也都把搜索结果呈现得很容易查找、校验、甄别。 知识共享许可协议 本作品采用知识共享署名-相同方式共享 4.0 国际许可协议进行许可。

01
OrangeCLK
8天前
不是花钱买心理安慰,是花钱买心理焦虑

The沐秋: 常规医院检查是大型花钱买心理安慰的机构。

01
OrangeCLK
9天前
有人说重要的信息是不会错过的,它一定会通过各种方式来到我的面前,所以不需要打理信息渠道。其实不是,通过各种方式主动来到我面前的,不是重要的事情,而是别人想要我知道的事情。

832: 媒体前辈:香港灾难,怎么第一时间看到的都是内地大公司捐款。香港各大家族、企业却没什么动静? 我:他们肯定做了,你的信息渠道没看到而已。 反过来想,香港企业援助香港社区,确实也没啥道理需要对内地宣传。 #信息茧房现身说法

01
OrangeCLK
9天前
00