即刻App年轻人的同好社区
下载
App内打开
陈言_Linkc
137关注1k被关注0夸夸
🔮 致力于创新团队工作流程 AI化
💡 跨周期产品设计师
🎲 社区、媒体科技、生态治理专精
🏄 效率工具爱好者,玩票自媒体
陈言_Linkc
8天前
又是用GPT-4o整活儿的一天。
21
陈言_Linkc
10天前
这个GPT-4o的玩法挺火,我是在@歸藏(guizang.ai) 看到的,自己优化了一下提示词。
这里有一点建议:
- 先尝试AI能不能理解想要画的内容,如果可以,就不要添加不必要的提示;
- 如果AI不能理解或者有版权限制,就先增加文字描述,比如演员的名字、场景、物品;
- 如果形象生成的有问题,再增加演员的照片。(比如梁朝伟、黄秋生AI就知道长什么样,林家栋就差点)

下面的提示词是我用来画陈佩斯的。
------------------
创建一个全身人物手办玩具,玩具的形象参考我上传的照片。让它成为一个动作人偶(action figure blister pack)。
在人偶旁边,是他的装备:(与玩具人偶一起放到包装里)
- 毛瑟C96手枪
- Gray Fur Felt Fedora Hat
- 白色毛巾
此外,在包装上的文案,主题是"白日做梦!",副标题是"陈佩斯"。
你设计的包装应该具有抗日战争相关的元素。以一种真实的方式来可视化这个场景。
输出图片比例2:3。
------------------
01
陈言_Linkc
12天前
花了一个晚上等GPT-4o生图,这个视频把我当时能想到的场景都试了一遍。
AI只是提升了普通人创作的下限,同时在某些环节扩展了专业人士的能力范围。对这句话的体会越来越深。

设计师怎么用AI?GPT-4o挑战4大设计岗位 - 小红书

00
陈言_Linkc
12天前
服了
00
陈言_Linkc
12天前
昨天在盖茨基金会的传播年会上分享AI相关的话题,正好会议主题是中美关系,我也在这一页歪楼讲了一些自己的观点和见闻。(以下内容和图片关系不大,不要深究)
1. 这页标题是“东西并进”,我和同事们还讨论过措辞,是不是应该用社交媒体上最常见的“东升西落”?一方面我觉得这个词不准确,有明显的民族带入。另外在AI领域,我认为东西(中美双方)可能玩的并不是同一个游戏。(这点会在后面展开)
2. 这次会议有一个重要的议题,是如何在当前的国内外以及中美关系下做有价值的传播。私下交流中大家都有一些切身体会,无论是中国企业还是美国企业,都不太敢主动传播。
3. 我最近有两个小故事,恰好符合这个体感。一是春节前Google市场部的小伙伴给我发了一个文档——Google官方庆祝春节的传播文案,让我帮忙看看会不会有问题。我带入舆情和不当信息审核的角色也没有发现问题,我的同事也没有。一问才知道,是里面有一个贪吃蛇吃掉“福”字的动画(蛇年),他们担心这个形象可能会引发中国用户的抱怨。
4. “Google被搞得草木皆兵啊!hhh”我直接嘲笑了对方。而在上周,我受邀参观特斯拉上海Megafactory。特斯拉给我的感觉这就像是一个中国初创公司,直接、务实,一切为产品交付服务。这次活动是为了纪念中国的MegaPack产品正式交付澳洲客户。私下特斯拉的同学叮嘱,不要在传播中提及马斯克,也不要提及其他国家。我一向认为特斯拉已经被上海人民接纳为亲生的工厂,没想到也这么谨小慎微。而这种事每天都在发生。
5. 会上一位嘉宾讲到Trump政府想在中美谈判中得到什么,以及中国政府可能如何应对。其中有一类黑天鹅事件是和AI相关的。
6. 我认为DeepSeek在当时极有可能成为那只黑天鹅。只不过它的出现太突然了,这家公司不在中美任何一方的关注范围。而且美国人在忙着交接,我们在忙着过节。万幸。
7. 还有嘉宾提到了Manus,我认为这类产品不大会成为一只黑天鹅,这和中美对于AI的理解有关。
8. 美国主流资金和力量的目标是快速达成AGI,并在这个过程中保持持续领先。他们有优秀的人才、最好的学府和机构、充沛的资金和算力、对于AGI高度一致的共识。
9. 中国社会自上而下更看重的是AI的落地与商业化。我们有庞大的人口基数、丰富的商业化经验、比较低的商业/隐私和版权履约成本,我们希望能在短期内看到AI的“结果”。二者没有优劣之分。
10. 我在分享时有人提问,中国什么时候能追赶上美国。“追赶”分为好几个层面。一是有没有人能提出并证明颠覆Scaling Law的新路径,并带动业界跟进,成为AI新的发展范式;二是有没有AI底层架构上的创新,比如在大语言模型领域取代Transformer;三是在工程层面提出新架构、新方法,类似DeepSeek;四是在产品或者商业化方面取得影像业界的成就。
11. 上面四个标准,一、二很难,目前的架构都是经过十年甚至更长时间达成的。三很有机会,两边都各有尝试。四是分歧,我认为是中国的机会,更有可能出现一个AI领域的巨无霸。
跨界交流挺好,收获颇多。
01
陈言_Linkc
15天前
昨晚玩GPT-4o的生图功能到睁不开眼,作为一个Midjourney超过10000张的用户,这种体验太特别了。
在Midjourney或者Stable Diffusion中,你的指令必须是精准的,还要考虑模型对于元素风格的理解能力,以及各种LORA模型的激活。但和4o合作的感受完全不同。

我们一起做了一组幻想题材的作品。

和4o一起生图,可以从想法开始,再到创意、构图、风格,你们要做的是相互启发。比如我让AI畅享一下,机器人主导的社会是什么样的,他说这非一个纯赛博的世界,机器人是人类发明的,它们虽然先进,但还是在追求人性,因此机器人的社会就是在模仿人类。所以有了下面的场景。

我希望能表现冲突,一种机器人和人类身份错位的反差,我觉得表现得也不错。当然在整个过程中多次触发OpenAI得道德机制,没办法,哪边都有这个问题。

从思考创意到生图,再到优化,都是在一个工作场景下完成的,这个体验足够震撼了。

(即刻web版上传完图片以后不能调整顺序啊~)
00
陈言_Linkc
15天前
阿里发布了Qwen2.5-Omni ,新一代多模态旗舰模型,支持文本、图像、音频、视频输入,提供实时流式响应和自然语音合成。该模型在 Hugging Face 等平台开源,具备卓越的跨模态理解和语音生成能力。

架构创新了,有点意思。

Qwen2.5-Omni在包括图像,音频,音视频等各种模态下的表现都优于类似大小的单模态模型以及封闭源模型,例如Qwen2.5-VL-7B、Qwen2-Audio和Gemini-1.5-pro。
在多模态任务OmniBench,Qwen2.5-Omni达到了SOTA的表现。此外,在单模态任务中,Qwen2.5-Omni在多个领域中表现优异,包括语音识别(Common Voice)、翻译(CoVoST2)、音频理解(MMAU)、图像推理(MMMU、MMStar)、视频理解(MVBench)以及语音生成(Seed-tts-eval和主观自然听感)。

官方体验Qwen Chat:chat.qwenlm.ai
Hugging Face:huggingface.co
ModelScope:modelscope.cn
DashScope:help.aliyun.com
GitHub:github.com
Demo:modelscope.cn
02
陈言_Linkc
22天前
波士顿动力可能是被最近宇树等几家中国的机器人公司激励了一下,也发不了自己旗下机器人进行各种拟人动作的演示demo。几个基本动作自然、连贯,波士顿动力的演示更加内敛,没有可以设计营销点,只是渐进式地发布成果。
01:07
21
陈言_Linkc
25天前
最近在疯狂使用AI生成3D模型,突发奇想:能不能用3D渲染图垫图,让Midjourney生成图片呢。这样就可以很方便地调整视角了。左边是模型,右边是生成的图片。
01
陈言_Linkc
25天前
最近自主智能体领域突然火爆起来了,Manus自然是绕不过去的名字。这个新兴的AI Agent,几乎凭借一己之力把“Agent”这个略显抽象的话题提前了几个月推到公众视野前。Manus火了之后,关于AI自主智能体究竟该怎么做、未来会走到哪里去的讨论逐渐升温。我觉得,现在正是梳理一下这个话题的好时候。

AI自主智能体的发展,大致经历了从简单自动化脚本,到规则驱动,再到机器学习、深度学习与强化学习等逐步升级的阶段,如今发展到了多模态数据的融合与高度自治的阶段。自主智能体不再只是简单的自动工具,它们现在开始拥有一定的判断能力,能根据模糊的任务描述,甚至自行规划实现路径。

目前,业界主流自主智能体的实现路径可以分为三类。第一种,以Claude MCP为代表,这种方案通过模拟人类操作电脑或手机的方式,试图获得更广泛的通用性。就像人形机器人,模仿人类双脚走路的目的,是为了融入到为人类设计的世界中,实现低成本地通用。

第二种则是以Manus为代表的定制化方案。这类方案倾向于自行开发特定工具,直接赋予AI数据访问和计算的能力,而非通过模拟人类使用现有工具。这种方式效率更高,但也意味着,它的能力被限定在预先开发的工具范围内,灵活性有限。

第三种模式则是像Recast或AutoGLM这样的自主智能体,它们依托特定的生态,利用现有生态内的工具资源,比如插件或生态内API,实现相对灵活的通用能力。它们不像Manus那么封闭,也不像Claude MCP那么“人性化”,但却巧妙地平衡了灵活性与效率。

我们不妨用机器人做个类比:Claude MCP类似设计成通用型人形机器人,便于适应为人类设计的场景,但效率可能不高;Manus则像履带机器人,专注特定环境以追求高效;而Recast则更像多用途机器人,可以根据需求快速更换配件,适应各种环境。

那么,哪种方案更好呢?这可能取决于我们想解决什么样的问题。如果你的任务场景明确,追求效率,像Manus这样的专属工具链显然更适合;如果你追求的是通用性,希望你的智能体能广泛适应不同的场景,那么Claude MCP显然更具优势。但实际上,大部分用户和开发者面对的场景都更接近于第三种——在特定生态中快速调用已有工具,比如Raycast的Workflow自动化、AutoGLM等产品便很好地印证了这一趋势。

手机系统厂商们,比如苹果和谷歌,未来可能在这件事上拥有最大的潜力。他们拥有庞大的用户基础、成熟的生态系统以及完善的底层系统控制。想象一下,不久后,你只需要对Siri说:“帮我规划一下下个月的旅行计划,选择人少且适合拍照的地点,预算控制在5000元以内;顺便检查下我相机的内存是否充足,必要的话直接下单购买。”Siri就能自动调用旅行平台、在线攻略、社交媒体评价、设备状态监控App,以及电商平台,高效且精准地满足你的多维度需求。(现有的生态利益分配格局被颠覆了)

当然,实现这个愿景并不简单,尤其是整合生态系统的挑战巨大。目前看,苹果也许是唯一一家同时拥有丰富资源和对生态有绝对掌控能力的公司。如果苹果愿意,Agent的未来或许会提前到来。

最后回到Manus本身,我并不了解这个团队的具体情况,但我熟悉那些夹缝中求生存的中国开发者。他们资源有限,却要面对苛刻的环境与质疑。但正是他们,提前为自主智能体打开了一扇窗,让未来不再遥远。

----------

最近在尝试AI辅助写作,这篇文章是我在通勤时和AI聊天聊出来的。轻喷,一切责任都在AI一方。
02