即刻App年轻人的同好社区
下载
App内打开
Weir-欧sir
29关注635被关注2夸夸
产品经理💡
AISIR社区💬
微信:duo112311
Weir-欧sir
2月前
很有价值的洞见👍

目前 AI 难得还是在于落地,大多数都是费力搞出的产品但是落地表现力还是不行…

AI +工作流应该是很长一段时间的落地形式,长期主义拼的还是资源消耗问题~

Erix: 最近一周时间在上海、深圳、北京见了近20位一线AI从业者,其中包括投资人,大厂AI业务&模型厂&应用厂的员工,独立开发者,founder。很累,收获也很多。总结一下我觉得重要的共识和非共识,以下内容没有优先顺序,想到哪写到哪: 1.关于竞争:大厂、模型厂、应用厂 大厂没有逃脱局部兵力不足的问题,越是铺得广的厂这个问题越严重,字节的遍历填格子打法在业务相似度低的时候是人才密度不够的,战术上重视就行。反而阿里的通义因为更研究院模式,没有主核,分布式创新使得反而跑出来一些模型和应用侧有意思的东西,这个很值得大厂内部思考一下。 模型厂基于GPT-5迟迟不到,可能也判断出了,算力未必是万能解药,开始卷差异化,差异化对于tob的竞争尤为重要。但国内的模型厂还有一个不得不卷应用的任务,但不基于模型差异化的应用很难卷出用户体验增量,各位厂里的小伙伴都在努力地拉齐共识和内部创新的过程中。 应用厂,AI搜索的共识形成得太快了,其实没有留下太多保护期,大明牌的卷度会很激烈。反而是AI+every thing因为去年的过分乐观到今年的幻灭,留出了大量的创新保护窗口,给不迷信AI解决一切问题,但试图先用AI对具体领域做一些用户体验提升的公司留下了机会。 额外补一个硬件厂,世界上还有大量的数据没有被搜集,每个带有数据收集器的硬件厂都有属于自己的机会,但硬件厂目前很少有软硬一体的能力。补齐短板的玩家会可能会跑出来新东西。 2.关于模型能力 GPT-4o展示了快非常重要,快是核心体验之一,那么moe就必须得卷了,groq这种加速的基建也会变得非常有价值。如果大规模的智力代差比如3.5->4不会卷得那么快的话,代差之间可能更多是成本和速度的竞争。 长上下文很牛,但低成本的长上下文才有意义,基于长上下文成本急剧下降这个假设,能解决很多当前的用户体验问题。 多模态暂时在应用层的优势不明显,不考虑终态世界模型之类的,当前可能主要体现在一些之前没覆盖到的小CV场景。 fine - tuning不是净提升,是某类问题解决的更好,但通用问题更差的trade off,可以通过调整尽量降低负面影响,但从技术成本和数据成本来考虑,暂时很难作为可普及的常用武器库。 更细分的卷法,卷RAG,卷function call,卷代码能力,卷交互理解,卷情绪理解等等 可能真正值得卷的是意图识别,意图识别才是ai的推荐系统。 3.关于投融资 国内目前的情况是:创业者说市场温度低难拿钱,投资人说好项目少没法投。回到本质还是大家想用钱干什么,如果是为了加速市场形成,烧出一个煊赫盛世应该是不太可能了,因为各有各的难处,但如果真的想要构建一个未来5-10年在AI世界有独特社会分工的企业,大家还是很认可的。但目前市面上能持之以恒解自己的题的人很稀缺。 海外听到了多种说法,鉴于没有一手信息就不评价了,但如果做海外市场,还是建议谨慎考虑融资动作。 4.关于用户需求 PMF对还是TMF对?还是前者对,但现在加了一层技术可行性的约束,使用门槛很高,但体验提升巨大,也有机会。 工具效率/工作流,这是目前AI落地得最好的部分,但目前最大公约数已经挖完了,而AI目前远达不到数字员工的级别,很长一段时间基于某个职业的AI工作流copilot应该都是主要落地形式。tob和toc在这个领域都能持续跑出来赚钱的东西。 情感陪伴/内容消费,成本下不来,质量上不去,商业模式讲不清楚(付费逻辑只有hs内容能跑通,免费逻辑留存一直上不去)。 AI也不是唯一主线,AR眼镜等硬件对原本手机场景的分割,电话、拍照、翻译。还有web3。基于满足用户需求来思考,AI未必是唯一的锤子。 5.关于长期主义的优劣势 这回出来有一个比较深的感受是,基本上可以把founder分为偏长期主义和不偏长期主义两类,而这两类似乎都有其生存空间和价值。 因为我的个人偏好,所以说明一下长期主义的优劣势: 优势是,长期主义在各类决策上,难度都会降纬,因为长期主义代表你对于未来世界是有一个大概想象的,你知道五年之后想要什么,所以对于判断做什么不做什么会变容易,对于招谁不招谁也会变得容易。单一目标的决策总是比多目标的决策好做。 劣势是,早期找PMF切入点可能会非常难且漫长,对于耐力、定力和资源的要求会更高,是的,长期主义是更消耗资源的,因为反馈周期会更长。

00
Weir-欧sir
4月前
「5月14日-OpenAI春季更新视频文稿笔记」

回访:www.youtube.com

-会议总结:

它可以接受任意组合的文本、音频和图像作为输入,并生成任意组合的文本、音频和图像输出。
它可以在 232 毫秒内响应音频输入,平均为 320 毫秒,这与人类在对话中的响应时间相似。
在英文和代码文本方面,它与 GPT-4 Turbo 的性能相当,对非英语文本的文本有显著改进。
同时在 API 方面更快速、价格更便宜 50%。与现有模型相比,GPT-4o 在视觉和音频理解方面表现特别出色。
与 GPT-4 Turbo 相比,GPT-4o 速度提高了 2 倍,价格减半,限制速率提高了 5 倍。

-关键点:

OpenAI致力于让产品对每个人真正可用。
减少使用ChatGPT的障碍,实现随时随地使用。
发布桌面版ChatGPT,提升用户体验,使其更简单自然。
推出新旗舰模型GPT-4o,向所有用户包括免费用户提供GPT-4级别的智能。
GPT-4o在文本、视觉和音频方面的能力得到提升。
GPT-4o的发布意味着所有用户都能体验到先进的AI工具。
演示了GPT-4o的实时对话语音功能,展示了实时响应和情感识别能力。
GPT-4o能够以不同的风格生成语音,增加了动态范围。
GPT-4o的效率提升使得免费用户也能享受此前仅付费用户可用的高级工具。
GPT-4o支持实时翻译功能,能够即时在英语和意大利语之间转换。
GPT-4o的视觉功能可以解读线性方程式,并提供解题步骤。
GPT-4o能够分析代码并提供对代码功能的简短描述。
GPT-4o能够通过视觉功能查看并解读图像内容,如天气数据图。

-用户体验改进:

简化了ChatGPT的使用流程,无需注册即可使用。
用户界面(UI)更新,以提高交互的自然性和简易性。
增加了记忆功能,提高了ChatGPT的连续性和有用性。
引入了浏览功能,允许用户在对话中搜索实时信息。
提供了高级数据分析工具,可以上传图表和工具进行分析。

-语言支持:

GPT-4o在50多种语言中提高了质量和速度,以覆盖更广泛的用户群体。

-API与开发:

GPT-4o将提供给API用户,使得开发者可以构建并大规模部署惊人的AI应用。
相比GPT-4 Turbo,4o更快、成本更低,且有更高的速率限制。

-安全与挑战:

GPT-4o带来了实时音频和视觉的新挑战。
OpenAI团队正在努力构建对策,以防止模型的滥用。
与政府、媒体、娱乐等不同行业的合作伙伴合作,确保技术的安全引入。

-未来规划:

在接下来的几周内,将逐步推出所有这些功能。
OpenAI团队将继续探索未来的新领域,并及时更新进展。
05:43
02
Weir-欧sir
5月前
Invoke 是最被低估的开源 AI 项目。它是 AI 时代的 Photoshop。
图层、ControlNet、IP 适配器,几乎所有基于 AI 的图像生成和编辑所需的功能。而且 100% 开源且本地化。
源码:github.com
#AI #开源
228
Weir-欧sir
5月前
发现一个AI Agent+RPA开源项目仅需一句话就能操作你浏览器中任何网站!

Skyver目前星标已达3.9k!

- Skyver简介

Skyver使用AI自动化基于浏览器的工作流程,提供API端点以替代不可靠的自动化解决方案。

可视化工具允许用户调试Web上的交互并了解Skyver所采取的步骤。

- 使用可视化工具调试任务

可视化工具通过展示每个步骤来帮助用户调试任务,包括操作的屏幕截图、注释和LM响应部分的解释。

- 深入了解任务执行
Skyver分步工作,每个网页操作构成一个步骤。

用户可以在LM响应部分查看屏幕截图、执行的操作和操作的原因。

有助于自动化汽车保险报价和表格填写等任务。

- 真实世界的用例
Skyver可以自动化多种任务,如采购管道、浏览政府网站、从多语言保险提供商提取数据等。

- Skyver的运行机制

工作流程包括绘制边界框、解析HTML、数据提取、利用大型语言模型规划操作、在网页上执行任务以及有效重复过程。

利用计算机视觉和AI实现基于浏览器的任务自动化。

Github:github.com

官网:www.skyvern.com

一个博主对Skyver的讲解:www.youtube.com
05
Weir-欧sir
5月前
牛啊,又来一个 AI 搜索新生!

explorer.globe.engineer

一秒钟结构化展示搜索概念的所有内容,快到离谱…找概念性资料好用到爆

x.com
00:43
00
Weir-欧sir
5月前
才发现国内版的扣子也支持多Agent能力了,可真棒~

再开放个API,支持个多种模型选择不止限于多语雀模型,那就完美了!
71
Weir-欧sir
5月前
Demo AI的效果越来越棒了!

以下几种风格的视频转动漫效果都十分棒,大家可以尝试下:

· 二次元动漫风
· GTA风格
· 2.5D插图风
· 乐高风
·美国漫画风

同时通过“-key+颜色”的提示词,能控制生成背景颜色的视频
00:50
03
Weir-欧sir
5月前
Flowith AI的这个用法不错,简直是效率工具!
23
Weir-欧sir
5月前
这个好!微信聊天记录导出工具

提取微信聊天记录,将其导出成HTML、Word、CSV文档永久保存。

还能1:1还原聊天界面!

github.com
1022
Weir-欧sir
5月前
红衣大叔的360AI浏览器现在支持mac端了。

测试了下,论文文档阅读能力是相当不错!

简介、重点、问答、翻译四个AI功能超级好用。

可以实现从结构到细节的高效阅读!

翻译功能是直接与源文档1比1对照翻译,之前就在想这个功能怎么一直没人做,现在在红衣大叔的360AI浏览器看到了!
01:38
13