AI探索站

65109人已经加入

评论尸
5天前
Rewind 那家公司的新产品 Limitless，一款“现实世界版 Rewind”。
通过一个便携式录音夹子，记录你一天听到和说出的所有话，并通过 AI 进行整理。
软件版现在就能用了，29 刀一个月，通过电脑客户端记录。
硬件版现在预订，99 刀免订阅费，第四季度发货。
81 2344
Szhans
7天前
记一件小事：Claude 3 有没有带来10x 体验提升？

从理性标准来说，我不断提醒自己Claude 3 不会比GPT-4 好10倍。[1]

然而，在体验和实战一个多月来，各种场景的深入和结构化Prompts 用法后，Claude 3 那惊人的性能和优美的文采不断在重塑一些新习惯。哪怕摩擦成本这么高，却能「成瘾」。这件小事，让我陷入沉思：

曾经的企业壁垒可以转眼被创新者超越；如果连大模型都如此，何况其他的技术护城河？

曾经的传播充满需要跨越的鸿沟，而今天AI 新品牌可以一夜成名，在自由市场的渗透速度超出想象。

大多数决策者还没有意识到，AI 带来可能不是10x 生产力提升，而是更多对流程的重塑，产生摧枯拉朽的结果。（如果想象不了，也不妨随附的单口视频，开心一下。 [2] ）

正如Jason Fried 一语道破，「理论上，软件可以在纸面上进行比较。但实际上，只能在经验中进行比较。」体感是无比重要的，否则没有认知的突破。

这件小事不断提醒我，新商业世界里不持续创新和奔跑就无法「停留在原地」。不主动拥抱新技术的大企业们会怎样？个人应该如何学习?人的创造力在AI共生时代将如何绽放？这些问题都萦绕在脑海中，身体力行地探索可能是最好的答案。

反过来说，适应与坚韧是新时代最被低估的技能，企业如是，个体亦如是～

注释：

[1] Claude 3 与GPT-4 的评测对比 m.okjike.com

[2] GPT-4 制作的单口 twitter.com
01:02
28 86
歸藏
2天前
卧槽，发现一个巨牛批的 AI 视频剪辑工具，这才是完全以 AI 功能构建的视频剪辑产品。

Captions 这个产品可以自动识别超长视频的有价值判断并且自动剪辑成多条适合传播的短视频。

生成的短视频可以选择对应的字幕模板，并且支持AI 自动在对应的视频片段添加音效、贴纸等增加氛围的内容。

此外还支持AI眼神注视、AI 降噪、 AI 唇形同步、 AI 调色等一系列自动化的 AI 能力。

最重要的还是网页版本的，任何平台都能用，这要完善一点不得把剪映干稀烂？

可惜的是暂时还不支持翻译，看选项后面会有自动字幕翻译。

这里体验：www.captions.ai
01:32
96 669
歸藏
2天前
简单体验了一下AI 生产力工具 Flowith，太强了。

很开心有人能对 AI 原生产品的 UI 和交互有如此深入的思考。

整个产品在生成式 UI 的探索上比现在的所有产品都要靠前。

而且很好的结合了无线画布和思维导图的优势，巧妙的用卡片来承接对应不同数据格式的展示，卡片样式的适配也非常多。

在输入的时候还会巧妙的利用光效对用户进行引导。

一个小问题，Midjourney 图片生成的时候传输的提示词貌似有问题，不应该直接传输中文。

这里尝试：flo.ing
01:51
79 995
Saito
3天前
🥳 今天「硬地骇客」正式发布团队出品的第一本小书，目标读者是国内广大的独立开发者们，内容涵盖灵感 - 构建 - 发布 - 增长等产品关键环节。

📖 github.com

我们最终决定用开源的方式来发布这本书，因为我们产品还在增长，所以 star ⭐️ 仓库，关注内容的持续更新！😘
125 2270
杨昌
3天前
目前用得比较多的AI搜索，有两款：

【国内的，是秘塔AI】

最喜欢用的，是它的研究搜索功能。（如图）

1、

不用写复杂的提示词，把关键词丢过去，很快就基于网上相关信息，给我一篇像模像样的文章。

文章结构清晰，句句有出处。虽然免不了有幻觉，但勤看着点出处链接，也可以自行纠正。

2、

这个功能还有个惊艳到我的点，就是它真的挺能扒信息。

之前研究一款AI工具，我在他们官网的某个旮旯里才能找到的信息点，它居然也给我整理出来了。

3、

因此，如果我要做某个话题的研究，我会先来秘塔AI找线索。

第一轮搜整体情况，后几轮挨个做细分内容的梳理。

【国外的，是perplexity pro。】

在我这里，更多是在当联网版的Claude 3和ChatGPT-4在用。

1、

Claude3隔三差五封号，在poe上用API也死贵，而且自身还不能联网。但作为AI从业者，日常不高频用行业最头部AI，肯定是不行的。

好在，perplexity pro里不仅能用Claude3，还可以在PC版上把最贵的opus模型设置为默认模型，每次搜索都用opus来处理。

（不只是移动端写的5次，可能是个小漏洞）

2、

如果有的内容不需要联网，比如我经常用opus帮我精读文章，那设置成writing模式就可以了。如果opus的拆解和分析效果不满意，我就换成gpt-4。

gpt-4看似取消了3小时40次的限制，但仍然有限制，而且联网功能体验极差，用过perplexity或者metaso之后，再也回不去了。

3、

因为Claude 3 Opus 和ChatGPT-4 Turbo的推理能力是最强的，所以我每天会花大量时间，把从各个渠道找来的优质信息进行梳理和分析。
95 2738
歸藏
13天前
这个可能比较重要，北大发布一个新的图像生成框架VAR。

VAR首次使GPT风格的AR模型在图像生成上超越了Diffusion transformer。

同时展现出了与大语言模型观察到的类似Scaling laws的规律。

在ImageNet 256x256基准上,VAR将FID从18.65大幅提升到1.80,IS从80.4提升到356.4,推理速度提高了20倍。

详细介绍：

视觉自回归模型(VAR)是一种新的图像生成范式,它将自回归学习重新定义为从粗到细的"下一尺度预测"或"下一分辨率预测",有别于标准的光栅扫描"下一token预测"。

这种简单直观的方法让自回归transformer能够快速学习视觉分布并具有良好的泛化能力:

VAR首次使GPT风格的AR模型在图像生成上超越了扩散transformer。

在ImageNet 256x256基准上,VAR将FID从18.65大幅提升到1.80,IS从80.4提升到356.4,推理速度提高了20倍。

实证验证了VAR在多个维度包括图像质量、推理速度、数据效率和可扩展性上都优于Diffusion Transformer。

随着VAR模型的扩大,它展现出了与大语言模型观察到的类似幂律缩放规律,线性相关系数接近-0.998,有力证明了这一点。

VAR进一步展示了在下游任务如图像修复、外推和编辑上的零样本泛化能力。

这些结果表明,VAR初步模拟了大语言模型的两个重要特性:缩放规律和零样本泛化。

研究人员已经公开了所有模型和代码,以促进AR/VAR模型在视觉生成和统一学习中的探索。

VAR算法为计算机视觉中的自回归算法设计提供了新的见解,有望推动这一领域的进一步发展。

项目地址：github.com
Demo 地址，生成速度真的非常快：var.vision
模型下载：huggingface.co
30 122
歸藏
13天前
很有意思的一个研究，让 LLM 帮助培训社交沟通技能，确实有很多人需要这样的服务，LLM 又擅长这个。

通过一个通用框架，利用大语言模型（LLM）进行社交技能训练。“AI伙伴，AI导师”框架将实际体验学习与真实场景练习和个性化反馈相结合。

详细介绍：

使用大语言模型进行社交技能训练的提议：

研究者提出,可以利用大语言模型强大的对话生成能力,为社交技能练习提供一个随时可用、安全可控的环境。相关研究已经证实,当前的大语言模型已经能够较好地模拟各类人物,进行逼真的对话互动。这为将其应用于社交技能训练奠定了基础。

AI Partner和AI Mentor框架的提出：

论文提出了一个通用的社交技能训练框架,包括两个关键组件:AI Partner负责提供对话实践的环境,AI Mentor负责在关键节点给予个性化指导。二者协同,可以把体验式的实践学习与理论指导有机结合,有望大幅提升社交技能训练的可及性和有效性。

使用该框架进行社交技能训练的应用场景

该框架可以灵活应用于多个领域的社交技能训练,如心理咨询、谈判、教学等。通过调整AI Partner塑造的人物角色,以及AI Mentor搭载的领域知识库,就可以对应不同领域的训练需求。论文通过一系列案例展示了这种适用性和灵活性。

论文地址：arxiv.org
32 423
新叶_RSS复兴计划
3天前
上次分享的创建微信个人助理，发现响应的人还挺多的，通过 1 周多的日常使用，我也把它融于到了我的生活和工作中：
- 早上 7 点半自动给我发天气预报；
- 创建滴答清单任务；
- 总结输出文章的摘要，并自动将文章收藏到 Cubox；
- 记笔记到 flomo；
- 翻译英文句子；

那么接下来先分享第一部分内容，如何在微信中和 AI 进行对话。

一、配置 AI 助手：
你可以使用 Dify 或 FastGPT。
1.注册 FastGPT：cloud.fastgpt.in
2.进入「应用」，新建1 个机器人，选择“简易模板”；
3.先不用进行“高级编排”来创建工作流，这一步放在把机器人调通之后再做；
4.点击「发布应用」，选择”API 访问“；
5.在”发布应用“里，点击【新建】，获得 API key；
通过上述步骤获得：
- API 地址（在新建按钮旁边）
- API Key

二、配置微信助理
1.注册微秘书：wechat.aibotk.com
2.进入微秘书后，点击「智能配置」-「基础配置」；
3.在「基础配置」中，打开”智能机器人回复“；
4.模型机器人选择”FastGPT“；
5.将上一步中拿到的 API 地址和 API KEY 填写到服务器地址和 apikey 中；
6.在微秘书的「个人中心」密钥位置拿到APIKEY和APISECRET；（后续步骤中使用）

三、部署微秘书的后端服务（个人微信）
1.注册sealos：cloud.sealos.io
2.点击「应用管理」-「新建应用」；
3.应用名：Wechat
4.镜像名：aibotk/wechat-assistant
5.CPU 选择 1 ，内存选择 1G
6.点击「高级配置」-「编辑环境变量」
7.填写：
AIBOTK_KEY=微秘书APIKEY
AIBOTK_SECRET=微秘书APISECRET

备注：仅在环境变量中填写上面两行，微秘书 APIKEY 和微秘书 APISECRET来自于第二步中拿到的。
8.点击【部署】，1 分钟不到该服务状态就会变为”运行中“

四、登录个人微信
1.进入微秘书：wechat.aibotk.com
2.进入首页，微秘书状态那里应该会出现扫码登录的二维码；
3.用个人微信扫码进行登录；（强烈建议使用自己平常不用的小号进行登录）

五、测试
1.用你的个人微信向上一步扫码登录的小号发消息，查看你是否能收到消息；
2.如果收不到消息，进入在sealos中创建的应用，点击日志查看错误原因；

到了这里，你就拿到了一个可以在微信中对话的 AI 机器人了，后续我会再写一遍分享，说明下如何通过工作流（Workflow）将滴答清单、flomo、Cubox 加入到微信机器人对话中。
49 2639
歸藏
1天前
谷歌免费发布了一套 15 门课长达 300 小时的机器学习工程师课程。

涵盖了机器学习系统的设计、构建、投产、优化、运转和维护工作。

详细的学习内容有：

• 机器学习基础：涵盖机器学习的基本原理和方法。

• 特征工程：探讨如何有效地处理和转换数据，以提高模型性能。

• 生产级机器学习系统：介绍如何将机器学习模型部署到生产环境中。

• 计算机视觉与自然语言处理：涉及图像和语言数据的分析和应用。

• 推荐系统：讨论如何构建个性化推荐引擎。

• MLOps：聚焦于机器学习操作的实践，包括模型的部署、监控和维护。

• TensorFlow、Google Cloud、VertexAI：介绍这些工具和平台如何支持机器学习项目的开发和部署。

课程地址：www.cloudskillsboost.google
31 012