最近认识了一位视障朋友，很想做ai读屏工具来帮助他，于是在即刻ai圈子检索，果然有前辈做过这样的事。如果可以的话或许能聊一聊嘛～

23 年做了一些有进展的事情，也有一个挺遗憾的项目。因为之前参与过一段时间的无障碍产品设计，很清楚的知道视障群体在互联网产品中遇到的巨大困难，其中最主要的困境是无法识别互联网中大量的图片信息（几乎无法做标注）。

23年 Chatgpt 出来后，会觉得LLM加上图像模型，可以很好的解决上述问题，当时 GPT4V 还没出来。我们带着这个想法去参加了去年春天即刻的 Hackthon，后面我们和国内几个比较大的读屏软件开发者进行了合作，以 API 的形式把这种识图能力提供了出去。

上线后，虽然每天有近万次的识别，但我们发现这个需求没有我们想象的那么刚需，更大的场景还是对线下物理世界的识别。同时，作为一个偏公益属性的项目，我们也没有太多资源去完善产品，建立审核机制，处理合规等等问题，就不得不终止。后来，看到 GPT4V发布，看到 OpenAI 和 Bemyeyes的深度合作，还是挺感慨。

但也很乐观的觉得 LLM 帮助视障者更好的理解视觉信息这个需求，一定会被很好解决，并且会产生远大于解决这个需求本身的价值。

当你启程前往伊萨卡，但愿你的道路漫长

来自圈子

AI探索站