23 年做了一些有进展的事情,也有一个挺遗憾的项目。因为之前参与过一段时间的无障碍产品设计,很清楚的知道视障群体在互联网产品中遇到的巨大困难,其中最主要的困境是无法识别互联网中大量的图片信息(几乎无法做标注)。
23年 Chatgpt 出来后,会觉得LLM加上图像模型,可以很好的解决上述问题,当时 GPT4V 还没出来。我们带着这个想法去参加了去年春天即刻的 Hackthon,后面我们和国内几个比较大的读屏软件开发者进行了合作,以 API 的形式把这种识图能力提供了出去。
上线后,虽然每天有近万次的识别,但我们发现这个需求没有我们想象的那么刚需,更大的场景还是对线下物理世界的识别。同时,作为一个偏公益属性的项目,我们也没有太多资源去完善产品,建立审核机制,处理合规等等问题,就不得不终止。后来,看到 GPT4V发布,看到 OpenAI 和 Bemyeyes的深度合作,还是挺感慨。
但也很乐观的觉得 LLM 帮助视障者更好的理解视觉信息这个需求,一定会被很好解决,并且会产生远大于解决这个需求本身的价值。