先看整张图
先要求一个清晰概览:画面里有什么、重点是什么、截图表达了什么。
更好的图片问答流程
好的图片对话流程应该逐步推进。先理解完整截图,再围绕具体细节追问,最后把视觉分析转成摘要、OCR 结果、替代文本或可直接使用的报告。
先要求一个清晰概览:画面里有什么、重点是什么、截图表达了什么。
继续追问数字、标签、图表趋势、时间范围或截图中的小区域。
把答案转成替代文本、OCR 结果、报告摘要、标题或可复用的业务文案。
案例示例
看看图片对话流程如何处理不同视觉任务。上传商品照片、发票、截图、图表或仪表盘,然后持续追问,直到图片变成有用文本、判断或下一步输出。
适用于电商、目录和平台团队
用图片对话检查商品照片,识别可见特征,发现缺失信息,并转成面向买家的商品文案。
示例对话
适用于支持、运营、财务和产品团队
上传信息密集的截图、收据、发票、表单或界面状态,让图片对话提取可见文字、总结关键字段,并标记需要复核的内容。
示例对话
适用于分析师、营销人员、设计师和教育工作者
用图片对话阅读仪表盘、解释图表、比较指标、识别视觉模式,并把复杂报告转成通俗摘要。
示例对话
输出格式
当图片对话最终形成清晰格式,能被复核、复制、编辑、发布或交给其他流程时,它最有价值。
为屏幕阅读器生成简洁替代文本,再根据页面上下文要求更短、更具体或更适合 SEO 的版本。
从截图、收据、表单、标签和文档中提取可读文字,同时把不确定文字与已确认文字分开。
把可见商品细节转成标题、要点、列表描述、审核备注和买家文案,不虚构隐藏规格。
把图片分析改写成社交标题、报告摘要、创意简报、图片提示词或可复用内容草稿。
人工复核
图片对话可以描述画面中出现的内容并解释可能的上下文,但当污渍、眩光、模糊或破损边缘让细节难以确认时,应该明确保留不确定性。
示例:带不确定性的 OCR
案例重点
带不确定性备注的破损收据 OCR
需要复核什么
污渍遮挡了一行中的部分内容,因此回答会把已确认的收据字段和仍需复核的细节分开。
提示词库
最好的结果通常来自一连串简单问题。复制一个提示词,然后持续追问,直到答案符合你的工作流程。
常见问题
与图片对话是指上传图片后,通过对话不断围绕它提问。你不是只得到一次固定描述,而是可以继续追问、请求 OCR、改变输出格式或深入某个细节。
与图片对话登录后可用。上传图片或粘贴图片 URL,然后在聊天框里提出第一个问题。模型 1.0 每条消息消耗 2 积分,模型 2.0 每条消息消耗 4 积分。登录后可使用每日签到积分,需要更多时可购买套餐或积分包。
普通图片描述生成器通常只给一个答案。与图片对话会把图片和对话保留在一起,让你逐步优化答案、比较细节、要求不同输出,并一步步得到可用结果。
可以。你可以提取可见文字、总结截图、解释界面状态,或把文档字段转成结构化备注。对于收据、发票、标签和压缩截图,使用前应复核不确定文字。
清晰的商品照片、仪表盘、图表、表单、文档、收据、界面截图、示意图和设计稿效果最好。如果图片模糊、裁切、有污渍、偏暗或很小,请要求工具区分已确认细节和不确定细节。
你可以把对话转成无障碍替代文本、清晰 OCR、字段备注、商品标题、目录要点、标题、报告摘要、创意简报、图片提示词或人工复核清单。
先问一个整体问题,例如图片里可见什么,然后逐步收窄。可以追问具体数字、标签、缺失细节、图表趋势、布局问题或你下一步需要的格式。
不能。隐藏、模糊、损坏、裁切或低分辨率细节不应被当作已确认事实。把答案作为视觉证据使用,并在图片无法证明细节时保留不确定性备注。
当目标是把参考图改写成可复用提示词时,使用图片转提示词。当目标是提问、提取信息、检查细节或从图片生成有用文本时,使用与图片对话。
图片对话关注一张静态图片及其可见细节。若答案依赖场景、动作、时间、变化的文字、镜头运动或片段中的行为,则更适合使用视频对话。
先从整体概览开始,再追问精确文字、字段、标签、图表数值、缺失细节或不确定性备注。重要的 OCR、商品、文档或图表工作,在发布或保存前应对照原图复核最终答案。
与图片对话支持 JPG、JPEG、PNG、WebP 和 GIF,最大 15MB。你也可以粘贴图片 URL。