9. 多模态AI将成为新常态。苹果公司的Ferret和特斯拉的FSD正在引领潮流。但挑战也会随之而来。视觉、听觉,甚至是感觉?
3、LLaVA在视觉聊天和推理问答方面表现出接近GPT-4水平的能力。
LLaVA是一个端到端训练的多模态大模型,它将视觉编码器和用于通用视觉和语言理解的Vicuna相结合,具备令人印象深刻的聊天能力。而CogAgent是在CogVLM基础上改进的开源视觉语言模型,拥有110亿个视觉参数和70亿个语言参数。
目前,已有超过400家企业启动了鸿蒙原生应用开发,覆盖了导航、新闻、工具、旅游、金融、便捷生活、美食、游戏等多个品类。
人工智能可以帮助后台运营,例如为常见技术问题提供即时故障排除、降低支持成本并提高客户满意度。