标签:生成模型

2024国际基础科学大会“计算机之夜”

2024年国际基础科学大会的“计算机之夜”活动成功举行,吸引了众多计算机科学领域的专家和学者。丘成桐先生作为大会主席,强调计算机科学与人工智能在基础科学中的重要角色,并呼吁打破学科界限,共同促进科学发展。 Leslie Valiant教授则探讨了计算机科学与其他学科的交叉融合对科技进步的意义。腾讯的刘威博士和京东的何晓冬博士分别就腾讯混元大模型和生成式AI技术的发展进行了主旨演讲,展示了在多模态生成模型、图像和视频生成领域的创新。 圆桌讨论环节,各位嘉宾深入讨论了人工智能的正反面影响,呼吁平衡利用AI并关...

融合ChatGPT+DALLE3,贾佳亚团队新作开源:识图推理生图一站解决

贾佳亚团队的最新开源项目Mini-Gemini结合了ChatGPT和DALL·E 3的功能,提供了一站式的图像推理和生成解决方案。这款多模态模型在多个指标上表现出色,甚至可与商业闭源模型相媲美。Mini-Gemini支持高清图像处理,能进行精确理解、图像解析推理,以及生成相关图像。其Demo展示出的性能令网友赞叹,能进行手把手的教学、识别图像元素并提供建议,还能通过多轮对话生成连环故事。 Mini-Gemini的核心技术包括高清图像的双编码器机制、高质量训练数据和生成模型数据拓展。它使用Transformer的Attention机制,结合ViT和卷积网络,...

中国如何复刻Sora,华人团队长文解构!996 OpenAI研究员:Sora是视频GPT-2时刻

OpenAI研究员Jason Wei揭示了Sora在视频生成领域的里程碑意义,将其比作GPT-2在文字生成上的突破。Sora虽尚无法制作长篇影视作品,但已能创造出艺术感强烈的短视频,展示出角色一致性和故事情节的深度。尽管缺乏中间物理模型,Sora仍能大幅提升电影制作效率,降低成本。然而,视频生成的关键在于算力和数据,高质量视频数据的竞争日益激烈。 华人团队的37页技术报告深入剖析了Sora,指出其在理解复杂指令、处理多样化视频格式上的优势。Sora通过时空压缩、统一视觉表征和Diffusion Transformer等技术,实现了对不同尺寸和比...