大神电竞app对其账户发布的法律
埃科光电(688610)11月12日主力资金净卖出198.45万元... 暴躁老哥回应《双影奇境》改编电影:不信任好莱坞... 黄金交易提醒:美元走软和避险情绪助力金价反弹,关注中美贸易谈判... 那英被节目组贴脸开大“谁给那姐报的名”,完全耿直回答引爆热梗_剧本_套路_更年期... 美国宣布:6月14日举行阅兵式!那天是特朗普79岁生日,“预计将有6600名士兵...
新闻动态>>你的位置:大神电竞app对其账户发布的法律 > 新闻动态 > a16z合伙人:Ideogram CEO,AI视觉独角兽,资源优化计算模型

a16z合伙人:Ideogram CEO,AI视觉独角兽,资源优化计算模型

发布日期:2025-02-04 23:39    点击次数:58

图片来源:a16z

Z Highlights:

从研究到创业:Mohammad Norouzi分享了从谷歌的AI研究员到Ideogram公司联合创始人兼CEO的转变,讲述了他在创办公司过程中面临的挑战和收获。

突破性的AI技术:深入探讨了Transformer和扩散模型在图像生成中的应用,特别是如何将复杂的文本和图像融合在一起,实现高质量的视觉输出。

用户体验至上:强调了在AI产品开发中以用户体验为核心的重要性,通过与用户的紧密互动,持续改进产品功能,满足用户需求。

创新的未来愿景:讨论了AI在创意产业中的潜力,特别是如何通过AI技术使每个人都能实现自己的创意想法,从而激发更大的创造力。

技术与实践的结合:Mohammad谈及如何在有限资源下优化计算和模型性能,确保AI技术不仅强大且高效,同时能够大规模应用于实际产品中。

开创文本到图像模型: 从童年的绘画到AI研究

Mohammad:我确实意识到当时的一些对话是关于将文本到图像技术应用到Google的不同生产力工具中,例如Google PPT。问题是,这是一项价值1亿美元的生意吗?当它不是1亿美元时,很难看到它的价值。所以从根本上讲,这种产品创新比大公司更难,因为有很多容易实现的目标可以去实现。你也可以把时间花在广告改进上,提高0.0001%。

Derrick:嗨,我是Derrick Harris。你正在收听的是a16z的AI播客,我们专注于在人工智能前沿建设人才。这正好描述了本周的嘉宾,Ideogram的联合创始人兼首席执行官Mahama Noruzi。他在谷歌担任AI研究员大约十年,研究NLP、翻译和计算机视觉,最终在谷歌的文本到图像模型方面达到了高潮。我与a16z合伙人Jennifer Li一起与Muhammad进行了交谈。我们涵盖了Muhammad的整个旅程,从小时候在伊朗画画,到在大学里参加编程比赛,再到他创办公司并让任何人都能创作自己的照片的经验。这是一场富有洞察力的对话,如果您对学习文本到图像模型背后的一些关键概念感兴趣,请享受这次讨论。

Jennifer:作为提醒,请注意,此处内容仅供参考,不应被视为法律、商业、税务或投资建议,也不应用于评估任何投资或证券,并且不针对任何投资者或任何A16Z基金的潜在投资者。有关更多详细信息,请参阅A16Z.com/披露。

Mohammad:是的,我在伊朗长大,当时还是个小孩。我没有上幼儿园,也没有人照顾。我所记得的就是在高中时在祖父母的后院里闲逛,听故事和画画。我爱上了数学和编程的背景是我们在大学举行全国入学考试。如果你成功进入奥林匹亚队和信息学或数学,你就可以跳过考试。因此,我所做的就是与一群其他有成就的高中生竞争编程和数学问题。这包括很多组合数学、几何和图论,但我最终更多地转向编程。然后我为团队做了一些竞争性编程,因为我跳过了考试而进入了大学。

在大学里,我有很多算法和数据结构的背景。我没有做太多的学习,我做的大部分事情都是为竞争性编程构建这些web应用程序。这些应用程序被用于下一代高中生试图在编程方面竞争。这主要是一个独立项目。我并没有想过要把它变成一门生意,然后在大学即将结束时,我在思考下一步想做什么。我的大多数朋友都进入了理论计算机科学领域,有数学背景,但我觉得我想做一些更实际的事情。我自学了神经网络和反向传播。实际上,我当时读了关于卷积神经网络的论文,当时卷积神经网络并不受欢迎。我开始在Java中实现反向传播,并在LaTeX上编写了公式。所以这有点有趣,我只是第一次阅读学术论文,然后自己把它全部弄清楚。

Derrick:那是什么时间段?我能问一下吗?

Mohammad:2007年。

Derrick:好的,所以你比时代超前了几年。

Mohammad:是的,这是很久之前的事情,然后我在想也许我想深入研究认知科学,了解更多关于大脑如何工作的信息,因为当时很多评论都在讨论神经网络和大脑之间的关系。我试过了,我在加拿大读硕士的时候尝试做一些认知科学,但那不适合我。所以我很快就转向了计算机视觉、机器学习之类的领域。人们一开始就问我,你对计算机视觉还是自然语言处理感兴趣?因为这是机器学习的两个主要应用领域,但把这两个领域分开并没有让我感到合适。因此,我做了一些NLP,一些计算机视觉,然后在多伦多做了博士研究,将卷积神经网络应用到大规模相似性搜索中。但后来我去了谷歌,那时还是构建深度学习网络的早期阶段。我是brain team的一员,我参与了一大堆探索性项目,并深入研究。

Jennifer:有很多有趣的项目。如果你在谷歌工作,可能最著名的就是图像生成,这可能导致了我们今天所处的位置。我很好奇,在开始研究这些前沿模型之前,你们做了哪些项目和研究?整个图像生成项目背后是什么样的故事?

Derrick:然后你做了cat video(生成系统)吗?因为那时是2012年。

Mohammad:我想我是cat video项目之后在谷歌实习的。当我全职加入时,人们正在进行监督学习,而不是无监督学习。我参与的第一个项目是使用卷积神经网络进行机器翻译,并实际使用强化学习来提高机器翻译。我认为这有点超前,我们现在使用很多强化学习来调整大型语言模型。但在当时,这些模型并不是很大,但仍然是用于翻译的语言模型。这导致了翻译质量的大幅提升,推出了translate.google.com。

然后有几年,我在计算机视觉、强化学习和自然语言处理方面做了很多探索性工作。我认为有一个共同的主题,那就是找到一个更大的项目,可以奉献我的时间和团队精力。有很多关于不同类型的生成模型的工作,它们可以生成复杂的序列、图像,以及我们如何使用强化学习来提高这些模型的性能。

当Transformer论文出现时,我实际上是在山景城(Mountain View,ZP注:她与附近的Palo Alto City、Sunnyvale City和San Jose组成了硅谷的最主要地区)附近。这有点好笑。我们很早就在讨论这个问题,它与扩散模型有关。当Jacob、Ashish和我谈论这个问题时,更多的是在我们如何为语言进行并行生成的背景下。大型语言模型通过一次生成一个token来工作。有一个普遍的想法,我们如何超越一次生成一个token,并进行更多的并行生成,以便更有效地生成长文本块?所以这是Transformer论文背后的初步思考的一部分,但随着他们继续讨论时间生成的问题,仍然有一些图像生成方面的并行生成想法。

但仍然有人认为,每次生成一个图像块或一次只生成一个图像的整个概念不会产生太多感知,因为图像不是自然有序的。我们正在考虑更有效地生成图像的不同方法。我们看到了Jonathan Ho的论文,还有扩散模型。我们立刻意识到,这项工作有很大的潜力。于是我们放弃了其他项目,专注于这项技术,并在其上构建了一些应用程序。我们发现了这一点。所以整个想法是,我们如何使用AI构建比单个项目更伟大的东西?当我们看到了这些潜力,考虑到我的背景和经历,我开始觉得这是我应该奉献一生的事情。

Jennifer:我想知道,投入你和团队的时间以及你一生的工作到一个研究主题中的想法是什么?

Mohammad:这实际上是一个非常复杂的优化问题。在寻找从技术角度有很大改进空间的东西方面,因为归根结底,我的专业是AI的技术和研究,所以首先,它应该是在开发和技术复杂方面有更长时间的东西,但也是我能感到热情并爱上的东西。我爱上了艺术,视觉输出对我来说比文本更容易连接。我猜对大多数人来说,视觉信息更接近感官处理,我们大脑的大部分资源都用于处理视觉信息。所以,当我们看到新技术在改变图像和视频生成方面具有巨大潜力时,我感到非常激动。我真的感觉这是一个非常大的范围,是我内心所珍视的东西。所以这并不是需要太多思考,一旦我找到了那个范围,在此之前我需要思考很多。是要做更多的语言建模,还是更多的强化学习?这样的选择。

Transformer与扩散模型: 比较分析

Derrick:为了让我们的一些听众更好地理解,您能将传统的Transformer模型与扩散模型进行比较和对比吗?因为我认为当人们听到这里时,token概念是相当熟悉的,但很少有人了解扩散或图像模型是如何工作的。

Mohammad:当然,我会说这是关于你听到的关于Transformer、卷积等架构的,更多是关于生成高维对象的本质上的不同。无论是图像、文本还是音频,你都可以将它们转换为一系列比特。目前至少有两种主要方法可以生成高维的比特序列。一种是每次生成一个比特,或者一次生成一块比特,这被称为自回归建模。所有大型语言模型都基于这个概念工作。你生成第一个比特,然后将其作为输入,生成下一个比特。你可以通过查看迄今为止生成的所有比特进行迭代,然后生成下一个比特或一组比特。你可以扩展这个想法,不是一次做一个比特,而是一次做两个比特,等等。这就是tokens和tokens大小的概念。

现在,还有另一种生成这些比特的方法,那就是通过迭代过程同时生成所有比特。背景是,只需向数据中添加噪音,就可以很容易地将数据转换为噪音。噪音指的是一个完全随机的比特序列。生成完整的随机比特序列非常容易。生成与图像相对应的随机比特序列非常困难。扩散模型的整个思想是从一系列随机比特开始,通过一个迭代过程,尝试使其更类似于一幅图像或一系列文字。这两种方法的根本区别在于,一种方法是一次做一个token,或者一次做一块token,而另一种方法是进行整体的生成和改进。

当你深入思考这个问题时,你会意识到,在创造艺术品的过程中,我们并不像点彩画那样逐点进行。通常,我们会从一个宏观的构想出发,随后绘制草图,上色,并通过一个反复的细化过程来完善作品。从这个角度来看,人类创作画作或艺术作品的过程,与扩散模型所遵循的路径更为相似。然而,从另一个角度来看,思考我们说话或撰写段落的习惯,我们会发现,无论是书写还是口语表达,我们都是自然而然地从第一个词开始,逐词逐句地展开。

Jennifer:这完全正确。我总是思考去噪过程,因为我也画画,尽管我不是一个伟大的画家,但它非常类似于如何将一个想法从脑海中的粗略草图变成一个有很多细节的作品,这是一种精炼。我发现去噪过程可以非常准确地反映了现实世界的过程。当Transformer论文出来时,你也在那儿讨论它。我很好奇,当时这种新架构给人的感觉是什么样的?你有没有预料到这会是一件大事?它之后改变了机器学习和AI行业,人们是否感到惊讶?

Mohammad:再说一遍,Ashish是我的亲密朋友。我们一直在讨论很多话题。当时我在湾区工作,我想他在论文提交后就知道这是技术的一个非常重要的部分。他在走廊上告诉我它是如何工作的,以及它给翻译带来了多少改进。再一次,翻译曾经是Transformer论文的试验台。它在两个方面有所帮助,一个是训练的速度,另一个是翻译的质量。公平地说,我认为当时没有人非常清楚地知道这会变得多大,而且有趣的是,现在Transformer不仅是语言处理的基础架构,也是计算机视觉的基础架构。我们远远超出了语言翻译作为一项任务。我们现在在谈论通用人工智能和构建通用智能机器的想法。看到Transformer在这些领域中发挥如此重要的作用,确实令人感到谦卑。除了架构外,还有人意识到建模语言本身是一项有趣的任务,推动了建模语言并推动了一次生成一个token的想法。一次一个token,可以带我们走这么远。我认为OpenAI的人有很多功劳,因为他们发现相同的基本原则,相同的建模语言思想,可以导致非常智能的代理。当时在谷歌有一些关于这个的讨论,但我不认为有非常精心策划的策略和坚定的信念。我们花了多年时间在更大的数据集上进行演示规模的训练,这将为我们提供非常强大的机器,而它的对齐方面在很大程度上也是未知的。我们可以使用少量、强硬的指令和反应或人工反馈的想法,使这些模型更易于接近。当时这些都是未知的。

Jennifer:沿着同一思路,我也很好奇,当你的联合创始人Jonathan Ho发表了扩散模型论文时,这是否引领你们走上了图像生成和扩散模型之路?看到这篇论文发表时的感觉是什么?这是一种预期之内的,还是震惊研究行业的?

Mohammad:我绝对认为这在当时是一个突破,因为我们需要某些类型的生成模型,包括GANs和自回归的Transformer模型,但至少在当时,它们都无法扩展到大型图像数据集上生成更高分辨率和更多样化的图像。即使从扩散项目的早期阶段来看,这种模型也能创造出更高保真度的图像,并且有很大的潜力。这篇论文已经让我们在这方面走得很远,但当你回顾GANs的历史时,一步步改进模型需要几年的时间。扩散模型在很多方面改进了GANs。所以我认为这是一个突破,我们看到了它的潜力,并在某种程度上实现了这一潜力。我们不一定预见到未来的全部发展,但我们肯定停止了很多其他项目,并将扩散模型作为一个重要的研究方向。

还有一种想法是,一旦图像模型开始运作良好,我们就可以从图像或设计的描述转变为实际的图像和设计。这种将文本翻译成图像的问题是创意产业转型的一个非常基本的部分。我认为当时并不是非常清晰,但我们必须推动它。好的,让我们通过文本到图像、文本到视频来让这些模型更容易被人们接受,成为新一波创造力的推动者。

图片来源:Unsplash

从研究员到企业家: 用人工智慧创新创造力

Derrick:是什么最终导致你离开谷歌并创建Ideogram?谷歌显然在很长一段时间内都处于前沿。我做了很多这样的研究。

Mohammad:我真的认为我们会创造一个尴尬的境地,这是一个伟大而惊人的研究,出自谷歌。我们在扩散模型上使用的一些工作再次出自谷歌,这种被称为“标识符免费指导”的技术非常流行,再次由Jonathan提出,但我想谷歌研究团队的任务并不是构建产品。我们尝试做了一些产品,但这并不容易,因为我想我们是一群研究人员,我们之前没有真正发货过产品。我不认为有人相信我们甚至可以做好工作,但从根本上说,我不确定产品创新是否可以在大公司内轻易发生,因为你有一个蓬勃发展的业务并且正在运作。所以我确实意识到当时的一些对话,例如将文本到图像技术应用到Google的不同生产力工具中,例如Google幻灯片,但问题是,这是一项价值一亿美元的生意吗?

Jennifer:现在?事实证明它是。

Mohammad:是的,确切地说,但当它不是1亿美元的生意时,很难看到它的潜力。所以我认为,从根本上讲,这种产品创新比大公司更难,因为有很多容易实现的目标。你知道,你不妨把时间花在广告改进上,提高0.001%。

Jennifer:现在你已经在Ideogram工作了一年多。回顾谷歌的经验,你学到了什么?有哪些教训对于训练这些大型模型仍然具有指导性和价值?现在你在构建产品时有哪些东西,你发布(产品)的速度非常快,这与谷歌的情况形成了很大的对比。

Mohammad:是的,现在我们需要更全面地考虑整个工作流。我们还需要更高效地利用我们的资源,无论是计算资源还是人力资源。我们是一个敏捷的团队,我们拥有的计算资源实际上是惊人的,但还没有达到谷歌的规模,所以这是我们必须面对的一个现实。我认为这可能是一件好事。缺乏资源促使你更加努力工作,取得更多成就。还有一件事是我们推销公司的方式,我们是一家垂直整合的AI公司。我们是AI优先,但我们也是产品优先,我们是社区优先。因此,我们的支柱包括社区、技术和产品。

我认为当我们在谷歌担任研究人员时,我们非常注重新奇性和研究,创新生成图像和文本的新方法、新想法,这很棒。但在产品开发的背景下,我们需要更多地考虑用户的需求。我们的用户想要什么?我们如何实现这一点?我们如何创建可以完成任务的新基础模型,以及构思、创造和编辑的新方法?各种创意应用的未来是什么?视频创作的未来是什么?在实现通用视频生成之前,有哪些可实现的里程碑?当我们作为研究人员思考这些问题时,这些问题都没有出现。我认为与用户坐下来谈真的很令人兴奋。

我每周都有这种聊天。基本上,这是一种完全有机的与用户互动的方式。人们会手把手地提出各种随机请求来提示或使用产品,然后有些人会提供一些反馈或评论。看到用户对产品的喜爱真的很好。就在那时,我们推出了这个产品。我们看到了用户的很多关注,他们非常感激。我们还有一个非常慷慨的免费层,所以在这个级别与我们的用户互动真的很好。我认为在大公司里这样做要困难得多,因为你通常需要通信、公关和社区等部门的支持,而我们没有这些。

Jennifer:我参加了一些社区聊天,看看用户来自哪里以及他们的背景真的很有趣。有些人可能不了解扩散模型的细节,但他们可以制作出这些美丽的图像和艺术作品,对迭代过程有很好的理解。作为一名产品观众,这非常迷人,我确信也非常值得。

Mohammad:是的,那是真的。这种机会可以让我在个人喜欢的产品上工作,我一直都在使用它。我觉得使用Ideogram更有创意,这是一个非常独特的机会,可以在个人层面上做一些让你感到兴奋的事情。值得庆幸的是,这对大量用户来说也很令人兴奋。

产品的核心理念是,每个人都渴望创造出能够视觉化表达自我的作品。尽管有人可能希望通过绘画来实现这一愿望,但并非每个人都有这样的技能。这种局限往往制约了他们的创造性自我表达。随着AI技术的出现,我们有机会突破手工艺术的限制,让创造性想法的表达变得更加自由。我对此感到非常激动,特别是看到新一代人正在掌握并利用这项技术成长。我相信,当人们能够将自己的想法变为现实时,他们不仅在创造力上得到提升,而且会变得更加创意无限。因此,我认为新一代人将会因为每个人都能自由表达自我而变得富有创造力。这无疑是一件令人振奋的事情,因为创造力不仅是文明进步的基石,也在经济层面创造了巨大的价值。

革命性的设计: Ideogram创新的文本和图像整合方法

图片来源:Unsplash

Jennifer:让我们深入了解更多关于Ideogram的内容。如果听众今天玩了市场上所有其他模型,我们会发现Ideogram非常擅长提示理解、视觉风格,尤其是拼写、排版和结构的能力。Ideogram有何不同之处?如果你能揭开一些秘密,与其他模型相比,你们是如何将文字如此好地融入这些图像模型中的?

Mohammad:是的,我想在更高的层面上,当你想到设计和设计软件时,你会看到文本的重要性。因为能够以某种方式呈现文本和图像,让我们在更深层次上进行交流,更有创意地进行交流。当你想到模型时,它们通常有图像和文本。我认为模型封装了一种非常有创意的交流方式。但是更进一步,当你想到广告、营销、各种设计时,你经常会看到文字和图像交织在一起。

当你想到传统的文本渲染方式时,你有字体,你有将字体转换成图像的引擎。其中一些可能是复杂的,或某些语言的字体非常小。我们所拥有的观点是,在将想法转化为图像的过程中,AI可以略过字体步骤。所以我们可以直接生成图像。我们可以拥有自定义字体,即字体之间的差值。我们可以更好地处理透视,更好地处理图像和文本之间的复杂关系。

所以这仍然是我们拥有的观点,如果这都是关于自定义字体阶段的,而是关于为每个设计创建新字体呢?所以从一开始,我们就认为这是市场上的一个空白,它将使许多创造性的应用成为可能。当我们构建这些数据集时,当我们发布新模型时,我们非常关注文本的质量。

人们问什么是秘密来源?我想我们可能有一些商业机密,但归根结底,这一切都是关于专注于一个重要的问题并解决它,而在我们的情况下,问题就是设计,让所有知识工作者,每个没有太多设计专业知识的人都可以使用设计。我认为机会在于我们可以拥有非常简单的用户体验,但提供优质的设计,如果没有设计专业知识,就很难创造出来。这就是我们应该很快实现的愿景。

Jennifer:我一直在玩文本,特别是Ideogram,制作模型,以及这些纹理文本,如纱线或花朵,或通过不同的版本制作。我可以看到这一点,并且技术拼写能力随着时间的推移而提高。我很好奇,与仅仅是一个角色或风景图像相比,使用文本有哪些挑战?你们是如何解决这些挑战的?

Mohammad:我想我们面临的一个挑战是让字体变得无聊。因此,改进文本生成是可行的。总的来说,一个挑战是提高拼写质量,因为如果你有一个文本生成器,你希望它是完美的,对吧?你给了字符,它永远不会偏离你输入的字符。但接下来的挑战是你需要决定字体、大小、颜色、位置,而且很难使它成为图像的原生内容。现在,当我们使用AI来生成图像时,我们可以通过使用更多的计算资源来提高准确性,但这样会变得很无聊。提供优质设计和定制字体的整个愿景变得更加困难。所以我们面临的挑战是同时提高准确性、创造力和设计质量。

另一个挑战是你可以有非常好的文本,但模型在其他所有方面可能都很糟糕。实际上,创建一个只处理文本很好的模型是很容易的。但是如果角色手持一个标志,而文本看起来不真实或分辨率不高,那就不好了。所以我想这是我们想要保持文本准确性的另一个挑战,同时也要为各种其他目的提供最佳的图像质量。然后,我想这个行业的另一个普遍挑战是推理成本,因为我们想要改进模型,增加模型大小。这涉及到你所说的比例定律。但与此同时,我们希望将这些产品提供给尽可能多的人,并让他们更具创造力。在新版本的模型中,我们是否可以保持低成本并随着时间的推移降低成本?

Derrick:有没有一种可能,一些成本或计算成本被卸载给用户的设备?

Mohammad:这是一个有趣的问题。所以你的意思是,如果计算发生在手机或个人设备上?

Derrick:是的,尤其是现在我们拥有非常强大的AI芯片,至少在苹果产品中是这样,对吧?他们看起来有能力。

Mohammad:未来十年将如何发展是一个有趣的问题。到目前为止,最强大的模型似乎仍然越来越大,并且它们生活在云端,而在手持设备中,你有一个较弱的版本。所以我认为随着技术的进步和设备的改进,也许我们可以在设备上提供更高质量的文本和图像生成。但我仍然认为我们将拥有最智能并将模型保存在云端。

Jennifer:有些人说,现在我们玩图像模型已经几年了,它有点成为商品。你认为从长远来看,这个领域的玩家会有所不同吗?你在自己的用户群体中看到了什么非常独特和新的东西?

Mohammad:我认为在主要图像建模方面至少还需要几年的时间。你将在不同的公司拥有更多类似的模型,但我们倾向于低估。我们还需要做多少技术工作才能达到最高的质量水平,才能真正用合成媒体取代真正的媒体?想想摄影首先花费大量时间编辑和调整的所有高分辨率图像。愿景是AI可以做到这一切。所以我认为在技术方面还有很多工作要做,以进一步推动质量。所以我不认为这些模型很快就会成为商品。

同时,我认为围绕这些模型的工作流程和用户体验非常重要和宝贵。这就是为什么成为产品第一和AI第一的公司给了我们一个独特的优势,因为我们可以创造由于基础模型能力而独特差异化的用户体验。一个很好的例子实际上是关于GPT-4的新工作,您可以在其中训练一个模型,以减少语音交互的延迟。我认为,由于AI技术,这提供了独特的差异化用户体验。而其他公司在没有建立基础模型的情况下很难复制这一点。

所以我认为对我们来说,在图像创建、编辑和设计方面,确切的用户体验是什么?我们怎样才能让一个门外汉提出一个简单的请求?假设他们想为他们的孩子生日派对设计一个邀请函,或者他们想为朋友创建一张贺卡。他们带着一个想法,然后带着一个完成的设计离开,这个设计可以用于任何目的。因此,我认为将会有很多迭代,有很多编辑。他们可能想要在图像中放置一些他们自己的个人照片和相关提示,我们需要考虑如何将其作为一个整体来实现。

用户体验需要大量的思考。我不认为旧的用户体验一定是AI时代的理想体验。因此,将会有新的编辑图像的方法,使其更加无缝,更加直观。我们将建造它。这更加差异化,因为用户体验和AI功能是端到端构建的。

Jennifer:未来生日卡片能播放歌曲,幻灯片能自动讲解吗?你是如何看待用户体验的?多传感器体验是否依赖于多模态技术?

Mohammad:将会有很多视频。这将会是很多视频动画。因为视频创作面临的挑战是什么?这很难,对吧?制作动画贺卡更难,而人们可以在线制作模板并快速制作贺卡,制作动画版本需要更多的工作。但有了AI,这将非常容易,而且很快就会到来。

Derrick:这有点无关紧要,但你之前提到你年轻时做了很多竞争性的编程项目,但AI程序能模拟出你吗?

Mohammad:我想现在有趣的是AI编写程序很容易,但调试程序却很难。是的,我不知道我们需要多少年才能真正写出正确的程序,而且我们不需要任何编程专业知识。让我们说不。是的,但我的意思是,到目前为止,我认为计算机不能很好地编程,优秀的程序员。

从研究员到企业家的转型: 在AI嗡嗡声中创办公司的经验教训

Derrick:在我们结束之前,回到创办公司的想法,关于AI给我带来震撼的一件事,尤其是现在,你会看到很多人花了很多时间进行研究和非常高水平的研究,然后去创办一家公司。我认为尤其是从谷歌的巨额预算和整个招聘流程开始,就像一些甚至不是技术上的东西,就像你学到了什么一样,我猜,或者你所看到的一些事情,从研究人员到现在经营一家公司,不得不做所有这些演变的事情?

Mohammad:要明确的是,我们没有创办公司,因为AI很酷。我在(Google)的最后一天是在ChatGPT发布两天后,之后我们创办了公司,因为我们觉得AI有很大的潜力。太空真的很令人兴奋,我们想站在它的前沿,开发技术并享受其中的乐趣,发生的事情是我猜AI也很受欢迎,所以这是一个很好的巧合。但这并不是为了引起我们在公司方面的关系,实际上这有点有趣,我觉得这是一个让我更多地了解自己,发展更多技能和成为更好人的机会,因为有很多紧张和复杂性,将不同的利益相关者对齐所有这些发射。我认为这也是一种个人旅程。它在不同层面上挑战了我和团队中的每个人,但好消息是你经历了一些挑战和痛苦,因此你对自己有了更多的了解,并希望创造一些价值。这是看待它的一种方式,我感觉它走出了我的舒适区。这很令人兴奋,因为它将帮助我和公司的其他人成为更有能力、更好的人。

Derrick:这周就到这里了。我们希望你喜欢听Mohammad的分享,就像我们喜欢和他交谈一样。如果你喜欢,请记得给播客评分,并与你的朋友和同事分享。下周见,谢谢收听。

原播客:The Future of Image Models Is Multimodal https://a16z.com/podcast/the-future-of-image-models-is-multimodal/

编译:Ryan Du 杜竑喆

-----------END-----------



首页 大神电竞app对其账户发布的法律介绍 产品展示 新闻动态

Powered by 大神电竞app对其账户发布的法律 @2013-2022 RSS地图 HTML地图