AIGC按内容生成类别可划分为文本、代码、图像、音视频四类,根据红杉资本预测,2023年文本、代码生成有望得以成熟应用,其中文本生成可实现垂直领域文案的精确调整,达到科研论文精度,代码生成可覆盖多语种多垂直领域;图像、音视频生成的成熟度相对较低,目前尚处于生成基础初稿的阶段,2030年有望得以成熟应用。
1. 文本生成:文本交互成为未来发展方向
(1)应用型文本
大多为结构化写作,以客服类的聊天问答、新闻撰写等为核心场景。最为典型的是基于结构化数据或规范格式,在特定情景类型下的文本生成,如体育新闻、金融新闻、公司财报、重大灾害等简讯写作。Narrative Science创始人甚至曾预测,到2030年,90%以上的新闻将由机器人完成。
(2)创作型文本
主要适用于剧情续写、营销文本等细分场景等,具有更高的文本开放度和自由度,需要一定的创意和个性化,对生成能力的技术要求更高。我们使用了市面上的小说续写、文章生成等AIGC工具。发现长篇幅文字的内部逻辑仍然存在较明显的问题、且生成稳定性不足,尚不适合直接进行实际使用。除去本身的技术能力之外,由于人类对文字内容的消费并不是单纯理性和基于事实的,创作型文本还需要特别关注情感和语言表达艺术。
(3)文本辅助
除去端到端进行文本创作外,辅助文本写作其实是目前国内供给及落地最为广泛的场景。主要为基于素材爬取的协助作用,例如定向采集信息素材、文本素材预处理、自动聚类去重,并根据创作者的需求提供相关素材。
(4)文本交互
例如虚拟伴侣、游戏中的NPC个性化交互等。2022年夏季上线的社交AIGC叙事平台Hidden Door以及基于GPT-3开发的文本探索类游戏AIdungeon均已获得了不错的消费者反馈。
案例:小冰发布小冰岛APP,每个用户均可创造自己的岛屿,并连带拥有一个功能类似于微信和LINE等社交产品的完整社交交互界面。用户不仅能在岛屿中体验丰富的视觉和自然音场,与人工智能个体进行对话,还可以再造完整的一对一对话、群聊、朋友圈和技能生态体验。
2. 音频生成:AI编曲将成为AI音频生成中的快速成长赛道
(1)TTS(Text-to-speech)场景
泛应用于客服及硬件机器人、有声读物制作、语音播报等任务。例如倒映有声与音频客户端“云听”APP合作打造AI新闻主播,提供音频内容服务的一站式解决方案,以及喜马拉雅运用TTS技术重现单田芳声音版本的《毛氏三兄弟》和历史类作品。这种场景为文字内容的有声化提供了规模化能力。随着内容媒体的变迁,短视频内容配音已成为重要场景。部分软件能够基于文档自动生成解说配音,上线有150+款包括不同方言和音色的AI智能配音主播。代表公司有九锤配音、加音、XAudioPro、剪映等。
(2)乐曲/歌曲生成
AIGC在词曲创作中的功能可被逐步拆解为作词(NLP中的文本创作/续写)、作曲、编曲、人声录制和整体混音。目前而言,AIGC已经支持基于开头旋律、图片、文字描述、音乐类型、情绪类型等生成特定乐曲。通过这一功能,创作者即可得到AI创作的纯音乐或乐曲中的主旋律。2021年末,贝多芬管弦乐团在波恩首演人工智能谱写完成的贝多芬未完成之作《第十交响曲》,即为AI基于对贝多芬过往作品的大量学习,进行自动续写。
图像属性及部分编辑
属性编辑部分,可以直观地将其理解为经AI降低门槛的PhotoShop。用户可以通过简单的操作,对图像进行旋转、裁剪、缩放、调整色彩、添加滤镜、文字、水印等效果。例如,iLoveIMG1就是一个提供多种图像编辑工具的在线平台,可以帮助用户快速处理图像文件。
部分编辑部分,是指对图像的局部区域进行修改或替换,如去除背景、去除物体、换脸、换衣等。这种编辑需要AI具有较强的图像理解和生成能力,以保证编辑后的图像自然和逼真。例如,Pixlr1就是一个提供部分编辑功能的在线图像编辑器,可以让用户轻松地实现背景消除、物体移除、面部模糊等效果。
四、AIGC的商业模式
AIGC的商业模式主要有以下四种:
(1)平台模式
平台模式是指提供AIGC技术服务的平台,通过收取使用费或订阅费来盈利。这种模式的优势是可以覆盖多个领域和场景,为用户提供灵活和便捷的AIGC服务。例如,OpenAI的GPT-3就是一个典型的平台模式,它提供了一个开放的API,让用户可以根据自己的需求来生成各种类型的内容。另一个例子是无界AI,它是一个专注于图像生成的平台,可以根据用户输入的文字或图片来生成高质量的图像。
(2)产品模式
产品模式是指针对特定领域或场景,开发出具有特色和价值的AIGC产品,通过销售产品或提供增值服务来盈利。这种模式的优势是可以深入挖掘用户需求,提供更加专业和个性化的AIGC体验。例如,小冰岛就是一个产品模式的AIGC应用,它是一个基于人工智能的社交平台,让用户可以创建自己的虚拟岛屿,并与人工智能个体进行对话和互动。另一个例子是Jasper,它是一个基于GPT-3的邮件自动回复工具,可以帮助用户快速处理邮件事务。
(3)内容模式
内容模式是指利用AIGC技术来生产内容,并通过内容分发或广告等方式来盈利。这种模式的优势是可以大幅降低内容生产成本和时间,提高内容质量和效率。例如,倒映有声就是一个内容模式的AIGC应用,它利用TTS技术来生成高质量的音频内容,并与音频客户端“云听”合作,提供音频内容服务。另一个例子是Narrative Science,它利用NLP技术来生成新闻报道和财务报告,并与多家媒体和企业合作,提供数据驱动的内容服务。
(4)模型训练费用
模型训练费用是指通过提供AIGC技术所需的数据和算力资源,收取相应的费用来盈利。这种模式的优势是可以为AIGC技术提供必要的支持和保障,降低技术门槛和成本。例如,谷歌云平台就提供了多种数据和算力服务,帮助用户训练和部署AIGC模型。另一个例子是清华大学开源了其自研的大规模中文预训练语言模型CPM-Generate,并收取一定的使用费用。
五、AIGC的挑战和展望
AIGC作为一种基于人工智能技术的内容生成方式,近年来在各个领域展现出了强大的应用潜力和商业价值,引发了社会各界的广泛关注和热议。然而,AIGC的发展也面临着技术瓶颈、数据质量、伦理道德、版权保护等方面的挑战,需要持续创新和规范管理。同时,AIGC也有望成为新型的内容生产和消费基础设施,塑造数字内容生产与交互新范式,持续推进数字文化产业创新。本部分将从以下三个方面对AIGC的挑战和展望进行分析。
1. AIGC面临的主要挑战
(1)技术瓶颈
尽管AIGC技术在近年来取得了长足的进步,但仍然存在一些技术瓶颈,限制了AIGC的生成能力和应用范围。主要表现在以下几个方面:
– 数据依赖性。AIGC技术通常需要大量的数据来训练模型,而数据的获取、清洗、标注等过程往往耗时耗力,且容易受到数据质量、数据偏差、数据隐私等因素的影响。此外,不同领域和场景下的数据特征也有所差异,导致模型的泛化能力和迁移能力受到限制。
– 生成质量。AIGC技术虽然可以生成各种类型和风格的内容,但生成内容的质量仍然有待提高。主要问题包括生成内容存在逻辑错误、语法错误、语义不通、信息冗余、信息缺失、信息不一致等现象,以及生成内容缺乏创新性、多样性、个性化等特点。
– 生成效率。AIGC技术虽然可以提高内容生产效率,但生成效率仍然受到模型复杂度、计算资源、用户需求等因素的制约。主要问题包括模型训练和推理需要消耗大量的算力和时间,以及用户对生成内容的反馈和修改需要多次迭代和交互。
(2)数据质量
数据是AIGC技术的重要基础,数据质量直接影响到模型性能和生成效果。然而,在实际应用中,数据质量往往存在以下几个方面的问题:
– 数据不足。对于一些特定领域或场景下的内容生成任务,可能缺乏足够数量和类型的数据来支撑模型训练。例如,在医疗领域,由于医学知识的专业性和隐私性,获取医疗文本或图像等数据较为困难。
– 数据不平衡。对于一些涉及多类别或多风格的内容生成任务,可能存在数据分布不均匀的情况,导致模型在某些类别或风格上表现不佳。例如,在音乐领域,由于不同音乐流派或风格的流行程度不同,获取相应音乐数据可能存在偏差。
– 数据不准确。对于一些需要高精度或高可信度的内容生成任务,可能存在数据错误或虚假的情况,导致模型学习到错误或误导性的信息。例如,在新闻领域,由于网络上存在大量的谣言或假新闻等信息,获取真实可靠的新闻数据较为困难。
(3)伦理道德
伦理道德是AIGC技术发展中不可忽视的一个方面,涉及到人工智能与人类社会之间的价值观、道德观、法律观等问题。主要表现在以下几个方面:
– 人机关系。AIGC技术可以生成逼真且具有情感表达能力的内容,如聊天机器人、数字人等,可能影响到人类与机器之间的关系和互动方式。例如,在社交领域,用户可能对聊天机器人产生过度依赖或情感寄托等现象。
– 人类创造力。AIGC技术可以生成具有创造力和创新性的内容,如艺术作品、文学作品等,可能影响到人类自身创造力和创新力的发展和认知。例如,在文化领域,用户可能对人工智能生成的内容产生过度信赖或盲目崇拜等现象。
– 人类责任。AIGC技术可以生成具有影响力和操纵力的内容,如新闻报道、广告宣传等,可能影响到人类社会中的公共利益和个人权益等问题。例如,在政治领域,用户可能对人工智能生成的内容产生过度信服或误导等现象。
(4)版权保护
版权保护是AIGC技术应用中一个亟待解决的问题,涉及到人工智能与原创作者之间的知识产权归属、利益分配、责任追究等问题。主要表现在以下几个方面:
– 来源确定性。AIGC技术可以生成各种来源不明或来源混杂的内容,并且难以区分其真伪或原创性。例如,在教育领域,学生可能使用AIGC技术来生成抄袭或伪造的作业或论文等。
– 归属确定性。AIGC技术可以生成各种无作者或多作者参与归属确定性。AIGC技术可以生成各种无作者或多作者参与的内容,如AI绘画、AI写作、AI作曲等,这就导致了内容的- 归属难以确定。例如,如果一个人使用AIGC技术生成了一幅画,那么这幅画的作者是这个人,还是AIGC技术,还是AIGC技术背后的数据和算法?如果多个人使用同一个AIGC技术生成了类似的内容,那么这些内容的归属又如何划分?这些问题涉及到知识产权的界定和保护,需要明确的法律规范和制度安排。
2. AIGC的展望
AIGC作为一种基于人工智能技术的内容生成方式,具有巨大的发展潜力和前景。根据多份报告的预测,AIGC的市场规模将在未来几年内快速增长,达到千亿甚至万亿级别。AIGC的应用场景也将不断拓展,涵盖消费互联网、产业互联网和社会价值等多个领域,产生变革性的影响。本部分将从以下三个方面对AIGC的展望进行分析。
– 在消费互联网领域,AIGC将成为新型的内容生产基础设施,塑造数字内容生产与交互新范式,持续推进数字文化产业创新。目前,AIGC已经在传媒、电商、影视、娱乐等数字化程度高、内容需求丰富的行业取得重大发展,涌现了写作助手、AI绘画、对话机器人、数字人等爆款级应用,支撑着海量用户的内容创建和消费需求。未来,AIGC将进一步提高内容生产效率和质量,拓展内容生产范围和类型,丰富内容消费方式和体验,为用户提供更多元和个性化的内容服务和体验,并与用户进行交互和沟通。例如:
写作助手:AIGC技术可以帮助用户完成各种类型的写作任务,如小说、诗歌、论文、代码等,并提供修改、优化、检查等功能,提升写作效率和质量。
AI绘画:AIGC技术可以根据用户输入的文字或图片生成各种风格和主题的图像,如卡通画、油画、素描等,并提供调整、编辑、保存等功能,满足用户的创意表达需求。
对话机器人:AIGC技术可以与用户进行自然语言对话,回答各种问题,提供各种信息,如智能问答、智能推荐、智能聊天等,并提供反馈、学习、优化等功能,增强用户的交互体验。
数字人:AIGC技术可以生成具有真实外貌和声音的虚拟人物,并赋予其个性和情感,如虚拟歌手、虚拟主播、虚拟明星等,并提供定制、控制、分享等功能,打造用户的数字形象。
– 在产业互联网领域,基于AIGC技术的合成数据(synthetic data)迎来重大发展,合成数据将牵引人工智能的未来。合成数据是指利用AIGC技术生成的模拟真实世界数据的数据集,用来训练、测试、验证AI模型。合成数据具有以下优势:
降低数据采集和标注成本:利用AIGC技术可以快速生成大量高质量的数据集,无需花费大量人力和时间去采集和标注真实世界数据。
提高数据质量和多样性:利用AIGC技术可以精确控制数据集的分布和特征,避免真实世界数据存在的噪声和偏差,并且可以生成难以获取或缺乏的数据类型。
保障数据隐私和安全:利用AIGC技术可以生成与真实世界数据无关联或低关联的数据集,避免泄露或滥用真实世界数据中包含的敏感或隐私信息。
合成数据在各个行业都有广泛的应用场景,如医疗影像诊断、自动驾驶模拟训练、金融风控模型验证等。未来,合成数据将成为AI模型训练开发的强大助推器,推动实现AI 2.0。
– 在社会价值领域,AIGC将为教育、医疗、公益等领域带来积极影响,提升社会福祉水平。例如:
教育:AIGC技术可以为教育领域提供智能教学辅助工具,如智能教材生成、智能习题生成、智能评估反馈等,并提供个性化学习路径和内容推荐,提高教育质量和效果。
医疗:AIGC技术可以为医疗领域提供智能医疗辅助工具,如智能诊断报告生成、智能药物设计生成、智能康复方案生成等,并提供个性化医疗服务和内容推荐,提高医疗水平和效率。
公益:AIGC技术可以为公益领域提供智能公益辅助工具,如智能捐赠建议生成、智能志愿活动生成、智能公益报道生成等,并提供个性化公益服务和内容推荐,提高公益参与度和影响力。
请到「后台-用户-个人资料」中填写个人说明。
© 2024. All Rights Reserved. 冀ICP备2023032251号