欢迎来到皮具批发市场行业网!
loading
立即发布信息
    皮具批发市场行业网 > 热点资讯 > 其他资讯 >  AIGC 赋能展示广告:大模型在小红书标题生成中的深度实践 李诞、刘畊宏在淘宝直播水土不服|刘耕宏|小红书|直播间|vivi

    AIGC 赋能展示广告:大模型在小红书标题生成中的深度实践 李诞、刘畊宏在淘宝直播水土不服|刘耕宏|小红书|直播间|vivi

    时间:2024-09-29 15:03:20  编辑:  来源:网络收集,如有侵权请联系邮箱:196594267@qq.com 删除  浏览:1次   【】【】【网站投稿

    AIGC 赋能展示广告:大模型在小红书标题生成中的深度实践 李诞、刘畊宏在淘宝直播水土不服|刘耕宏|小红书|直播间|vivi 

    AIGC 赋能展示广告:大模型在小红书标题生成中的深度实践

    01前言

    这就是素材

    先让我们带着全局大图去感受下素材

    提到广告业务就离不开一个关键词 —— IAA (In-app Ads):平台一手向c端用户提供免费的服务,一只手向 b 端客户(广告主)售卖广告资源位,撮合用户和客户,赚些居间费,然后就可以用赚来的钱为用户提供更好更多的免费服务。如是,广告业务是 b 端客户、平台、c 端用户的三方博弈场,如何让这个游戏可持续发展?短期看金主爸爸(广告主)的投流 ROI,中期看用户体验,长期看社区调性,这时候素材显得格外重要(毕竟,广告主的投流表达手段就是出价、定向、素材的三板斧):广告主向素材要效率,平台向素材要质量,用户用脚投票。

    素材能给广告主带来什么?

    举个例子,某一天收到一条拙劣诈骗短信“我是秦始皇,V我50”,我们会觉得不可思议:“现在的骗子怎么那么蠢!”,恭喜你,骗子眼中,你是个聪明人。越是拙劣的话术,越能过滤掉那些精明、麻烦的用户,广告里面把这个现象称作素材即定向。广告主追求投流 ROI,自然就有了动力制作一批让聪明人厌恶的素材,毕竟,维护这些人的体验感觉,对他好像也没有收益。

    素材能给用户带来什么?

    用户最初的目的就是来享受免费服务的,自然不愿被广告打扰,但是,最近恰巧想去散散心,你推给了他一个精品团,抑或是,广告告诉他现在年轻人都去看非洲大迁徙,他也觉得很有道理。满足或者激发一个需求,广告就不再是种打扰,似乎成了一种异样的免费服务,毕竟,免费得到了最新的流行趋势。

    素材能给平台带来什么?

    恰到好处的素材,大家其乐融融,用户抵触的素材,是会把用户推开的。卖广告主造血养活平台 和 留住用户才能有广告主,两者的因果关系有点鸡和蛋的意味。平台追求一个符合社区调性的素材,直觉上总没有错。好素材带给平台繁荣,坏的素材只会带来麻烦,不能 balance 商业效率和社区调性的素材,都应该是坏家伙。

    行业的素材实践

    先给两个结论:

    素材的制作成本是投放生产中的大头(相比于友商,我们小红书更注重社区的调性,广告主的素材成本会更高)

    广告主追求确定性的投流实践

    不同媒体的调性是不同的,一套素材吃天下几乎不可能,目前的素材制作模式(自制 or 代理):idea - 脚本 - 拍摄 - 领域专家人工介入 - 在线投放,显然,拍摄成本付出之后,才能有一定的判断结论,这时候,素材制作的成本已经付出。

    制作好的素材要更高的成本

    回到“如何让这个游戏可持续发展”的命题,等于在回答如何平衡商业效率和社区调性!答案也呼之欲出:“好的”素材的制作。生产实践中,素材是有成本的:制作成本 + 投流试错。至此,AIGC 的效率革命,是一个不错的实践选择。

    02行业内 AIGC 的实践

    先给几个 case

    某代理商把素材制作的流程优化,通过 AIGC 的能力把专家介入时机提前:idea - 脚本 - AIGC生成 - 领域专家人工介入 - 拍摄 - 在线投放

    某代理商在标题中使用关键词,将关键词自然融入标题且能够合理分布,以提高在搜索结果中的排名

    某平台推出 AIGC 离线工具 + 在线组合优选的组合拳

    某平台 spu 到素材的生成

    某平台通过模糊素材内容,达到防爬&站外引流的业务目标

    多模态特征级联到在线模型

    归纳下收益路径

    解决 0 - 1 投放问题:通过素材生产带来预算和场域之间的互通,进一步提升消耗,收益来源是引入预算,增加竞价密度,本质是放开约束

    堆供给提升匹配效率:通过素材生产提升物料供给,带来消耗提升,收益来源是匹配效率的提升,本质是约束下堆多样性

    提供工具赋能 b 端:辅助广告主提升创编效率

    (【Tips】各家平台都在回答一个问题:平台做素材的优势在哪!)

    技术视角总结下实践挑战

    生产范式的幻觉挑战(一致性):广告是一种商业行为,宝马的广告生成出一个奔驰的标题,显然是 0 容忍的红线事件

    通用大模型到行业的适配性:营销感 vs 社区调性

    多样性:在有限的广告内容中尽可能挖掘多样的标题,提高投放匹配效率

    03我们的 AIGC 实践

    开局一张图,一致性、调性、多样性最关键:

    一致性:可控生成 + 可用性RM

    调性:领域预训练 + SFT

    多样性:人群/笔记分层 + 可控生成 + 吸引力RM

    业务建模

    面向业务的可控生成

    通用的生成一般是引入随机性生成多标题,但是我们的业务场景下,需要调和生成的随机性和业务的确定性,因此,我们实践:

    训练:基于自动标注(Auto-Labeling) -SFT(Supervised Fine-Tuning) 架构的可控生成训练范式

    推理:构造一个级联框架,输入笔记,依次输出推广对象 + 标题

    基座模型的领域预训练

    为了让基座模型适应小红书的领域特点,我们清洗得到亿级别笔记数据,并混合一定比例通用语料,对基座模型开展小红书领域继续预训练。而在模型选型上,我们从幻觉程度、标题吸引力两个方面进行评判,发现模型量级越大效果越好,结合线上部署推理成本,选用了 10B 量级模型。实验显示经过领域预训练,生成标题在相关性、幻觉抑制方面均得到提升。

    基于大模型的自动标注

    结合业务场景,我们考虑笔记、人群、标题风格三个可控生成维度,而难点在于如何获得训练数据。我们的做法是广泛利用合成数据,借助通用大模型的能力为笔记抽取推广对象,并标注笔记分层、人群分层以及标题风格,获得了笔记在不同卖点/人群下的关键词数据。为拿到对应标题,也进一步训练了关键词感知生成模型和风格感知生成模型,来分别产出笔记在各笔记/人群分层、各风格词下的标题。

    关键词感知生成模型训练

    训练目标是能根据给定关键词生成标题。为了解决训练数据匮乏的问题,我们首先用笔记原生标题训练小红书领域预训练模型,通过随机采样为每个笔记生成多个标题。然后利用通用大模型给标题抽取关键词,从而为每个笔记获得多组 <笔记 + 关键词, 标题> pair 数据,最后训练得到关键词感知生成模型。

    风格感知生成模型训练

    训练目标是能生成给定风格的标题。我们利用大模型自动标注的标题风格数据,获得 <笔记 + 风格, 标题> pair 数据,进而训练得到风格感知生成模型。

    端到端联合 SFT & 推理

    为了让一个模型实现上述可控生成能力,我们将大模型标注的推广对象、笔记/人群分层,以及各分层下的受控生成标题整合为一个 label,对小红书领域预训练模型建立端到端微调任务。推理阶段输入笔记,即可依次输出推广对象和多种生成标题。

    生产方案

    实际生产中,我们落地可控生成 + RM(Reward Model)的技术选型,通过 RM 对生成结果质量检测,进一步保障生成标题的可控性。

    RM (Reward Model)

    RM 即反馈模型,其作用在于为生成模型的结果进行质量检测,以作进一步处理或优化。在我们的实践中主要涉及可用性RM和吸引力RM.

    可用性RM

    目标是避免出现不通顺、实体不一致、幻觉case。通过人工标注收集了高质量的正样本和负样本,在此基础上,又通过数据增强手段构造了一些负样本,比如“复读机”、语句不通顺等。实验发现领域预训练和数据增强均给模型性能带来了明显提升。

    吸引力RM

    目标是预估生成标题吸引力。通过人工标注收集了标题吸引力的排序数据,使用小红书领域预训练模型作为编码器得到文本向量,采用 pair-wise loss 训练,实验结果显示可以很好地学习到人工排序。

    业务应用

    一致性:商业活动的确定性保障

    紧扣素材即定向的逻辑

    生成标题对营销目标拟合是业务的基本诉求:给一位五个孩子的幸福妈妈推销草坪婚礼,广告语怎么说好像都有些不妥

    生成标题和营销主体的一致性则是产品的生命线

    实践中,我们以可控生成训练 + 可用性RM的技术路线取得了一定的结果:

    可控生成训练

    在可控生成过程中,我们借助少样本学习,通过大模型为笔记生成合适的受众群体,进而在各群体下展开多个关键词,来控制生成多种标题。

    可用性RM

    在优化过程中结合业务红线标准,针对性地通过人工标注以及数据增强等手段获得高质量数据,有效过滤了语句不通顺、实体不一致、幻觉等case,大幅降低线上风险。

    调性:和社区不割裂的广告标题

    小红书笔记的标题生动有趣,但是标题越亮眼,技术越头痛:在普世视角下,标题和正文语义 gap 越大,标题越亮眼!

    举个例子:

    通用大模型很难通过正文推断出标题:因为标题包含了正文不存在的信息(是不是有独特内核的社区,都是有着大家心照不宣的默契),这种非对称的标题正文,离开小红书,确实是一个特立独行的存在,为了让模型适应小红书的领域特点,我们进行了如下工作:

    预训练:使用亿级别的笔记数据以及通用语料对基座模型做了领域预训练

    基于用户行为 SFT:高质量笔记标题数据,对小红书领域预训练模型进行 SFT

    多样性:千人千面的基石

    社区内的笔记原生数据都是一篇笔记一个标题,也就是说,社区没有多标题的数据让我们来建模!如何获得符合社区调性的多样化数据是需要解决的问题,对此我们的做法是深度利用大模型能力,使用合成数据。

    阶段一:采用采样生成,得到一对多标题

    阶段二:考虑到阶段一要满足多样性的目标,需要生成大量的数据

    分层 + 可控生成,业务上实现有向生成,大大降低了生成成本

    风格 + 可控生成:基于专家经验归纳了以下五种标题风格 显式、隐式、疑问、夸张、幽默

    通过人工标注,获得标题排序数据,构建吸引力RM,逐层寻优,进一步提升效率

    整体方案&评估

    多样性评估

    评估方式

    基线模型(baseline)基于原始笔记和标题数据进行训练,通过随机采样方法生成多个标题

    实验模型在每个笔记上平均生成 12 个标题。为了确保评估的公平性,基线模型也生成了相同数量的标题

    指标说明

    评估结果

    一致性评估

    评估方式:

    人工 GSB 评估

    评估量级:200篇笔记

    评估结果

    模型结果对比

    04总结&展望

    在本次 AIGC 实践中,我们通过小红书领域预训练得到了可靠的基底模型,广泛应用合成数据来解决数据资源匮乏的问题,通过可控生成 + RM 的方式取得了多样性和质量双赢的结果。在未来,我们将探索多模态特征和偏好学习在展示广告中的应用,继续提升效果的同时将模型小型化,并研究更高效的生产范式。

    05作者简介

    服部

    小红书大模型算法工程师,现主要负责广告创意生成、多模态大模型等领域的相关研究和应用。

    特图

    小红书基础模型方向负责人,现主要负责多模态大模型x内容分发技术的研究及应用。

    圆德

    小红书广告算法工程师,现负责小红书展示广告创意相关工作。

    疾速

    小红书广告算法工程师,现负责小红书展示广告体验相关工作。

    莱欧

    小红书展示广告流量策略负责人,现负责小红书展示广告流量策略方向。


    李诞、刘畊宏在淘宝直播水土不服|刘耕宏|小红书|直播间|vivi

    那些在淘宝直播短暂停留的主播们

    淘宝进行了超两年的“抢人”行动,似乎进展的不太顺利。

    当初,薇娅、雪梨、林珊珊等淘宝主播因税务问题被罚,淘宝直播一时之间失去几员猛将,淘宝主播也呈现出了后继无人的状态,急需挖掘新人。

    随后,淘宝试图用“真金白银激励+流量补充加码”,挖来其他平台的成熟主播,尤其是抖音上的主播,李诞就是其中的一位。

    2022年,李诞从抖音转战到淘宝直播间。当时淘宝粉丝还不到100万的李诞,在当年双十二的淘宝首播中,创造了超3200万的带货额,也算是一战成名。创造佳绩后,李诞也曾表示过要在淘宝直播长期开播。

    去年至今,李诞在淘宝的账号“来个彩诞”直播20场次。只是,李诞本人露脸直播的场数屈指可数,直播回放也很少。

    近期,李诞却以小红书带货一哥的身份走红网络,几乎次次直播都能登上小红书的买手榜第一,而且是断崖式领先。

    可是,李诞明明是淘宝挖来的主播,现在怎么摇身一变成为了小红书带货一哥。

    原来,李诞在淘宝的最后一场直播停留在了今年的4月30日。两年过去了,李诞淘宝账号的粉丝数竟然也还没有过百万。

    图源:淘宝

    很明显,李诞再一次转换直播阵地,从抖音到淘宝,再从淘宝到小红书。看来,淘宝直播没能长期留住李诞。

    李诞的出走,并不是淘宝主播中的个例。2022年,刘畊宏和其妻子vivi因为健身运动在抖音爆火,粉丝数一路狂飙至7000万+,成为抖音TOP级达人。

    刘畊宏的爆火,自然引起了当时抖音急于挖人的淘宝的注意。淘宝也确实成功挖到了人,刘畊宏及其妻子vivi在当年的10月31日双11开卖日首播。当时阵仗是搞的挺大的,但是效果难尽人意。

    目前,刘畊宏已经放弃了淘宝直播。在淘宝上,已经搜索不到“vivi肥油咔咔掉”这个直播间。同时,刘畊宏回到了抖音直播间,账号粉丝有六千多万,并保持着每周三场直播的频率。

    图源:抖音

    以现状来看,只有罗永浩交个朋友的直播间在淘宝的直播效果是比较好的。并且,现在也是每天都还在直播,虽说罗永浩本人不一定会到场。

    目前,很多从抖音入淘的主播,已经处于长期停播的状态,有些甚至是已经退出了淘宝直播,转战其他平台。

    图源:远川研究所

    其实,淘宝为了挖掘“淘外主播”,先后推出过新领航计划、引光者联盟、源力计划等政策,并优化了流量算法逻辑,将分发逻辑从成交为主调整为成交+内容双指标,加快“抢人”动作。

    时任淘宝直播新生态事业线负责人虚罗也说过:“你们能想到的,我们基本上都聊过。”人是抢过来了,但是淘宝没能把人留住。

    并且,这些被挖掘过来的主播,似乎也没有真正冒出头的。现在的淘宝直播,还是李佳琦一家独大。

    淘宝为什么留不住主播

    淘宝作为直播电商的鼻祖,近些年来的发展似乎稍显吃力。

    淘宝直播主要依托的是淘宝这一成熟的电商平台,核心在于电商功能而非娱乐。这也意味着,用户访问淘宝的直接目的是购物。

    因此,淘宝直播的内容就更侧重于商品的展示和销售,这也体现在主播的直播带货的方式上。

    而其他的短视频社交平台,注重娱乐和社交,内容生态发展的相对成熟。用户的需求多面向有趣的内容,这也意味着短视频平台的直播带货,内容会更丰富,形式也会更多样。

    因此,淘宝从其他平台挖来的主播,在淘宝直播时很可能会出现水土不服的情况。比如,今年淘宝从小红书挖来的章小蕙。

    图源:微博

    在小红书直播时,章小蕙主打舒适安静的风格,在直播中将产品的属性娓娓道来,选取的品牌也比较小众有特色。这种慢节奏的叙事风格,和小红书上注重内容、寻求小众产品的用户相匹配。

    但是,来到淘宝直播后,其团队在直播间背景上直接配上了“玫瑰618专场”的大促标语。选品上,也增加了理肤泉B5面膜、雅诗兰黛智妍面霜等比较大众化的产品。

    很明显,购物目的比较强的淘宝用户,喜欢直奔主题,需要主播介绍产品,而不是和章小蕙进行深度交流。因此,很多淘宝用户会觉得章小蕙的直播节奏太慢,没有购物欲望。

    淘宝用户的这种态度的后果,显示在章小蕙的直播带货状况上。章小蕙在淘宝的首播,淘宝方面倾尽资源为其造势,淘宝用户对其也保有新鲜感。

    据界面报道,5月26日淘宝首场直播刚破1000w+观看量,单品销量最高为3000+。

    但是,到了7月13日的淘宝直播,章小蕙其直播数据显示,观看人数仅为万。这个数据,不仅和其首场淘宝直播有差距,和在小红书连续两场破亿成交额的成绩差距更大。出现这种问题,一部分原因是章小蕙的直播风格和淘宝用户的需求不搭。

    李诞现在在小红书带货的成功,其实也是他找到了自己的定位。在小红书上聊感情,和用户互动,是小红书用户所需要的。李诞的这种风格,在淘宝不一定有这么多的受众。

    此外,我们也可以发现,哪些自带流量的主播来到淘宝后,会有短暂的高光时刻。但是,后续的发展状态却是一路下滑。比如,东方甄选在入淘一个月后,场观就从1000多万下降到300多万。

    很大程度,是因为被挖来的主播在淘宝进行首播时,淘宝会给予大量流量和现金扶持。但是,这些扶持并不是持续的。程道放曾透露过,资金分配原则是动态平衡,“我们为增量付费,最终增量谁多就是谁”。

    这意味着,后续主播带不来流量、卖不上货,没有给淘宝直播带来增量,那么扶持力度也将会降低。这时候,主播就只能完全靠自己了。

    主播如何保持自己在淘宝直播中的热度,并且不断带来流量,这是一个难题。这其实暴露了淘宝的另一个不足,那就是没有生产流量的能力,也没有较好的内容生态来吸引更多的用户。

    像抖音、快手这种短视频社交平台,它们能源源不断的输出内容,以此吸引、留住用户,也能让平台产生更多的流量,以此反哺直播带货。

    曾经,李佳琦因为一句OMG在抖音爆火,两个月在抖音圈粉1300万,连带着淘宝直播涨粉100多万。

    图源:视频号

    连李佳琦这种头部主播,都需要到其他平台去“买流量”。那其他自身热度不足的主播,在淘宝的发展就更加没有优势了。

    哪些被淘宝挖来的主播,或许入淘时也带着期待。只是没有想到,最后是这种结局。为了寻求更好的发展,离开也不是什么奇怪的事情。

    淘宝直播面临挑战

    抖音、快手等电商平台的后来居上,让淘宝直播面临着挑战。

    细数各大平台上的当家主播,淘宝现在只有李佳琦一人,抖音不仅有小杨哥、董宇辉,还有一批蠢蠢欲动的腰部主播想要往前靠。

    快手的辛巴发挥一如既往的稳,现在辛巴的徒弟蛋蛋也闯了出来,小红书则有董洁、李诞等。

    对比下来,淘宝上的头部主播数量并不占优势。更关键的是,其他电商平台依靠着内容生态,能够保持较高的用户活跃度。现在,淘宝的内容生态建设还在不断发力追赶。

    百联咨询创始人庄帅预估现在淘宝直播的盘子还没到1万亿,而抖音电商GMV已经突破两万亿,快手电商也破1万亿了。

    行业竞争越来越激烈,淘宝直播的压力越来越大。在这种情况下,淘宝不能坐以待毙,也在努力推动淘宝直播往前走。

    淘宝也早已明确了“内容-直播-货架”的战略路线,内容化是淘宝2023年五大战略之一,并在2024年进一步加码。

    淘宝直播对流量分配机制进行了升级,从单一成交指标转向成交、内容双指标,这意味着优秀的内容创作者在淘宝生态中能够获得更多的曝光机会。

    今年,淘宝还面向企业家推出了一项直播全托管服务“勇往直前的CEO”,淘宝直播将提供从货盘到直播间运营的一站式“保姆”服务。旨在吸引更多的企业家到淘宝直播,为淘宝直播增添活力。

    面对挑战,淘宝直播不断做出调整和改变。相信在不久的将来,淘宝直播能探索出更适合自己的发展方式。

    作者 | 赵云合