安全公司报告
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210890426.3 (22)申请日 2022.07.27 (71)申请人 上海数鸣人工智能科技有限公司 地址 200436 上海市 静安区万 荣路1256、 1258号406室 (72)发明人 项亮 方同星  (74)专利代理 机构 上海天辰知识产权代理事务 所(特殊普通 合伙) 31275 专利代理师 陶金龙 尹一凡 (51)Int.Cl. G06Q 30/02(2012.01) G06K 9/62(2022.01) G06N 20/00(2019.01) G06N 3/08(2006.01) (54)发明名称 一种基于召回-排序思想的针对互联网点击 率的预测方法 (57)摘要 一种基于召回 ‑排序思想的针对广告点击率 的预测方法, 其包括数据预处理步骤S1、 训练集 的生成步骤S2和所述模型训练与模型建立步骤 S3; 显著提升了对用户点击行为预测的准确性。 也就是说, 本发 明通过设计不同的特征工程及算 法对用户点击率预估进行两阶段建模, 在节约成 本的前提下提高预测效果, 即得到最终的预测用 户点击的二分类学习器 。 权利要求书2页 说明书7页 附图4页 CN 115293801 A 2022.11.04 CN 115293801 A 1.一种基于召回 ‑排序思想的针对广告点击率的预测方法, 其特征在于, 包括数据 预处 理步骤S1、 训练集的生成步骤S2和所述模型训练与模型建立 步骤S3; 所述数据预处 理步骤S1包括如下步骤: 步骤S11: 获取N个用户的原始信息, 并从所述用户的原始信息提取原始特征信息; 其 中, 所述原始特征信息包括用户ID、 用户所在省份、 用户所在城市、 用户访问DPI、 用户访问 时间、 设备类型和 /或用户是否点击特征; 其中, 所述用户所在省份、 用户所在城市、 和用户 访问DPI为类别特 征, 所述用户访问时间为连续特 征, 所述N大于等于2; 步骤S12: 对所述用户的原 始特征信息进行异常检测与处 理步骤; 步骤S13: 通过独热编码对类别特征进行处理, 根据业务需求及求解模型选择进行归一 化后梯度下降处 理, 或利用Ran kGauss方法对连续特 征进行调整样本分布处 理; 所述训练集的生成步骤S2包括: S21: 对所述用户的原 始信息进行 特征筛选和特征构造, 以形成新的特 征; S22: 对于机器学习算法模型, 将连续特 征根据多个阈值 来进行离 散化; 所述模型训练与模型建立 步骤S3包括: 步骤S31: 使用用户建模数据的所有类别特征, 以是否点击作为训练标签, 建立逻辑回 归模型, 并得到每 个训练样本是否点击的输出概 率; 步骤S32, 对训练数据中用户的逻辑回归模型输出概率进行降序排序, 将概率最低的若 干比例的用户直接 筛除, 保留筛除后的用户; 步骤S33: 对于经过上述步骤中筛 除剩余的用户, 使用连续特征作为数据, 是否点击广 告作为标签来建立梯度提升决策树模型。 2.根据权利要求1所述的预测方法, 其特征在于, 所述步骤S22建立梯度提升决策树模 型的实现方式包括XGBo ost或lightGBM。 3.根据权利要求1所述的预测方法, 其特征在于, 所述步骤S22中的机器学习算法包括 逻辑回归或前馈神经网络 。 4.根据权利要求1所述的预测方法, 其特 征在于, 还 包括预测步骤S4, 其具体包括: 步骤S41: 获取拟对营销活动点击预测的用户群体和所述用户群体的用户原始信息, 并 从所述用户原始信息提取原始特征信息; 其中, 所述原始特征信息包括用户ID、 用户所在省 份、 用户所在城市、 用户访问DPI、 用户访问时间、 设备类型和 /或用户是否点击特征; 其中, 所述用户所在省份、 用户所在城市、 和用户访问DPI为类别 特征, 所述用户访问时间为连续 特征, 所述N大于等于2; 步骤S42: 对每一个所述用户的原始信息进行异常检测与处理步骤; 通过独热编码对类 别特征进行处理, 根据业务需求及求解模型选择进行归一化后梯度下降处理, 或利用 RankGauss方法对连续特 征进行调整样本分布处 理; 步骤S43: 对所述用户的原始信息进行特征筛选和特征构造, 以形成新的特征; 对于机 器学习算法的模型将连续特 征根据多个阈值 来进行离 散化; 步骤S44: 提供建立训练好的梯度提升决策树模型, 依次使用从所述用户原始信息提取 原始特征信, 得到拟对营销活动点击预测的用户群体中所有 所述用户的预测值; 其中, 所述 用户的模型 预测值为所述用户的点击意愿度。 5.根据权利要求 4所述的预测方法, 其特 征在于, 所述模型 预测步骤S4还 包括:权 利 要 求 书 1/2 页 2 CN 115293801 A 2步骤S45: 根据实际投放需求, 选择全部或部分所述用户的模型预测值集中点击意愿度 为1的用户进行精准营销的任务。权 利 要 求 书 2/2 页 3 CN 115293801 A 3

.PDF文档 专利 一种基于召回-排序思想的针对互联网点击率的预测方法

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于召回-排序思想的针对互联网点击率的预测方法 第 1 页 专利 一种基于召回-排序思想的针对互联网点击率的预测方法 第 2 页 专利 一种基于召回-排序思想的针对互联网点击率的预测方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 06:27:22上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。