推荐引擎

推荐引擎模块

  • 接收请求
  • 处理请求
  • 返回结果

制造结果集

格式:

  • UID: item_id, item_id, item_id
  • Item_id: item_id, item_id, item_id

制造日志

日志格式

  • cookie
  • uid
  • user agent
  • ip
  • video_id
  • topic
  • order_id
  • log_type:代表日志种类

日志种类

  • 点击
  • 播放
  • 点赞
  • 收藏
  • 付费观看
  • 站外分享
  • 评论

重定向营销

  • 电影重定向
  • 电影重定向
  • 文章重定向

处理日志

  • 处理点击日志
  • 处理播放日志
  • 处理点赞日志
  • 处理收藏日志
  • 处理付费观看日志
  • 处理站外分享日志
  • 处理评论日志

流式处理

  • 流式处理概念
  • 流式处理逻辑实现
  • 流式处理应用

打造你自己的流式处理系统

  • 设计场景和梳理需求
    • 例如视频网站场景
    • 例如在线阅读小说的场景
  • 制定流式处理规则
    • 点击流式处理机制
    • 收藏流式处理规则
  • 人工干预推荐结果
    • 编辑推荐

流式处理的优势

  • 低响应时延
  • 动态效果丰富
  • 用户体验效果好
  • 转化率高

流式处理的劣势

  • 资源消耗严重
  • 效果准确度有影响
  • 效果起伏大、分析原因难

实现流式处理

  • 内存更新方式
    • In Memory
    • map
    • list
  • 一致性哈希算法
    • 平衡性
    • 单调性
    • 分散性
    • 负载
  • 更新缓存机制

应用流式处理

  • 重定向
  • 类别关联
  • 同类目推荐
  • 人工干预推荐结果

推荐引擎中期实践

  • 同类目推荐
    • 处理日志
    • 保存日志处理结果,即进行日志打包,将该日志文件推送到文件服务器端
    • 服务器端加载日志结果,重新还原日志格式,即进行日志拆包
  • 关联类目推荐
    • 与同类目相比,区别是不仅仅保存同类的物品结果,相似类目的都保存下来
  • 一致性哈希适应
    • 分摊数据风险,最大限度防止数据丢失,提供最大的用户体验
  • 多线程内存更新
    • 利用全局锁实现,在读时不能写,在写时不能读就行
  • 人工干预推荐

三大推荐引擎

  • 电商推荐
  • 内容推荐
  • 社交推荐

内容推荐

  • 场景
    • 小说网站
    • 缺乏运营
  • 使用习惯
    • 重度用户
  • 搭建推 荐引擎

文章推荐引擎

  • 响应请求
  • 数据预处理
  • 生成索引
  • 加入引擎
  • 响应请求

数据准备

  • 构建小说
  • 存储到制定路径
  • 制定存储格式
  • 确保能够找到

Build Your Own Engine

  • 分词
  • 构建结果
  • 存储结果
  • 构建引擎
  • 产品上线

Real Time Ranking

  • 实时打分概念
  • 实现实时打分排序
    • 制定规则
    • 搭建软件环境
    • 设计数据流向链条
  • 混合算法推荐初试

实时排序是推荐系统的必然需要,采用实时或者近实时的方式获取每一个元素的排序依据,因为实时排序的结果将会主导用户再短期未来的行为。

可以缓解库存压力,少的排在后面,多的排在前面。

Note: Cover Picture