“大数据时代,朋友近在咫尺”

2017-02-27

  —基于用户相似计算的好友及位置推荐方法研究

  重庆市巴蜀中学校 曹瑛典

  指导教师 张荣庆 费春斌

  来源:全国青少年科技创新大赛获奖作品展播

  现有的社交交友软件虽然提供了好友和位置推荐服务,但一般是通过单一地使用用户地理位置或用户网络行为,其推荐的好友往往并没有共同的兴趣爱好,在现实生活中没有交集,因此,我们拟采用用户历史位置数据结合词频逆文本频率(TF-IDF)算法来计算用户的相似度,发现用户的兴趣,并实现好友及位置推荐,能大大提高社交交友软件的推荐准确性。

  我们实现精确好友推荐的过程分为以下4步:

  1. 挖掘用户停留位置:从位置大数据中的原始位置数据挖掘用户经常活动的范围,清洗原始数据集中的无效数据,并从停留区域中挖掘出用户的停留位置,以此与用户挂链,为相似用户计算提供数据源。

  2. 计算相似用户:计算停留位置对用户的重要性,并将结果绑定至每一位用户。然后通过将该重要性权值带入余弦定理公式计算用户之间的相似夹角,以此作为相似性计算结果。

  3. 提取用户兴趣位置:将原始的GPS数据映射为现实生活中有语义的地理位置,并通过计算对停留位置的访问频率提取用户感兴趣的位置,为用户位置推荐提供数据源。

  4. 推荐好友及位置:从前三步得到的相似用户列表和用户兴趣位置列表选取符合条件的结果为用户进行好友和位置推荐。

  我们的实验数据来自微软亚洲研究院的GeoLife项目,该项目历经5年时间采集了182名志愿者的GPS位置数据,每隔1~5秒或5~10米记录一次用户的GPS坐标点,共产生了2400多万条记录。这些记录包括了用户从住宅到公司的活动,以及日常的休闲娱乐活动,例如购物、观光、远足、聚餐、骑行等。记录的地理位置覆盖了中国30多个城市以及欧美的一些城市,其中大部分位置的GPS坐标都在北京附近。我们从微软的数据集中选取了记录条数在9万~50万的三个用户,将其GPS位置数据在地图上进行了可视化,挖掘出他们的停留位置。将所有用户的停留位置中心标准化处理(合并停留位置以减少重叠的停留位置,可以更精确地代表其特定区域范围)后,计算出每个用户停留位置中心的TF-IDF值,并根据这个值建立其TF-IDF向量列表,最后通过余弦定理计算用户之间的相似性。用户之间的相似值越大,他们的相似性越高,他们拥有相同兴趣爱好的可能性越大,越值得好友推荐。我们通过实验分析证明了好友和位置推荐框架的精准和有效。

责任编辑:zhengmh

科普中国APP 科普中国微信 科普中国微博
是中国科协为深入推进科普信息化建设而塑造的全新品牌,旨在以科普内容建设为重点,充分依托现有的传播渠道和平台,使科普信息化建设与传统科普深度融合,以公众关注度作为项目精准评估的标准,提升国家科普公共服务水平。

猜你喜欢