拣阅一:缘由和系统设计

个人平时比較喜欢看些新闻资讯,比方科技类的huxiu, 36kr,体育新闻等,对相关的APP也实用到。今日头条做的非常不错。周围非常多人在用,可是在用了一段时间之后发现非常多APP都有下面特点:

1. 信息多并且杂,即使我仅仅订阅或者关注了某些类别,推送的消息首先是太多其次是不相关。

太多的信息我消费不了。不相关的信息我比較反感。

2. 如今的APP号称能够进行精准和个性化的推荐,头条做的还行。可是感觉不能及时的捕捉用户的兴趣变化,推荐的结果变化也小, 惊喜度不够。

3. 聚合类的新闻资讯有非常多反复性的内容,并且非常多仅仅是简单的抓取和展现,对阅读的方式和体验都没有太大改善。

以上大概是用过之后感觉有些不便的地方,之前做过一段时间的推荐和文本处理相关的事情,加上自己有些想法,就想实现一个简单的系统。拿自己做个试验试试,也好验证下自己的想法。针对以上问题,个人的想法是1. 每天给用户展现一定数量的有价值的新闻,即限制推送给用户新闻的数量,相关性方面须要针对用户的特征建模,预期效果不太明显,仅仅能通过一些策略来控制。比方最热和相关结合,某个事件或者某个类别展现一条新闻等策略实现。

2. 针对用户的行为及时更新用户的特征权重,及让变化更实时一点。

3.
非常多人看文章仅仅是看文章的大意。非常少通读全文的。假设能对文章进行摘要。对APP类的应该会比較好,可是如今对中文貌似没有好的摘要方法。仅仅能不断的进行尝试改进,我会用之前文章介绍的摘要算法进行实验。结合中文的词法和语义做些尝试。

以上纯粹是个人的观点和看法,肯定有不妥的地方,这方面有想法的能够在一起交流下。

眼下开发工作已经进行了一些,之前一直用java来做web相关的服务和设计,奈何一般的云server跑java的话费用较高。故採用了python来进行相关的开发工作。系统的简单设计例如以下:

系统主要分为OnLine Service, OffLine Service, 当中OnLine 部分主要进行下面操作:

a).  Fetcher利用UA和PA来获取推荐展示的新闻数据,首先会向redis请求相关数据计算。然后到MySql获取数据,眼下假定MySql能够满足一定量的并发请求。以后能够考虑依照数据类型在MySql前面再加一层缓存。

b). Updater主要是依据用户行为来更新缓存中的UA权重,这样下次就能够依据用户的最新行为进行推荐展示。

OffLine部分主要负责的是线下逻辑的处理,主要包含对抓取数据的清洗、特征提取、摘要、入库等操作,为了解耦,利用MQ来存储抓取的数据。

眼下採用的方式是tornado 框架来提供web服务,redis作为缓存存储数据。mysql作为底层数据存储, rabbitmq 来作为消息队列,jieba分词器来进行中文分词。redis + mysql 眼下已经实现。web主要剩下页面的设计和实现,特征提取和摘要正在进行。因为事情比較多,可能最后实现的跟文章中说的会有非常大差别,接下来会讲部分想法的实现过程和效果。 详细取决于进度和工作了。假设有兴趣能够一起交流。

时间: 2024-10-18 01:22:32

拣阅一:缘由和系统设计的相关文章

笠翁对韵(全卷,珍藏版附注释)

笠翁对韵(全卷,珍藏版附注释) 诗歌与悦读 2016-10-21 <笠翁对韵>作者:李渔(1611-1680年),原名仙侣,号天征,后改名渔,字笠翁,一字笠鸿.谪凡,他仿照<声律启蒙>写的旨在作诗的韵书因此叫<笠翁对韵>. 卷一 一 东 天对地,雨对风.大陆对长空.山花对海树,赤日对苍穹.雷隐隐,雾蒙蒙.日下对天中.风高秋月白,雨霁晚霞红.牛女二星河左右,参商两曜斗西东.十月塞边,飒飒寒霜惊戍旅:三冬江上,漫漫朔雪冷渔翁. <左传?昭元年>载,传说高辛氏有二

基于51单片机简易操作系统设计

前言 看了很久的操作系统原理,ucos源码也看了大半,但是感觉总是懵懵懂懂,用句流行的网络用语就是始终上不了车,后来在网上被人推荐了一篇文章<建立一个属于自己的操作系统>,这篇文章真的非常好,也附有源码,但不知道是不是我找的文章有差错还是啥,我根据文章提供的源码贴代码,根本无法编译,然后开始读代码修改代码最后成功编译但是在硬件平台运行根本不行.后来又断断续续看ucos源码,反正各种什么数据结构啊的通信什么的让人头痛,后来大学的单片机原理完课,学校安排课设,我选了时钟定时器(有点像闹钟),这种开

基于j2ee的信箱与短信系统设计与实现

摘    要 当前,信箱与短信系统己经成为对外信息公开.受理公众投诉.咨询和政民互动的主要渠道之一.传统的信箱与短信系统受理时间长.效率低.渠道单一,同时受人为影响较大,督促较为困难. 随着科学技术的发展,计算机网络技术在行业应用的普及,应用现代信息技术在市长信箱与短信系统展现出了越来越多的优势.木文基于贵州某市的实际需求,完成了市长信箱与短信系统的分析和设计. 本文完成了一个基于B/S架构.以J2EE技术和SQLServer后台数据库为基础的.具备多渠道受理.后台统一管理.标准化.流程化.大量

《基于遗传算法的自动组卷系统设计与实现 》17

一.基本信息 标题:<基于遗传算法的自动组卷系统设计与实现 > 时间:2016 来源:西北农林科技大学 关键字:自动组卷:遗传算法:早熟:收敛 二.研究内容 问题定义:针对传统的组卷算法组卷速度慢.成功率较低.试卷质量不高的问题,本文提出结合BP算法对遗传算法中遗传因子进行学习训练,提高染色体的适应度,采用目标试卷的题数进行实数编码替代传统的二进制编码方式,对染色体长度进行优化,解决传统遗传算法出现早熟.收敛慢的现象.利用优化的遗传算法设计并实现一个自动组卷系统. 三.流程图 四.总结 通过阅

系统设计原则

以技术先进.系统实用.结构合理.产品主流.低成本.低维护量作为基本建设原则,规划系统的整体构架. 先进性: 在产品设计上,整个系统软硬件设备的设计符合高新技术的潮流,媒体数字化.压缩.解压.传输等关键设备均处于国际领先的技术水平.在满足现期功能的前提下,系统设计具有前瞻性,在今后较长时间内保持一定的技术先进性. 安全性: 系统采取全面的安全保护措施,具有防病毒感染.防黑客攻击措施,同时在防雷击.过载.断电和人为破坏方面进行加强,具有高度的安全性和保密性.对接入系统的设备和用户,进行严格的接入认证

面向数据可靠性存储系统设计思想探讨

存储系统的设计门槛是比较高的,和计算系统存在的最大区别在于存储系统所承载的是数据,一旦系统出现故障,不仅业务的连续性得不到保障,更为重要的是用户数据将会造成丢失.计算节点发生故障,最多造成业务连续性中断,这是与存储系统相比在可靠性要求方面最大的区别. 十几年前刚刚接触存储系统的研发,当时没有觉得存储有多复杂,不就是把数据按照一定规则存放在磁盘中,并且实现一定的功能,例如数据保护RAID.数据复制Replication.数据快照Snapshot以及文件系统嘛.感觉存储系统中最复杂的是各种功能,设计

Super超级ERP系统---(9)订单管理--订单拣货

订单审核完成后,库房就可以开始备货,安排相应的人员去拣货了.订单拣货主要分为一次分拣和二次分拣,这里我们先看下一次分拣的流程.一次分拣就是根据订单去拣货,可以简单的理解为拿着一个订单,推着购物车,把当前订单放到购物车里面,这样就保证一个购物车只包含一个订单的商品.订单拣货首先要进行订单打印,然后分配给库房工作人员利用手持PDA进行拣货. 1.订单打印 订单打印界面列出需要拣货的订单,点击打印按钮进行打印 2.订单拣货         订单打印完成后,库内操作人员拿着手持PDA去拣货.把已经拣完的

系统设计的三员管理

一.“三员”职责 系统管理员:主要负责系统的日常运行维护工作.包括网络设备.安全保密产品.服务器和用户终端.操作系统数据库.涉密业务系统的安装.配置.升级.维护.运行管理:网络和系统的用户增加或删除:网络和系统的数据备份.运行日志审查和运行情况监控:应急条件下的安全恢复. 安全保密管理员:主要负责系统的日常安全保密管理工作.包括网络和系统用户权限的授予与撤销:用户操作行为的安全设计:安全保密设备管理:系统安全事件的审计.分析和处理:应急条件下的安全恢复. 安全审计员:主要负责对系统管理员和安全保

SoC嵌入式软件架构设计之七:嵌入式系统固件的系统区文件系统设计

嵌入式固件的系统区(system disk,SD)包括操作系统.驱动.中间件.应用和字库.UI资源等文件,本文讲述SD区的文件系统设计.文件系统最主要的目标是为了实现单个文件的定位和读写.因为一般代码都是不可自修改的,即量产之后不会有写操作,嵌入式系统的SD文件系统就是为了能够简单.高效地定位某个文件和读取文件中的数据.设计原则和要点有以下几方面: 1. 逻辑连续存储单个文件,以扇区对齐. SD区的单个代码和资源文件一般都不大,所以不必要像fat32文件系统那样用fat表把文件簇串起来,直接逻辑