原理
数据库的一致性
1.事务和代办事项表把戏(预写日志记录)
1.代办事项表把戏:先把要执行的的操作写入硬件,即写日志。即使数据库操作错误,也可根据日志来纠正。对日志的操作具有等幂性,即日志中的每项操作不管执行一次或多次,都会有相同的效果。
2.事务:以事务作为一个整体,要么全部完成,要么中途失败则根据日志取消之前的操作(即逆向操作,之前加,现在就减),使数据库回到事务之前的状态(回滚事务)。即事务具备原子性,不可分割,避免出现事务中有些执行了,有些没执行的情况。
2.预备提交把戏(两段提交协议)
1.在有复制数据库时,对于主数据库的将要执行的事务,预备阶段:先由主数据库锁定对应数据行,将新数据写入预写日志,然后将新数据发给各备份数据库,各备份数据库也锁定对应数据行,在日志中写入新数据。第二阶段:各备份数据库返回是否执行成功,任何一个失败,都会让主数据库回滚事务,同时通知其他个备份数据库回滚,否则主数据会发信息让各数据库执行事务。
3.关系数据库与虚表把戏
1.原理:每张表都存储不同的信息集,但不同的表的个体通常以某种方式相连。即让用户把信息以表的形式保存,然后把表中重复的信息分离出去以新表放置,原表和新表通过各自保存的同一重复来匹配(类似于程序中把经常出现的代码分离出去做成函数或类),即用少量重复代替戴良重复,从而节省大量存储空间,而且也具备了一处改动到处收益的优点。
2.虚表把戏:查询时,先把用到的表通过各自保存的重复来匹配(即合并)从而形成一个用完即删的虚表,抛射操作来移除部分不必要的栏(如不是要展示的栏也不是作为查询条件的栏),接着根据查询条件选定部分行抛弃掉其他得到新的虚表,再把不是要展示的栏抛弃掉得到一张回答原始查询的虚表。
图像识别(即分类)
学习通过两种方式:1.他人的详尽教授 2.观看用来教授自己的例子 。第一种对于计算机难以实现,只能第二种。所以计算机学习的过程即是让计算机自动"学习"如何分类样本。基本策略是:给计算机大量标记数据(已分类的样本),让计算机找出各种类的特征,从而根据这些特征对未分类的样本分类。
原理:分类即为把待分类样本大概定位到某个学习样本上去
1.最近邻分类把戏
把要分类的样本和学习样例比较,最接近的样本的类别即是该样本的类别。
无需训练,并未知道分类规则,但分类需要大量实现比对
情况:1.若是地理位置,则是距离待分类样本最近的一个或k个学习样本
2.若是图像,则为与待分类样本区别度最小的学习样本
2.决策树
即使用二分法,通过合适的条件,最终把待分类样本定位到某个学习样本上。而这些问题由计算机通过学习样本训练得出,经过了不断的优化。
需训练,但得出了分类规则,分类时间极短
3.神经网络
事物的决策即是根据各种条件综合得出结论的过程,结论取决于各条件(即变量)
实际中个变量的结论的影响不仅相同,而且很多条件会共同对结论做出影响,需综合起来看,符合这些条件的模型只有神经网络。如对结论的影响是必须综合起来的指向同一神经元(得出该部分变量所占综合权重的节点,之后该节点代表该部分节点去和其他综合计算的模型),然后把带分析样本分块,每块根据神经网络得出最终权值,从而得出结论。
训练过程,先随机预设网络和个节点的权重值,在用实习样本来测试,然后调整网络和权值来使结果接近样本应该的结论,当学习用例足够多,神经网络得到足够的调整,那么神经网络对样本的分类就越准确 。
问题:即使准确度足够高,神经网络部分节点看起来仍似随机的,然而就像神经元的绝大部分连接看起来很随机,但作为整体行动时,这些连接强度松散的集合产生了人类的智能行为。