什么是NoSQL?
NoSQL(NoSQL = Not Only SQL), 意即 “不仅仅是SQL”, 是一项全新的数据库理念,泛指非关系型的数据库。
为什么需要NoSQL
随着互联网web2.0网站的兴起,非关系型的数据库现在成了 一个极其热门的新领域,非关系数据库产品的发展非常迅速。 而传统的关系数据库在应付web2.0网站, 特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心, 暴露了很多难以克服的问题, 例如:
- 1、 High performance - 对数据库高并发读写的需求
web2.0网站要根据用户个性化信息来实时生成动态页面和提供动态信息, 所以基本上无法使用动态页面静态化技术, 因此数据库并发负载非常高, 往往要达到每秒上万次读写请求。 关系数据库应付上万次SQL查询还勉强顶得住,但是应付上万次SQL写数据请求,硬盘10就已经无法承受了。 其实对千普通的BBS网站,往往也存在对高并发写请求的需求, 例如网站的实时统计在线用户状态, 记录热门帖子的点击次数, 投票计数等, 因此这是个相当普遍的需求 - 2、 Huge Storage - 对海量数据的高效率存储和访问的需求
类似 Facebook, twitter, Friendfeed 这样的 SNS 网站, 每天用户产生海星的用户动态, 以 Friendfeed 一 一
为例, 个月就达到了2.5亿条用户动态, 对千关系数据库来说,在 张2.5亿条记录的表里面进行 SQL 查询, 效率是极其低下乃至不可忍受的。 再例如大型 web 网站的用户登录系统, 例如腾讯, 盛大, 动辄数以亿计的帐号, 关系数据库也很难应付。 - High Scalab巾ty && High Availab仆ity- 对数据库的高可扩展性和高可用性的需求
在基千 web 的架构当中, 数据库是最难进行横向扩展的, 当 个应用系统的用户呈和访问星与日俱增的时候, 你的数据库却没有办法像 web server 和 app server 那样简单的通过添加更多的硬件和服务节点来扩展性能和负载能力。 对于很多需要提供 24 小时不间断服务的网站来说, 对数据库系统进 行升级和扩展是非常痛苦的事情, 往往需要停机维护和数据迁移, 为什么数据库不能通过不断的添加服务器节点来实现扩展呢?
NoSQL 数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战, 尤其是大数据应用难题。
主流的NoSql产品
• NoSQL数据库的四大分类如下:
- 键值(Key-Value)存储数据库
相关产品: Tokyo Cabinet/Tyrant Redis Voldemort,Berkeley DB
典型应用: 内容缓存, 主要用于处理大量数据的高访问负载。
数据模型:一系列键值对
优势:快速查询
劣势:存储鹅数据缺少结构化 - 列存储数据库
相关产品: Cassandra, HBase, Riak
典型应用: 分布式的文件系统
数据模型:以列方式存储,将同一列数据存在一起
优势:查找速度快,可扩展性强,更容易进行分布式扩展
劣势:功能相对局限 - 文档型数据库
相关产品:CouchDB MongoDB
典型应用:Web应用(与Key-Value类似,Value是结构化的)
数据模型:一系列键值对
优势:数据结构要求不严格
劣势:查询性能不高,而且缺乏统一的查询语法 - 图形数据库
相关数据库:Neo4J Infinite Graph
典型应用:社交网络
数据模型:图结构
优势:利用图结构相关算法。
劣势:需要对整个图做计算才能得出结果, 不容易做分布式的集群方案。
NoSQL特点:
- 在大数据存取上具备关系型数据库无法比拟的性能优势, 例如: 易扩展
NoSQL数据库种类繁多, 但是 个共同的特点都是去掉关系数据库的关系型特性。 数据之
间无关系, 这样 就非常容易扩展。 也无形之间,在架构 的层面上带来了可扩展 的能力。 - 大数据量,高性能
NoSQL数据库都具有非常高的读写性能, 尤其在大数据呈下, 同样表现 优秀。 这得益千它 的无关系 性, 数据库的结构简单。 - 灵活的数据模型
NoSQL无需事先为要存储的数据建立字段 ,随时可以存储自定义的数据格式。 而在关系数据库里,增删字段是一件非常麻烦的事情,如果是非常大数据量的表,增加字段简直就是一个噩梦。这点在大数据量的Web2.0时代尤其明显 - 高可用
NoSQL在不太影响性能的情况, 就可以方便的 实现高可用的架构。 比如Cassandra, HBase 模型 , 通过复制模型也能实现高可用。
综上所述, NoSQL的非关系特性使其成为了后Web2.0时代的宠儿, 助力大型Web2.0网站的再次起飞,是一项全新的数据库革命性运动。