博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
GridFS:基于MongoDB的分布式文件存储系统
阅读量:7208 次
发布时间:2019-06-29

本文共 1993 字,大约阅读时间需要 6 分钟。

GridFSMongoDB之上的分布式文件系统,其利用了MongoDB的分布式存储机制并通过MongoDB来存储文件数据和文件元数据,兼具文档型数据库和文件系统的优势。GridFS是当前大数据潮流和复杂数据分析需求的产物。

简单来说,GridFS通过将文件数据和文件元数据保存在MongoDB里来实现文件系统,通过复制(Replication)来应对故障切换,数据集成,还可以用来做读扩展,热备份或者作为离线批处理的数据源,通过分片来实现自动切分数据,实现大数据存储和负载均衡,通过数据库对集合中文档的管理和查询(包括MapReduce)实现轻量级文件系统接口和搜索与分析。

GridFS的一个基本思想是可以将大文件分成很多块,每一块作为一个单独的文档存储,则有就能存储大文件了。由于MongoDB支持在文档中存储二进制数据,可以最大限度减小块的存储开销。GridFS使用MongoDB的复制,分片等机制来实现分布式文件存储,使用MongoDB进行管理和复杂分析。

GridFS使用两个文档来存储文件,一个用来存储文件本身的块,另外一个用来存储分块的信息和文件的元数据,默认对应的集合分别为fs.chunksfs.files.

Chunks集合:

{

“_id”:<string>,

“files_id”: <string>,

“n”: <num>,

“data”: <binary>

}

块集合中文档包含以下属性:chunk_id:IDChunks.files_id:对应files集合中文档的_idChunks.n:块的编号,由GridFS管理,从0开始。Chunks.data:文件数据,是BSON二进制类型。

Chunks集合使用files_idn作为混合索引,files集合:

{

“_id”: <ObjectID>,

“length”: <num>,

“chunkSize”:<num>,

“uploadDate”: <timestamp>,

“md5”: <hash>,

“filename”: <string>,

“contentType”: <string>,

“aliases”: <string array>,

“metadata”: <dataObject>

}

Files集合中的文档包含以下属性,应用还可以创建额外任意的属性:files_id:唯一的文件表示。MongoDB的默认值是BOSN ObjectID Files.length: 文件的字节数大小。Files.chunkSize:每个块的大小,默认为256KBGridFS根据这个值将文件分成多个快,files.uploadDate:GridFS第一次存储此文件的时间,类型为ISODateFiles.md5: 文件的md5散列值,是字符串。 Files.filename:可选。人类可读的文件名。Files.contentType: 可选。合法的文件MIME类型。Files.aliases:可选。别名的字符串数组。Files.metadata:可选。自定义存储的文件元数据。

可以通过mongofiles工具或者MongoDB驱动程序来使用GridFS,GridFS主要提供5种操作接口:

List:获取文件列表

Get:获取文件

Put:写入文件

Search:根据文件名搜索文件

Delete:删除文件

因为GridFS文件的元数据存储在files集合中,因此GridFS可以非常方便地进行文件管理,比如根据文件名,上传时间,文件大小或者自定义的文件元数据进行查询,还可以利用MapReduce做复杂数据分析。这是GridFS把传统文件系统和数据库相结合得到的众多好处之一。

对比传统文件系统的优势

分布式:GridFS是基于MongoDB的分布式文件系统,可以直接使用MongoDB ReplicationSharding机制,数据可靠性和水平扩展性都得到保证。GridFS不产生磁盘碎片,因为MongoDB分配数据文件空间时以2GB为一块。

MapReduce:可以进行复杂管理和查询分析。

索引和缓存:元数据存储在MongoDB中,非常方便索引,并且可以对文件和文件元数据进行索引,能提高系统效率。

Checksum: GridFS会为文件产生散列值,可用于校验文件以检查完整性。

开发者友好:利用Grid可以简化需求,减小开发成本。要是已经用了MongoDB,GridFS就可以不需要使用独立文件存储架构,并且使代码和数据真正分离,方便管理。

其他: GridFS可以避免用于存储用户上传内容的文件系统出现的某些问题。例如,GridFS在同一个目录下防止大量的文件是没有任何问题的。GridFS不产生磁盘碎片,因为MongoDB分配数据文件空间时以2GB为一块。

转载地址:http://pzlum.baihongyu.com/

你可能感兴趣的文章
Three.js加载3D模型
查看>>
Basic: Fisher's transform
查看>>
mint-ui vue双向绑定
查看>>
Eclipse快捷键一览表(转载)
查看>>
随机访问流 RandomAccessFile
查看>>
图片上传读取代码
查看>>
服务器安装环境基本操作
查看>>
nslookup命令
查看>>
c++函数模板作为类的成员函数,编译报错LNK2019的解决方法
查看>>
Tensorflow安装
查看>>
判断个十百千位之后是否大于20 java——CSDN博客
查看>>
.Net插件编程模型:MEF和MAF[转载]
查看>>
java实现excel的导入导出(poi详解)[转]
查看>>
[转载]浅析jQuery框架与构造对象
查看>>
微信小程序基本入门
查看>>
oracl 数字型函数
查看>>
Q443 压缩字符串
查看>>
Bootstrap——网站添加字体图标
查看>>
MVC传递数据-传递对象或对象集合
查看>>
单页应用的三大优势及监控方法
查看>>