您现在的位置是:首页
>
数据员工作总结 个人经验总结:处理海量数据的经验和技巧[4]
个人经验总结:处理海量数据的经验和技巧[4] 十 使用文本格式进行处理 对一般的数据处理可以使用数据库 如果对复杂的数据处理 必须借助程序 那么在程序操作数据库和程序操作文本之间选择 是一定要选
个人经验总结:处理海量数据的经验和技巧[4]
十 使用文本格式进行处理
对一般的数据处理可以使用数据库 如果对复杂的数据处理 必须借助程序 那么在程序操作数据库和程序操作文本之间选择 是一定要选择程序操作文本的 原因为 程序操作文本速度快;对文本进行处理不容易出错;文本的存储不受限制等 例如一般的海量的网络日志都是文本格式或者csv格式(文本格式) 对它进行处理牵扯到数据清洗 是要利用程序进行处理的 而不建议导入数据库再做清洗
![数据员工作总结 个人经验总结:处理海量数据的经验和技巧[4]](http://img.zhputi.com/uploads/785e/785eeebf459e322f901609f192bfe26927453.jpg)
十一 定制强大的清洗规则和出错处理机制
海量数据中存在着不一致性 极有可能出现某处的瑕疵 例如 同样的数据中的时间字段 有的可能为非标准的时间 出现的原因可能为应用程序的错误 系统的错误等 这是在进行数据处理时 必须制定强大的数据清洗规则和出错处理机制
十二 建立视图或者物化视图
视图中的数据来源于基表 对海量数据的处理 可以将数据按一定的规则分散到各个基表中 查询或处理过程中可以基于视图进行 这样分散了磁盘I/O 正如 根绳子吊著一根柱子和一根吊著一根柱子的区别
十三 避免使用 位机子(极端情况)
目前的计算机很多都是 位的 那么编写的程序对内存的需要便受限制 而很多的海量数据处理是必须大量消耗内存的 这便要求更好性能的机子 其中对位数的限制也十分重要
十四 考虑操作系统问题
海量数据处理过程中 除了对数据库 处理程序等要求比较高以外 对操作系统的要求也放到了重要的位置 一般是必须使用服务器的 而且对系统的安全性和稳定性等要求也比较高 尤其对操作系统自身的缓存机制 临时空间的处理等问题都需要综合考虑
lishixinzhi/Article/program/SQL/201311/16295 很赞哦! (1037)