您现在的位置是:首页 >

数据员工作总结 个人经验总结:处理海量数据的经验和技巧[4]

火烧 2021-08-05 17:45:21 1037
个人经验总结:处理海量数据的经验和技巧[4]   十 使用文本格式进行处理  对一般的数据处理可以使用数据库 如果对复杂的数据处理 必须借助程序 那么在程序操作数据库和程序操作文本之间选择 是一定要选

个人经验总结:处理海量数据的经验和技巧[4]  

  十 使用文本格式进行处理

  对一般的数据处理可以使用数据库 如果对复杂的数据处理 必须借助程序 那么在程序操作数据库和程序操作文本之间选择 是一定要选择程序操作文本的 原因为 程序操作文本速度快;对文本进行处理不容易出错;文本的存储不受限制等 例如一般的海量的网络日志都是文本格式或者csv格式(文本格式) 对它进行处理牵扯到数据清洗 是要利用程序进行处理的 而不建议导入数据库再做清洗

数据员工作总结 个人经验总结:处理海量数据的经验和技巧[4]

  十一 定制强大的清洗规则和出错处理机制

  海量数据中存在着不一致性 极有可能出现某处的瑕疵 例如 同样的数据中的时间字段 有的可能为非标准的时间 出现的原因可能为应用程序的错误 系统的错误等 这是在进行数据处理时 必须制定强大的数据清洗规则和出错处理机制

  十二 建立视图或者物化视图

  视图中的数据来源于基表 对海量数据的处理 可以将数据按一定的规则分散到各个基表中 查询或处理过程中可以基于视图进行 这样分散了磁盘I/O 正如 根绳子吊著一根柱子和一根吊著一根柱子的区别

  十三 避免使用 位机子(极端情况)

  目前的计算机很多都是 位的 那么编写的程序对内存的需要便受限制 而很多的海量数据处理是必须大量消耗内存的 这便要求更好性能的机子 其中对位数的限制也十分重要

  十四 考虑操作系统问题

  海量数据处理过程中 除了对数据库 处理程序等要求比较高以外 对操作系统的要求也放到了重要的位置 一般是必须使用服务器的 而且对系统的安全性和稳定性等要求也比较高 尤其对操作系统自身的缓存机制 临时空间的处理等问题都需要综合考虑

lishixinzhi/Article/program/SQL/201311/16295  
永远跟党走
  • 如果你觉得本站很棒,可以通过扫码支付打赏哦!

    • 微信收款码
    • 支付宝收款码