机器学习 如果人脑都没学明白,能让机器去学习吗?
机器学习 如果人脑都没学明白,能让机器去学习吗?
机器学习 如果人脑都没学明白,能让机器去学习吗?
大兄弟应该是被各种民科晃晕了。这个问题其实可以这么看,机器学习真的是学习吗?什么又叫学习?显然现阶段没有很好的回答,而有一点是可以肯定的,现在的所谓机器学习根本就是用统计学的知识从样本集学习(估计)一个假设f(x),使得f(x)是问题世界模型的一个近似(监督学习,非监督的不管)。这与你所想的学习应该不是一个概念吧。。。
现在回答你的问题,人都没学明白,机器能学吗?单纯从个体来说,是可以的。比如你下国际象棋能拿下得过最强的ai吗?肯定不能,所以好像看来机器学的比你好,但这是建立在机器已经训练了无数次对局(一堆大师的),模拟过无数次不同的步骤,得到了一个比较好的模型罢了。但是机器能像人一样无中生有吗,简单来说就是创造力。你可能一辈子也不可能见过所有的车,但你一眼就知道那是车,机器就未必能,找一个特殊一点的样例它瞬间就跪了。。。所以现在所谓的机器学习和人的完全不是一回事。
当然人是怎么回事我也不知道。。。目前的机器学习其实和生物学习已经关系不大了,以后或许会有变化,但现在你可以自信的认为机器学习和人比就是个渣渣。。。
如何让机器学习跳读
机器学习、深度学习和更广义上的人工智慧的兴起是毫无疑问的,而且其已经对电脑科学领域产生巨大的影响。你可能已经听说过,目前深度学习已经在影象识别和围棋等很多工上实现了对人类的超越。
如何提高机器学习结果
有一个或两个演算法在问题上执行得相当好是一个好的开始,但有时候可能会激励您获得最佳结果,您可以获得可用的时间和资源。
在这篇文章中,您将回顾可用于挤出额外效能的方法,并改进从机器学习演算法中获得的结果。
在调整演算法时,您必须对测试工具提供的结果具有较高的置信度。 这意味着您应该使用减少用于评估演算法执行的效能度量的方差的技术。 我建议交叉验证的摺叠数量相当高(确切数量取决于您的资料集)。
你将在这篇文章中学到的三种策略是:
演算法调优
合奏
极限特征工程
演算法调优
开始的地方是从你已经知道的演算法中获得更好的结果,在你的问题上表现良好。您可以通过探索和微调这些演算法的配置来做到这一点。
机器学习演算法是引数化的,修改这些引数会影响学习过程的结果。将每个演算法引数视为图上的一个维度,并将给定引数的值作为轴上的一个点。三个引数将是该演算法的可能配置的立方体,并且n引数将是该演算法的可能配置的n维超立方体。
演算法调优的目标是为您的问题找到该超立方体中的最佳点或多个点。您将针对您的测试工具进行优化,因此您再也不能低估花时间构建可信测试工具的重要性。
您可以通过使用自动方法来处理此搜寻问题,这些方法会在可能性空间中强加一个网格,并在可能的优化演算法配置中进行取样。然后,您可以在优化演算法中使用这些点来放大最佳效能。
您可以使用许多效能良好的方法重复此过程,并探索每个方法可以实现的最佳效果。我强烈建议这个过程是自动化的,并且是合理的粗粒度,因为您可以快速达到可能无法转化为生产系统的收益递减点(分数百分比效能提升)。
演算法引数越调整,演算法对训练资料和测试工具的偏见就越大。这种策略可能是有效的,但它也可能导致更脆弱的模型过度使用测试工具,并且在实践中表现不佳。
合奏
集合方法关注于结合多种方法的结果以获得改进的结果。当您有多个专门针对问题的不同部分的“足够好”模型时,整合方法可以很好地工作。
这可以通过许多方式来实现。您可以探索的三种整体策略是:
Bagging:更加正式地称为Bootstrapped Aggregation,即通过训练不同的训练资料子集,相同的演算法对问题有不同的观点。
提升:不同的演算法在相同的训练资料上训练。
混合:更为正式地称为堆积聚合或堆叠,其中多种模型的预测被作为输入到新模型中,以学习如何将预测结合到总体预测中。
在用完更传统的方法后,进入整体方法是一个好主意。这有两个很好的理由,它们通常比传统方法更复杂,传统方法为您提供了一个良好的基础级别,您可以从中改进和建立您的合奏。
如何让机器学习得更快
这属于人工智慧,关键是演算法
通过对比企业资料库运维模式和云资料库(以下简称RDS)的运维区别,说明在云端计算时代,运维变成了一种服务,作为公共计算服务的一部分服务于广大企业。这时候云资料库运维面临的机会和挑战。
1、所有企业和个人,对云资料库的SLA要求都是一样高的。在以前我们负责大规模产品线时,宕一台只影响1/16或更小,但在云资料库,对一个使用者来讲就宕机1台就是100%不可用。
2、当运维变成一种服务,使用者会担心资料是否安全,云平台的运维模式是否可信。
3、使用者对RDS平时不希望参与维护,但出问题他会找你,这就要求我们比使用者更早发现问题,甚至能提前预判和规避问题。

如果在硕士阶段学习机器学习,该如何规划
机器学习 在 网际网路领域还是非常热门的。。所以学好机器学习 以后工作好找,而且待遇比较好!
splunk 多少种 机器学习
所谓的大资料平台不是独立存在的,比如百度是依赖搜寻引擎获得大资料并开展业务的,阿里是通过电子商务交易获得大资料并开展业务的,腾讯是通过社交获得大资料并开始业务的,所以说大资料平台不是独立存在的,重点是如何蒐集和沉淀资料,如何分析资料并挖掘资料的价值。
我可能还不够资格回答这个问题,没有经历过一个公司大资料平台从无到有到复杂的过程。不过说说看法吧,也算是梳理一下想法找找喷。
这是个需求驱动的过程。
曾经听过spotify的分享,印象很深的是,他们分享说,他们的hadoop丛集第一次故障是因为,机器放在靠窗的地方,太阳晒了当机了(笑)。从简单的没有机房放在自家窗前的丛集到一直到现在复杂的资料平台,这是一个不断演进的过程。
对小公司来说,大概自己找一两台机器架个丛集算算,也算是大资料平台了。在初创阶段,资料量会很小,不需要多大的规模。这时候元件选择也很随意,Hadoop一套,任务排程用指令码或者轻量的框架比如luigi之类的,资料分析可能hive还不如汇入RMDB快。监控和部署也许都没时间整理,用指令码或者轻量的监控,大约是没有ganglia、nagios,puppet什么的。这个阶段也许算是技术积累,用传统手段还是真大资料平台都是两可的事情,但是为了今后的扩充套件性,这时候上Hadoop也许是不错的选择。
当进入高速发展期,也许扩容会跟不上计划,不少公司可能会迁移平台到云上,比如AWS阿里云什么的。小规模高速发展的平台,这种方式应该是经济实惠的,省了运维和管理的成本,扩容比较省心。要解决的是选择平台本身提供的服务,计算成本,打通资料出入的通道。整个资料平台本身如果走这条路,可能就已经基本成型了。走这条路的比较有名的应该是flix。
也有一个阶段,你发现云服务的费用太高,虽然省了你很多事,但是花钱嗖嗖的。几个老板一合计,再玩下去下个月工资释出出来了。然后无奈之下公司开始往私有丛集迁移。这时候你大概需要一群靠谱的运维,帮你监管机器,之前两三台机器登入上去看看状态换个磁碟什么的也许就不可能了,你面对的是成百上千台主机,有些关键服务必须保证稳定,有些是资料节点,磁碟三天两头损耗,网路可能被压得不堪重负。你需要一个靠谱的人设计网路布局,设计运维规范,架设监控,值班团队走起7*24小时随时准备出台。然后上面再有平台组真的大资料平台走起。
然后是选型,如果有技术实力,可以直接用社群的一整套,自己管起来,监控部署什么的自己走起。这个阶段部署监控和使用者管理什么的都不可能像两三个节点那样人肉搞了,配置管理,部署管理都需要专门的平台和元件;定期Review使用者的作业和使用情况,决定是否扩容,清理资料等等。否则等机器和业务进一步增加,团队可能会死的很惨,疲于奔命,每天事故不断,进入恶性回圈。
当然有金钱实力的大户可以找Cloudera,Hortonworks,国内可以找华为星环,会省不少事,适合非网际网路土豪。当然网际网路公司也有用这些东西的,比如Ebay。
接下去你可能需要一些重量的元件帮你做一些事情。
比如你的资料接入,之前可能找个定时指令码或者爬log发包找个伺服器接收写入HDFS,现在可能不行了,这些大概没有高效能,没有异常保障,你需要更强壮的解决方案,比如Flume之类的。
你的业务不断壮大,老板需要看的报表越来越多,需要训练的资料也需要清洗,你就需要任务排程,比如oozie或者azkaban之类的,这些系统帮你管理关键任务的排程和监控。
资料分析人员的资料大概可能渐渐从RDBMS搬迁到丛集了,因为传统资料库已经完全hold不住了,但他们不会写程式码,所以你上马了Hive。然后很多使用者用了Hive觉得太慢,你就又上马互动分析系统,比如Presto,Impala或者SparkSQL。
你的资料科学家需要写ML程式码,他们跟你说你需要Mahout或者Spark MLLib,于是你也部署了这些。
至此可能资料平台已经是工程师的日常工作场所了,大多数业务都会迁移过来。这时候你可能面临很多不同的问题。
比如各个业务线资料各种资料表多的一塌糊涂,不管是你还是写资料的人大概都不知道资料从哪儿来,接下去到哪儿去。你就自己搞了一套元资料管理的系统。
你分析效能,发现你们的资料都是上百Column,各种复杂的Query,裸存的Text格式即便压缩了也还是慢的要死,于是你主推使用者都使用列存,Parquet,ORC之类的。
又或者你发现你们的ETL很长,中间生成好多临时资料,于是你下狠心把pipeline改写成Spark了。
再接下来也许你会想到花时间去维护一个门户,把这些零散的元件都整合到一起,提供统一的使用者体验,比如一键就能把资料从资料库chua一下拉到HDFS汇入Hive,也能一键就chua一下再搞回去;点几下就能设定一个定时任务,每天跑了给老板自动推送报表;或者点一下就能起一个Storm的ology;或者介面上写几个Query就能查询Hbase的资料。这时候你的资料平台算是成型了。
当然,磕磕碰碰免不了。每天你都有新的问题和挑战,否则你就要失业了不是?
你发现社群不断在解决你遇到过的问题,于是你们架构师每天分出很多时间去看社群的进展,有了什么新工具,有什么公司释出了什么专案解决了什么问题,兴许你就能用上。
上了这些乱七八糟的东西,你以为就安生了?Hadoop平台的一个大特点就是坑多。尤其是新做的功能新起的专案。对于平台组的人,老板如果知道这是天然坑多的平台,那他也许会很高兴,因为跟进社群,帮忙修bug,一起互动其实是很提升公司影响力的实情。当然如果老板不理解,你就自求多福吧,招几个老司机,出了问题能马上带路才是正道。当然团队的技术积累不能不跟上,因为资料平台还是乱世,三天不跟进你就不知道世界是什么样了。任何一个新技术,都是坑啊坑啊修啊修啊才完善的。如果是关键业务换技术,那需要小心再小心,技术主管也要有足够的积累,能够驾驭,知道收益和风险。
C ++能用来写机器学习吗
当然可以啊,好多机器学习库用c++写的,c++在速度上很有优势
机器学习:如何成为ML
如果你说的ML,是机器学习的话,可以看看 Joseph Misiti 的Github
macbook pro 2017 支援机器学习吗
这有什么不能支援的。。。。
只是不适合现在的DL,因为DL有个很广泛的硬体就是N卡,倒不是说A卡不行,而是A卡没有配套的gpu计算开发元件,N卡有CUDA。。。