数据岗位述职报告

2022-07-15

一份优质的报告，需要以总结性的语录、合理的格式，进行工作与学习内容的记录。想必你也正在为如何写好报告而发愁吧？以下是小编精心整理的《数据岗位述职报告》相关资料，欢迎阅读！

第一篇：数据岗位述职报告

数据组人员岗位职责

岗位责任制度

一、

1. 2. 3. 4. 5. 6. 7.

二、各岗位人员安排：

批销录入员：王少彬、许妙凤、阮小玲、卢淑娟销退录入员：朱华萍、林琼进退录入员：郑清煌配送录入员：陈鸿鹏调架录入员：许自然

进货录入员：杨小红、胡艺盈打包员：许志强、柯耀辉各岗位职责：

1. 负责各种单据的及时开立、清点核对与修正，保证各种单据的完整性、准确性 2. 负责到货图书短缺处理与跟踪

3. 及时准确地对征订图书做到货后分拣，及时转入打包区打包发货，并跟踪配送出库工作 4. 熟悉掌握图书发货时间，并有计划地安排对出库图书进行标准打包 5. 所有出货图书的打包工作。

6. 负责销退图书的把关与清洁处理，并及时反馈不良销退的客户名单

7. 负责跟踪电脑数据与实物库存数量准确性与架号管理的准确性，及时修正错误数据

8. 为业务人员、客户、部门内人员的工作需要，提供各项相关的单据信息 9. 按时完成和整理各类财务、业务相关单据，并及时上交组长 10. 5S环境责任区管理

11. 完成上级交办的其它工作任务

三、操作流程：

1. 批销录入员：

1) 批销人员早上上班时先整理工作台，将工作台上的多余书籍整理到推车上，由仓储人员上架。

2) 批销人员每天轮流一位完成昨天批销单的备注、调顺序、对账单，其余人员完成导单、对单与开单工作。

3) 开单时，要选对客户名，区分不同等级的客户的折扣也不同(A客户不用改折扣、B客户根据“单位”修改，C、D的客户需询问业务人员)。开单要求50条数据为限，注意销售方式。注意特殊客户的要求，如需更改单头(例如„)。工作的效率

4) 对于业务人员打电话通知作废还原单据与下架时，应注意听清楚单号，在操作过程中应注意所作废单据的日期应为当天，之前数据不可作废。00000 5) 在导前一天的单据时，要在原始单据上备注“1”，方便以后查单用。当单据导完未做修改前要将新单据与原始单核对(核对的内容用客户名，实洋，码洋，品种)，核对无误均可开始对新单据进行修改。当天单据在修改前同样要核对(核对的内容单号，客户名与品种数)。无论是导单与是打印当天单据均应该在“审核”工序做完后才能打印单据。

6) 在核对单据时，要核对的内容有书名，书号，单价，数量，特别注意核对教材时的版本问题(确保单据与实物准确无误)。

7) 在导单时应该注意发货时间，发货时间比较早的货要先核对，必须保证货物能在最快的时间内发送到客户处。(厦门与县城的客户均在中午前发货，其余各地方均下午有车,除业务员要求走客车的货物。)

8) 阳光系统要求当天完成，做到当天事当天毕。

9) 对账单的核实，在批销单整理完毕后，要将单据与对账单一一核对(内容单号，客户名，实洋，码洋)。如有前一天的单据，需用便笺纸记录单号，客户名，实洋，与对账单订一起上交组长处。

10) 要求批销人员以上的工作职责都可以独立操作与完成，但同样需团队协作，互帮互助。如有紧急情况需及时通知组长进行处理。 2. 销退录入员：

1) 销退人员主要负责销退图书的把关与清洁处理。正常退货如果在三个月内，无脏旧破损问题也无做标识的图书可以接收于正常库房。

2) 退回图书如有脏旧破损的图书，先到三通中查找，是否是我方过失，如查寻为我方过失所造成的脏旧破损，允许接收，数据开至待退库，防止配送人员将图书配送给客户。 3) 正常情况下，客户退回图书需在三个工作日内完成，所退图书的码洋要与客户单据的码洋进行核实，确保准确无误。

4) 如有不可退图书,需与相关业务员沟通。如业务员同意其退货，接收这些不可退图书后开“报损单”，将单据由业务员签名后交至数据组组长处;如业务员无告知处理意见，不将其退回，也不明确是否接收时，在通知业务员两次后，业务员如仍未处理则视为业务员同意退回这类图书，由业务员承担;如由销退人员接收不可退货图书，则由相关责任人承担，追及不到由所有销退人员承担。

5) 销退人员需将当天所完成的单据在“阳光”软件中引入。 6) 主动协助本组其他岗位的工作。 3. 进退录入员

1) 开单时根据计划退货单上提供的供货商退货，注意每一条记录的准确(供货商、折扣、数量)，根据供货商要求的退货时间退货。

2) 调货时，需根据供货商的要求(是否放单、放单时折扣问题、走哪家货运公司、什么时候走货、运货问题)，需优先处里。如有图书不够或无法及时走货的情况下需及时通知采购人员或采购助理。调货已运走后，需将运单与清单同时传真给供货商，再将供货商通知调货的传真单、清单与运单整理订在一起，上交至数据组长处。 3) 跟踪门市退回图书的数据接收与转退货处理

4) 每天要将当天所开单据进行备注、整理、根据供货商和单号将单据整理入文件夹中。如有货运票，需将运票与这次出货所有单据订在一起交至组长处。 5) 每天所完成的单据均需引入“阳光”中。 4. 配送录入员

1) 配送开单人员每天根据门店人员的配货，按先后顺序进行开单与装箱工作。(开单时注意准确率，特别注意教材版本的正确录入)。 2) 门市征订图书的配货与装箱工作。 3) 处理门市退回物流图书的数据接收。(针对门市退回物流上架图书与业务员向门市调回发货图书数据接收)

4) 主动协助本组其他岗位的工作。 5. 调架录入员

1) 新书上架后的调架

2) 不同库房之间的调拨(所有不同库房之间的调拨，包括新仓与待退库房) 3) 供货商调货处理

4) 对新书样书调架后的上架工作。 5) 架号管理系统的审核与架号的维护 6) 主动协助本组其他岗位的工作。 6. 进货录入员

1) 新书建样：根据新书样品建入正确的书名，定价，主要供货商与折扣的设定。 2) 如验书人员采集的到货图书样品在数据库中已有信息，需改图书的建档日期。

3) 录进货单时，需与供货商所给单据核实，如供货商无提供单据需与供货商联系，让其传真相对应的单据;如有图书不知供货商需寻问采购人员;如有新供货商，新建完供货商后需让采购经理签名确认。

4) 录单时如有图书短缺或破损需与验货人员进行确认，再通知供货商;如短缺与破损是在运输过程中出现的需与我方储运人员或理货人员协商是否让货运站赔偿。

5) 录入时如有订数需及时通知业务员，询问其是否发货，如果同意发货将其转成批销单，让批销人员发货;如不发货同样转成批销单，通知组长作废该单据。 6) 单据详细录入完整后，需将货运票号，运费，件数等及时录入。

7) 当天所录入的单据需与验书人员所记录的到货情况相核实，如发现未录入或件数不合，需及时通知验书人员，进行核查。

8) 进货录入员应及时将进货单引入“阳光”中。 9) 主动协助本组其他岗位的工作。 7. 打包人员

A、根据发货时刻表，对核对完的图书进行打包。 B、打包时根据客户选择标准包或大件。

C、打包时图书应摆放整齐，同一类、同一系列的书应打成同一包、件，不可同一类/系列的书

与其它书混装多包，

D、对于打编织袋图书，需先包一层牛皮纸并扎上胶带后方可套上锡纸或编织袋。

打包注意事项：

A、包件分为标准包(含纸箱包装)，每包≤25kg;整件为编织袋包装，35kg≤每件≤65kg。 B、打包前须确认是否有退还给客户的图书，如有则连同发货图书一同打包。 C、如属图书馆要货，一包一张清单

D、打包时应依客户要求选择打标准包或编织件。

E、有音带、工具书等容易损坏或开本不一的图书，必须用纸箱包装。

F、包、件打扎时应牢固、扎实，打包人应用黑色记号笔清楚地在包外写上收货人、总件数、有内单的应贴上“内单”标签;清单应装在信封后方可装进件、包内。

打包人打好每一票货后都应填写在「销退打包登记表」或[批销登记表]上;专职的打包员

应负责查核此表填写情况，未填写的应跟催到个人，未跟催的视为打包员未填写。

四、质量目标：

1、保证各项数据单据处理的及时性 1) 在仓储组17：00(淡季)、17：30(旺季)分配出的批销单据须核对处理完毕 2) 当天到货的客户销售退货图书须在三天内处理完毕 3) 供货商调货的，须在当天处理完毕

4) 验完货后的须在1个工作小时内完成图书建样工作 5) 门市挑货后须在4个工作小时内开完单据

2、保证各项数据的准确性

按码洋计算，所有的单据的准确率要达到99.98%以上

3、保证打包与验货的及时性

1) 在批销录入员已核对完的单据，必须全部打包完毕，保证货物及时发出 2) 当天17：30之前的到货，必须验收完毕

4、保证打包与验货准确性

打包时按包件数进行计算

验货则按单据计算

5、为各部门提供优质的物流服务

五、考核要点

1、数据的准确性与完整性

2、数据处理的及时性

3、验货、打包的及时性与准确率打包考核：

1、打包的及时性：数据组核对完单据后，须全部打包，否则以单据计算，积压一单，扣10元，由全体打包人员承担

打包的准确性：如货物未托出物流，发现写错客户名、件数，按每次10元处罚该打包人，

如果货物托出物流，按每次30元处罚该打包人。

六、薪资分配 (详见物流承包责任制)

七、人员编制

数据组人员定编为16人，组长1名，组员15人

第二篇：数据分析岗位笔试题目总结

阿里巴巴

1、异常值是指什么?请列举1种识别连续型变量异常值的方法? 异常值(Outlier) 是指样本中的个别值，其数值明显偏离所属样本的其余观测值。在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值.

常见的异常值检验方法如下：       基于统计的方法基于距离的方法基于密度的方法基于聚类的方法基于偏差的方法基于深度的方法

t检验：按照t分布的实际误差分布范围来判别异常值，首先剔除一个可疑值，然后按t分布来检验剔除的值是否为异常值。

狄克逊检验法：假设一组数据有序x1

格拉布斯检验法：与狄克逊检验法思想一样，其检验公式为：

指数分布检验：

SPSS和R语言中通过绘制箱图可以找到异常值，分布在箱边框外部;

2、什么是聚类分析?聚类算法有哪几种?请选择一种详细描述其计算原理和步骤。

聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。聚类分析也叫分类分析(classification analysis)或数值分类(numerical taxonomy)。聚类与分类的不同在于，聚类所要求划分的类是未知的。

聚类分析计算方法主要有：层次的方法(hierarchical method)、划分方法(partitioning method)、基于密度的方法(density-based method)、基于网格的方法(grid-based method)、基于模型的方法(model-based method)等。其中，前两种算法是利用统计学定义的距离进行度量。常见的聚类方法有：K-pototypes算法，K-Means算法，CLARANS算法(划分方法)，BIRCH算法(层次方法)，CURE算法(层次方法)，DBSCAN算法(基于密度的方法)，CLIQUE算法(综合了基于密度和基于网格的算法);

k-means 算法的工作过程说明如下：首先从n个数据对象任意选择 k 个对象作为初始聚类中心;而对于所剩下其它对象，则根据它们与这些聚类中心的相似度(距离)，分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数. k个聚类具有以下特点：各聚类本身尽可能的紧凑，而各聚类之间尽可能的分开。

其流程如下：

(1)从 n个数据对象任意选择 k 个对象作为初始聚类中心;

(2)根据每个聚类对象的均值(中心对象)，计算每个对象与这些中心对象的距离;并根据最小距离重新对相应对象进行划分;

(3)重新计算每个(有变化)聚类的均值(中心对象);

(4)循环(2)、(3)直到每个聚类不再发生变化为止(标准测量函数收敛)。

优点：本算法确定的K 个划分到达平方误差最小。当聚类是密集的，且类与类之间区别明显时，效果较好。对于处理大数据集，这个算法是相对可伸缩和高效的，计算的复杂度为 O(NKt)，其中N是数据对象的数目，K是聚类中心，t是迭代的次数。

缺点：1. K 是事先给定的，但非常难以选定;2. 初始聚类中心的选择对聚类结果有较大的影响。 3.数据标准化技术

是将数据按比例缩放，使之落入一个小的特定区间。去除数据的单位限制，将其转化为无量纲的纯数值，便于不同单位或量级的指标能够进行比较和加权。常用的方法有：

(1)总和标准化。分别求出各要素所对应的数据的总和，以各要素的数据除以该要素的数据的总和，即

4.缺失值处理方法

1) 直接丢弃含缺失数据的记录

如：个案剔除法，这种方法却有很大的局限性。它是以减少样本量来换取信息的完备，会造成资源的大量浪费，丢弃了大量隐藏在这些对象中的信息。当缺失数据所占比例较大，特别是当缺数据非随机分布时，这种方法可能导致数据发生偏离，从而得出错误的结论。 2)补缺

A. 用平均值来代替所有缺失数据：均值替换法，均值替换法也是一种简便、快速的缺失数据处理方法。使用均值替换法插补缺失数据，对该变量的均值估计不会产生影响。但这种方法是建立在完全随机缺失(MCAR)的假设之上的，而且会造成变量的方差和标准差变小。

B. K -最近距离邻居法：先根据欧式距离或相关分析来确定距离具有缺失数据样本最近的K个样本，将这K个值加权平均来估计该样本的缺失数据。 C.用预测模型来预测每一个缺失数据：该方法最大限度地利用已知的相关数据，是比较流行的缺失数据处理技术。如：回归替换法，该方法也有诸多弊端，第一，容易忽视随机误差，低估标准差和其他未知性质的测量值，而且这一问题会随着缺失信息的增多而变得更加严重。第二，研究者必须假设存在缺失值所在的变量与其他变量存在线性关系，很多时候这种关系是不存在的。 5..Apriori算法和信息熵

信息熵是数学中一个抽象的概念，他表示了信息源的不确定度，这里不妨把信息熵理解成某种特定信息的出现概率，当一种信息出现概率更高的时候，表明它被传播得更广泛，或者说，被引用的程度更高。我们可以认为，从信息传播的角度来看，信息熵可以表示信息的价值。

支持度：Support(A->B)=P(A U B)。支持度揭示了A与B同时出现的概率。如果A与B同时出现的概率小，说明A与B的关系不大;如果A与B同时出现的非常频繁，则说明A与B总是相关的。

置信度(Confidence)的公式式：Confidence(A->B)=P(A | B)。置信度揭示了A出现时，B是否也会出现或有多大概率出现。如果置信度度为100%，则A和B可以捆绑销售了。如果置信度太低，则说明A的出现与B是否出现关系不大。

H(x) = E[I(xi)] = E[ log(2,1/p(xi)) ] = -∑p(xi)log(2,p(xi)) (i=1,2,..n)，单位是bit. 其中，x表示随机变量，与之相对应的是所有可能输出的集合，定义为符号集,随机变量的输出用x表示。P(x)表示输出概率函数。变量的不确定性越大，熵也就越大，把它搞清楚所需要的信息量也就越大.

以频繁项集{I1，I2，I3}为例产生强关联规则，最小置信度为40%

(1) 频繁项集{I1，I2，I3}的非空子集有{I1，I2},{I1，I3},{I2，I3},{I1},{I2},{I3} (2) 产生强关联规则

{I1，I2}=>I3 confidence=support({I1,I2,I3})/support({I1,I2})=2/4=0.5 {I1,I3}=>I2 confidence=support(I1，I2，I3)/support(I1,I3)=2/4=0.5 {I2,I3}=>I1 confidence=support(I1，I2，I3)/support(I2,I3)=2/4=0.5 I1=>{I2,I3} confidence=support(I1，I2，I3)/support(I1)=2/6=0.33 I2=>{I1,I3} confidence=support(I1，I2，I3)/support(I2)=2/7=0.29 I3=>{I1,I2} confidence=support(I1，I2，I3)/support(I3)=2/6=0.33 则强关联规则为：{I1，I2}=>I3;{I1,I3};{I2,I3}=>I1

3、根据要求写出SQL (没有学习过，之后的学习中需要补)

表A结构如下：

Member_ID (用户的ID，字符型)

Log_time (用户访问页面时间，日期型(只有一天的数据))

URL (访问的页面地址，字符型)

要求：提取出每个用户访问的第一个URL(按时间最早)，形成一个新表(新表名为B，表结构和表A一致) 参考答案：

create table B as select Member_ID, min(Log_time), URL from A group by Member_ID ;

5、用户调研

某公司针对A、B、C三类客户，提出了一种统一的改进计划，用于提升客户的周消费次数，需要你来制定一个事前试验方案，来支持决策，请你思考下列问题：

a) 试验需要为决策提供什么样的信息?

c) 按照上述目的，请写出你的数据抽样方法、需要采集的数据指标项，以及你选择的统计方法。

a) 试验要能证明该改进计划能显著提升A、B、C三类客户的周消费次数。

b) 根据三类客户的数量，采用分层比例抽样;

需要采集的数据指标项有：客户类别，改进计划前周消费次数，改进计划后周消费次数;

选用统计方法为：分别针对A、B、C三类客户，进行改进前和后的周消费次数的，两独立样本T-检验

6.常见的抽样方法有哪些?

常用的有以下六种类型：

简单抽样(Simple sampling)

即简单随机抽样，指保证大小为n的每个可能的样本都有相同的被抽中的概率。例如：按照“抽签法”、“随机表”法抽取访问对象，从单位人名目录中抽取对象。

优点：

随机度高，在特质较均一的总体中，具有很高的总体代表度;是最简单的抽样技术，有标准而且简单的统计公式。

缺点：

未使用可能有用的抽样框辅助信息抽取样本，可能导致统计效率低;有可能抽到一个“差”的样本，使抽出的样本分布不好，不能很好地代表总体。

系统抽样(Systematic random sampling)

将总体中的各单元先按一定顺序排列，并编号，然后按照不一定的规则抽样。其中最常采用的是等距离抽样，即根据总体单位数和样本单位计算出抽样距离(即相同的间隔)，然后按相同的距离或间隔抽选样本单位。例如：从1000个电话号码中抽取10个访问号码，间距为100，确定起点(起点<间距)后每100号码抽一访问号码。

优点：

兼具操作的简便性和统计推断功能，是目前最为广泛运用的一种抽样方法。

如果起点是随机确定的，总体中单元排列是随机的，等距抽样的效果近似简单抽样;与简单抽样相比，在一定条件下，样本的分布较好。

缺点：

抽样间隔可能遇到总体中某种未知的周期性，导致“差”的样本;未使用可能有用的抽样框辅助信息抽取样本，可能导致统计效率低。

分层抽样(Stratified random sampling)

是把调查总体分为同质的、互不交叉的层(或类型)，然后在各层(或类型)中独立抽取样本。例如：调查零售店时，按照其规模大小或库存额大小分层，然后在每层中按简单随机方法抽取大型零售店若干、中型若干、小型若干;调查城市时，按城市总人口或工业生产额分出超大型城市、中型城市、小型城市等，再抽出具体的各类型城市若干。

优点：

适用于层间有较大的异质性，而每层内的个体具有同质性的总体，能提高总体估计的精确度，在样本量相同的情况下，其精度高于简单抽样和系统抽样;能保证“层”的代表性，避免抽到“差”的样本;同时，不同层可以依据情况采用不同的抽样框和抽样方法。

缺点：

要求有高质量的、能用于分层的辅助信息;由于需要辅助信息，抽样框的创建需要更多的费用，更为复杂;抽样误差估计比简单抽样和系统抽样更复杂。

整群抽样(Cluster sampling)(层层深入抽样，不断缩小抽样的范围)

是先将调查总体分为群，然后从中抽取群，对被抽中群的全部单元进行调查。例如：入户调查，按地块或居委会抽样，以地块或居委会等有地域边界的群体为第一抽样单位，在选出的地块或居委会实施逐户抽样;市场调查中，最后一级抽样时，从居委会中抽取若干户，然后调查抽中户家中所有18岁以上成年人。

优点：

适用于群间差异小、群内各个体差异大、可以依据外观的或地域的差异来划分的群体。

缺点：

群内单位有趋同性，其精度比简单抽样为低。

前面谈到抽样方法的一些基本分类和各自特点，需要注意的是，在实际的运用中，一个调查方案

常常不是只局限于使用某一种抽样方式，而根据研究时段的不同采用多种抽样方法的组鸽为实现不同的研究目的，有时甚至在同一时段综合运用几种抽样方法。

例如，设计一个全国城市的入户项目，在抽样上可以分为几个不同的步骤，包括：

1)在项目正式开始前，可以采用判断抽样法选出某一城市先作试点，在问卷设计初期可以采用任意抽样法选出部分人群进行问卷试访。

2)采用分层随机抽样法，确定全国要分别在多少个超大型市、多少个中型市、多少个小型市实施(先分出城市的几个层次，再依据研究需要在各层用PPS法选取具体城市)

3)采用简单抽样法或PPS抽样法，确定抽出城市中应抽的地块或居委会;

4)采用整群抽样法，确定抽出地块或居委会应访问的家庭户;

5)在项目后期，可以采用判断抽样法选取某城市进行深入研究。

8.置信度与置信区间

P(x1

ROC曲线指受试者工作特征曲线(receiver operating characteristic curve), 是反映敏感性和特异性连续变量的综合指标,是用构图法揭示敏感性和特异性的相互关系，它通过将连续变量设定出多个不同的临界值，从而计算出一系列敏感性和特异性，再以敏感性为纵坐标、(1-特异性)为横坐标绘制成曲线，曲线下面积越大，诊断准确性越高。在ROC曲线上，最靠近坐标图左上方的点为敏感性和特异性均较高的临界值。

10.数据挖掘步骤

① 理解数据和数据的来源(understanding)。

② 获取相关知识与技术(acquisition)。

③ 整合与检查数据(integration and checking)。

④ 去除错误或不一致的数据(data cleaning)。

⑤ 建立模型和假设(model and hypothesis development)。

⑥ 实际数据挖掘工作(data mining)。

⑦ 测试和验证挖掘结果(testing and verfication)。

⑧ 解释和应用(interpretation and use)。 11.如何评估促销活动?

11. Bayes公式(全概率公式)

探索在已知结果的情况下，是由哪种原因引起的概率;p(Bi|A)p(BiA)p(Bi)p(A|Bi) p(A)p(B)p(A|B)jj

12. 逻辑回归(分类问题)

逻辑回归适合求解哪些问题：逻辑回归本质上解决的是分类问题，Logistic回归的主要用途：   寻找危险因素：寻找某一疾病的危险因素等;

预测：根据模型，预测在不同的自变量情况下，发生某病或某种情况的概率有多大;

 判别：实际上跟预测有些类似，也是根据模型，判断某人属于某病或属于某种情况的概率有多大，也就是看一下这个人有多大的可能性是属于某病。

11. 线性回归

线性回归(一元和多元)中对误差的假设都是假定服从均值为0方差为定值的正态分布，拟合系数的求解方法可以有最小二乘法梯度下降法等。关于残差的假设为：零均值，同方差，正态性，不相关，样本随机。

回归分析的自变量为连续性变量，而方差分析的自变量为离散型分类变量; 广义线性回归于线性回归的最大区别是随机误差的分布不一定是正态分布，与非线性模型的最大区别是非线性回归无明确的随机误差分布假定。 12. 过拟合现象以及避免的方法

所谓过拟合问题：过拟合反映的是在学习训练中,模型对训练样本达到非常高的逼近精度, 为了能够对样本完全正确的分类，使得它的构造如此精细复杂，规则如此严格，以至于任何与样本数据稍有不同的文档它全都认为不属于这个类别，在测试数据上往往显示出很差的效果. 产生过拟合是因为：

1.由于对样本数据,可能存在隐单元的表示不唯一,即产生的分类的决策面不唯一. 2.权值学习迭代次数足够多(Overtraining),拟合了训练数据中的噪声和训练样例中没有代表性的特征. 过度拟合解决方法： 1.权值衰减. 它在每次迭代过程中以某个小因子降低每个权值 ,此方法的动机是保持权值较小,避免weight decay,从而使学习过程向着复杂决策面的反方向偏。

2. 减少特征的数量，有人工选择，或者采用模型选择算法

3.验证数据

一个最成功的方法是在训练数据外再为算法提供一套验证数据,应该使用在验证集合上产生最小误差的迭代次数,不是总能明显地确定验证集合何时达到最小误差.

4.Cross-validation with some patterns

交叉验证方法在可获得额外的数据提供验证集合时工作得很好,但是小训练集合的过度拟合问题更为严重. k-fold交叉方法: 把训练样例分成k份,然后进行k次交叉验证过程,每次使用不同的一份作为验证集合,其余k-1份合并作为训练集合.每个样例会在一次实验中被用作验证样例,在k-1次实验中被用作训练样例; 5.正则化方法正则化是结构风险最小化策略的实现，是在经验风险上加一个正则化项或惩罚项。正则化项一般是模型复杂度的单调递增函数，模型越复杂，正则化项就越大，正则化方法的作用是：保留所有特征但减小参数的取值。

13. 监督学习与非监督学习

有监督学习：对具有概念标记(分类)的训练样本进行学习，以尽可能对训练样本集外的数据进行标记(分类)预测。这里，所有的标记(分类)是已知的。因此，训练样本的岐义性低。所有的分类回归算法都是有监督算法，常见的算法有：SVM,KNN,决策树算法,朴素Bayes算法，神经网络，最小平方拟合，最大熵等。

无监督学习：对没有概念标记(分类)的训练样本进行学习，以发现训练样本集中的结构性知识。这里，所有的标记(分类)是未知的。因此，训练样本的岐义性高。聚类就是典型的无监督学习，常见的无监督学习算法：聚类，PCA，关联规则算法Aprior，FP-Growth等。 14.分位数3原则

3原则：在-3,+3区间上的概率密度曲线之下的面积占总面积的99.7%,对于标准正态分布有p3x30.997。 15.常见分布的密度函数均值和方差

16. 常见的区间估计以及假设检验表

对于均值的检验，方差已知一般采用U检验(标准正太分布)，方差未知采用T检验(t分布);

关于方差的检验，一般都采用卡方检验，若是两个正太总体采用F检验;

17.假设检验

P值(P value)是一个概率，就是当原假设为真时所得到的样本观察结果或更极端结果出现的几率。如果P值很小，说明原假设发生的概率很小，我们就有理由拒绝原假设，P值越小，我们拒绝原假设的理由越充分。总之，P值越小，表明结果越显著，一般以P < 0.05 为显著， P<0.01 为非常显著。

Sig值是显著性指标，一般大于0.05拒绝原假设，否则接受原假设，一般大于0.05表示差异不显著，小于0.05表示差异显著，小于0.01表示差异极显著。

a:第一类错误是原假设真时拒绝了原假设(弃真); b:第二类错误是原假设错误时接受了原假设(取误); c=1-b:检验功效是原假设错误拒绝原假设; 第一类错误与第二类错误互相矛盾的，检验功效越大越好即犯第二类错误的概率竟可能的小。 18.数据分析的基本流程