人工智能笔试题目及答案

问题：深度学习和过往的神经网络训练方法有什么区别？列举几种深度学习的loss function ，并说明意义

答案：深度学习是一种方法，神经网络是个模型，深度学习方法呢可以有效解决层数多的神经网络不好学习的问题，为了让层数较多的多层神经网络可以训练，能够起作用并演化出来的一系列的新的结构和新的方法；

结构：一般分为两大阵营，CNN,RNN，感觉这里欠妥，请指正。

方法：权重初始化方法（逐层初始化，XAVIER 等），损失函数，防止过拟合方法（Dropout, BN 等）。

这些方面主要都是为了解决传统的多层神经网络的一些不足：梯度消失，过拟合等。

分类问题常用的损失函数：

（1）交叉熵损失函数，也称作softmax 损失函数，可用于解决多分类问题，通过指数化将输出转换成概率的形式；

（2）合页损失函数，一般情况下，交叉熵损失函数的效果优于合页损失函数；

（3）坡道损失函数，对离群点或者噪声的抗干扰能力强，是一种鲁棒性的损失函数，对误差较大的区域会进行截断；

（4）大间隔损失函数，保证能够正确分类的同时，还满足增大类间的差异，提升了特征的分辨能力，防止网络发生过拟合；

（5）中心损失函数，保证能够正确分类的同时，还满足减少类内的差异，提升了特征的分辨能力；

回归问题常用的损失函数：

（1）l1 损失函数，衡量的是预测值与真实值之间的偏差；

（2）l2 损失函数，效果优于l1；

（3）tukey‘s biweight 损失函数，是一种具有鲁棒性的损失函数；

其他任务的损失函数：

KL 散度损失函数，衡量的是样本标记分布与真是标记分布的差异，可用于年龄估计等。

02

问题：什么是卷积神经网络？请说明卷积的意义

答案：分开看就明确了，“卷积” 和 “神经网络”.

卷积也就是说神经网络不再是对每个像素的输入信息做处理了,而是图片上每一小块像素区域进行处理, 这种做法加强了图片信息的连续性. 使得神经网络能看到图形, 而非一个点. 这种做法同时也加深了神经网络对图片的理解.

具体来说, 卷积神经网络有一个批量过滤器, 持续不断的在图片上滚动收集图片里的信息,每一次收集的时候都只是收集一小块像素区域, 然后把收集来的信息进行整理, 这时候整理出来的信息有了一些实际上的呈现, 比如这时的神经网络能看到一些边缘的图片信息, 然后在以同样的步骤, 用类似的批量过滤器扫过产生的这些边缘信息, 神经网络从

这些边缘信息里面总结出更高层的信息结构,比如说总结的边缘能够画出眼睛,鼻子等等.

卷积的重要的物理意义是：一个函数（如：单位响应）在另一个函数（如：输入信号）上的加权叠加，这就是卷积的意义：加权叠加，不同的卷积核提供了不同的加权方式，从而得到鲁棒的特征，进行参数共享，大大减少了参数量，避免过拟合；

03

问题：什么是中文分词？列举出几种你所知的分词方法

答案：中文分词就是将中文按语义分出词语来，与英文不同，中文词语之间没有空格，需要根据语义经验等知识来将一组汉字序列进行切分出一个个词语

中文分词主要分为三种：

（1）机械分词法：是一种基于词典的方法，是将文档中的字符串与词典中的词条一一匹配，如果在词典中找到了某个字符串，则匹配成功，可以切分，否则不予切分。该方法实现简单，使用性强，但对于词典的完备性要求很高。

（2）基于语法和规则的分词方法：是在分词的同时进行句法和语义分析，通过句法和语义信息来标注词性，以解决分词歧义的现象。但汉语语法笼统，复杂，所以该种方法的精度不尽人意，目前仍处于试验阶段。

（3）基于统计的分词法：根据字符串在语料中出现的统计词频来判断其是否构成一个词。词是字的组合，相邻的字同时出现的次数越多越有可能成为一个词。该种方法因精度高，效果稳定，成为目前最流行的一种方法，常见的分词模型有HMM, CRF,biLSTM+CRF 等。

04

问题：现在深度学习在nlp领域有哪些应用？请具体说明

答案：

1.机器翻译，or神经机器翻译（NMT）在翻译中提供了统计方式之外的另一种方式，同时也更加简便。

2.知识问答，问答机器人，可以用深度学习模型，从语料中学习获得一些问题的答案。

3.自然语言生成，能够根据一些关键信息及其在机器内部的表达形式，经过一个规划过程，来自动生成一段高质量的自然语言文本。

05

问题：传统图像处理提取的的sift特征是什么意思？

答案：sift指的是scale invarient feature transform，即尺度不变特征变换。

sift 特征是一种对缩放、旋转、光照变化等不敏感的局部图像特征，其提取过程是先生成图像的尺度空间，然后在尺度空间中检测极值点作为关键点，最后利用关键点邻域的梯度信息生成特征描述符。

06

问题：什么叫过拟合，避免过拟合都有哪些措施？

答案：

过拟合：就是在机器学习中，我么测试模型的时候，提高了在训练数据集的表现力时候，但是在训练集上的表现力反而下降了。

解决方案：

1.正则化

2.在训练模型过程中，调节参数。学习率不要太大.

3.对数据进行交叉验证

4.选择适合训练集合测试集数据的百分比，选取合适的停止训练标准，使对机器的训练在合适

5.在神经网络模型中，我们可以减小权重

07

问题：LR 和 SVM 的联系与区别是什么？

答案：

1.都是分类算法

2.如果不考虑核函数，LR 和SVM都是线性分类算法，也就是说他们的分类决策面都是线性的

3.LR 和SVM都是监督学习算法

4.LR 和SVM的损失函数不同

5.SVM 只考虑局部的边界线附近的点，LR 考虑全局，远离的点对边界线的确定也起作用

08

问题：给你一个有1000列和1百万行的训练数据集，这个数据集是基于分类问题的。经理要求你来降低该数据集的维度以减少模型计算时间，但你的机器内存有限。你会怎么做？（你可以自由做各种实际操作假设。）

答案：

1.由于我们的RAM 很小，首先要关闭机器上正在运行的其他程序，包括网页浏览器等，以确保大部分内存可以使用。

2.我们可以随机采样数据集。这意味着，我们可以创建一个较小的数据集，比如有1000 个变量和30 万行，然后做计算。

3.为了降低维度，我们可以把数值变量和分类变量分开，同时删掉相关联的变量。对于数值变量，我们将使用相关性分析；对于分类变量，我们可以用卡方检验。

4.另外，我们还可以使用PCA（主成分分析），并挑选可以解释在数据集中有最大偏差的成分。

5.利用在线学习算法，如VowpalWabbit（在 Python 中可用）是一个不错的选择。

6.利用Stochastic GradientDescent（随机梯度下降法）建立线性模型也很有帮助。

7.我们也可以用我们对业务的理解来估计各预测变量对响应变量的影响的大小。但是，这是一个主观的方法，如果没有找出有用的预测变量可能会导致信息的显著丢失。

09

问题：给你一个数据集，这个数据集有缺失值，且这些缺失值分布在离中值有1 个标准偏差的范围内。百分之多少的数据不会受到影响？为什么？

答案：约有 32%的数据将不受缺失值的影响。

因为，由于数据分布在中位数附近，让我们先假设这是一个正态分布。我们知道，在一个正态分布中，约有68%的数据位于跟平均数（或众数、中位数）1 个标准差范围内，那么剩下的约32%的数据是不受影响的。因此，约有 32%的数据将不受缺失值的影响。

10

问题：真阳性率和召回有什么关系？写出方程式。

答案：真阳性率=召回。它们有相同的公式（TP / TP + FN）。

11

问题：在k-means或kNN ，我们是用欧氏距离来计算最近的邻居之间的距离。为什么不用曼哈顿距离？

答案：我们不用曼哈顿距离，因为它只计算水平或垂直距离，有维度的限制。另一方面，欧氏距离可用于任何空间的距离计算问题。

因为，数据点可以存在于任何空间，欧氏距离是更可行的选择。

例如：想象一下国际象棋棋盘，象或车所做的移动是由曼哈顿距离计算的，因为它们是在各自的水平和垂直方向做的运动。

原作者链接blog.csdn.net

以下部分专供AI新手小白

基础人工智能面试题

（1）什么是人工智能？

人工智能，是一个计算机科学领域，它强调智能机器的创造，它像人类一样工作和反应。

（2）什么是人工智能神经网络？

人工智能神经网络可以模拟生物大脑的工作方式，使机器能够以与人类相同的方式进行思考和学习：使它们能像我们一样识别语音、物体和动物。

（3）可以使用AI（人工智能）的各个领域是什么？

人工智能可用于许多领域，如计算，语音识别，生物信息学，人形机器人，计算机软件，空间和航空等。

（4）哪种是AI不常用的编程语言？

Perl语言不是AI常用的编程语言。

（5）AI中的Prolog是什么？

在AI中，Prolog是一种基于逻辑的编程语言。

（6）解释强强AI和弱弱AI之间的区别？

强大的AI声称计算机可以在与人类相等的水平上进行思考，而弱AI只是预测一些类似于人类智能的功能可以合并到计算机中，使其成为更有用的工具。

（7）提到统计AI和经典AI之间的区别？

统计AI更关注“归纳”思想，如给定一组模式，诱导趋势等。经典AI更关注作为一组约束给出的“演绎”思想，推导出一个结论等等。

（8）什么是备用，人工，复合和自然键？

备用密钥：排除主密钥所有候选密钥称为备用密钥。

人工密钥：如果没有明显的密钥可以单独使用或复合可用，那么最后的方法是，只需创建一个密钥，通过为每个记录或事件分配一个数字。这被称为人工密钥。

复合键：当没有单个数据元素唯一地定义构造中的出现时，则集成多个元素以为构造创建唯一标识符称为复合键。

自然键：自然键是存储在构造中的数据元素之一，并且用作主键。

（9）生产规则由什么组成？

生产规则包括一组规则和一系列步骤。

（10）哪种搜索方法占用的内存较少？

“深度优先搜索”方法占用的内存较少。

（11）哪种方式可以解决游戏问题？

启发式方法是解决游戏问题的最佳方式，因为它将使用基于智能猜测的技术。

例如，人与计算机之间的国际象棋，因为它将使用蛮力计算，查看数十万个位置。

（12）A * 算法是基于哪种搜索方法？

A *算法基于最佳的第一搜索方法，因为它给出了优化和快速选择路径的想法，并且所有特征都在A *算法中。

（13）混合贝叶斯网络包含什么？

混合贝叶斯网络包含离散和连续变量。

（14）什么是人工智能的代理？

任何通过传感器感知其环境并通过效应器对环境起作用的东西称为代理。代理包括机器人，程序和人类等。

（15）部分订单或计划涉及什么？

在部分订单计划中，不是搜索可能的情况，而是搜索可能计划的空间。这个想法是逐个构建一个计划。

（16）我们在构建计划时可以采取哪两种不同的步骤？

a）添加运营商（行动）

b）在运算符之间添加排序约束

(17）哪个属性被认为不是基于逻辑规则的系统的理想属性？

“附件”被认为不是基于逻辑规则的系统的理想属性。

(18）人工智能中的神经网络是什么？

在人工智能中，神经网络是生物神经系统的仿真，它接收数据，处理数据并根据算法和经验数据给出输出。

(19）什么时候认为算法已完成？

当一个算法存在时，如果算法以解决方案终止，则表示该算法已完成。

(20）什么是启发式函数？

启发式函数在搜索算法中根据可用信息在每个分支步骤中对备选方案进行排序，以决定遵循哪个分支。

(21）规划系统第三部分的功能是什么？

在计划系统中，第三个组件的功能是检测何时找到问题的解决方案。

(22）AI中的“一般性”是什么？

通用性是衡量方法可以适应不同应用领域的容易程度。

(23）什么是自上而下的解析器？

自上而下的解析器首先假设一个句子并连续预测较低级别的成分，直到写入各个前终端符号。

(24）提到广度优先搜索和人工智能中最佳搜索的区别？

这两种策略非常相似。在最佳的第一次搜索中，我们根据评估函数扩展节点。

而在广度优先搜索中，根据父节点的成本函数扩展节点。

(25）“ 人工智能”中的框架和脚本是什么？

框架是语义网络的变体，它是在专家系统中呈现非过程知识的流行方式之一。

作为人工数据结构的框架用于通过表示“刻板情况”将知识划分为子结构。脚本与帧类似，但必须对填充槽的值进行排序。脚本用于自然语言理解系统，以根据系统应该理解的情况组织知识库。

(26）FOPL代表并解释其在人工智能中的作用是什么？

FOPL 代表Predicate Logic 提供的First Order Predicate Logic

a）表达关于某些“世界”的断言的语言

b）演绎设备的推理系统，我们可以从这种断言中得出结论

c）基于集合论的语义

(27）FOPL的语言是什么？

a）一组常数符号

b）一组变量

c）一组谓词符号

d）一组功能符号

e）逻辑连词

f）通用量词和存在限定符

g）平等的特殊二元关系

(28）对于“ 人工智能”中的在线搜索，搜索代理通过交叉计算

和行为进行操作？

在在线搜索中，它将首先采取行动，然后观察环境。

(29）哪种搜索算法在在线搜索中使用有限的内存？

RBFE 和 SMA *将通过使用有限的内存来解决A *无法解决的任何问题。

(30）在“ 人工智能”中你可以使用贝叶斯规则吗？

在人工智能中，为了回答以一个证据为条件的概率查询，可以使用贝叶斯规则。

(31）为了构建贝叶斯模型，需要多少项？

要在 AI 中构建贝叶斯模型，需要三个术语; 它们是一个条件概率和两个无条件概率。

(32）在创建贝叶斯网络时，节点与其前身之间的结果是什么？

在创建贝叶斯网络时，节点与其前身之间的结果是节点可以在条件上独立于其前任。

(33）回答任何问题如何使用贝叶斯网络？

如果贝叶斯网络是联合分布的代表，那么通过对所有相关联合条目求和，它可以解决任何查询。

(34）什么将归纳方法与一阶表示的力量结合起来？

归纳逻辑编程将归纳方法与一阶表示的功能相结合。

(35）在归纳逻辑编程中需要满足什么？

归纳逻辑程序设计的目的是为假设提出一组句子，以满足蕴涵约束。

(36）在自上而下的归纳学习方法中，有多少文字可用？它们都

是什么？

自上而下的归纳学习方法有三种文字：

a）谓词

b）平等和不平等

c）算术文字

(37）哪种算法反转完整的分辨率策略？

“反向分辨率”反转了完整的分辨率，因为它是学习一阶理论的完整算法。

(38）在语音识别中使用什么样的信号？

在语音识别中，声学信号用于识别单词序列。

(39）在语音识别中，哪个模型给出了每个单词后面每个单词的

概率？

Biagram 模型给出了在语音识别中每个单词跟随每个单词的概率。

(40）使用哪种算法求解时间概率推理？

为了解决时间概率推理，使用HMM（隐马尔可夫模型），与转换和传感器模型无关。

(41）什么是隐马尔可夫模型（HMMs ）？

隐马尔可夫模型是一种无处不在的工具，用于建模时间序列数据或模拟序列行为。它们几乎用于所有当前的语音识别系统。

- Posted in: AI

- Tags: 人工智能

0 条评论，429 次阅读

发表回复取消回复

既然来了，说些什么？

My Secret Rainbow