0

我们想找出人与人之间的联系,根据他们的讲话假设,谈话是一首诗,台词属于人物。诗多,行杂。现在我们要定义每行所属的会话。我们假设,谈话中的人使用相似的词(他们的字典应该是相似的)。这意味着人A的单词和属于人B的单词之间存在相关性,我们可以发现有对话的人们之间的联系。NLP之后的内容理解的下一步是什么?你们中有人能就学习领域和工具/图书馆向我们提供建议吗?哪个处理内容处理?也许吧,你们中的一些人知道好的文章或在线资源,这有助于我们深入这个领域。

  • 内容分析中的瓶颈称为基础。这是两个人在对话中的共同知识。在经典NLP中,接地很难解决,更容易的任务是切换到虚拟现实中的角必威电竞色。在童话游戏中,共享知识是在游戏中建模的。关于地方,感觉和经历。如果一个对话中有两个字符,则可以解析,解释和预测言语行为。- 洛曼雷 18年11月29日9:24
0

这真的是两个问题-必威英雄联盟
1。如何为特定的演讲者分配对话中的行
2。如何分析说话人的话语内容

我将尝试回答第一个问题。

话语分析(研究对话的领域)有一个概念相邻对,请通常相互联系的话语。一个形式良好的对话可以被分割成一系列的邻接对,例如问候/问候,问题/回答/反馈(更多的是“相邻三个”),声明/评论,再见/再见。有时候会有点棘手,如问答:

年轻人:你们有什么啤酒?是吗?(q)
酒保:你多大了?是吗?(计数器Q)
年轻人:二十一(一)
酒保:我们有一个淡啤酒或一个好的ipa。(一)

我不知道这个以前有没有试过,但是应该比较容易识别言语行为在谈话中,把他们联系起来形成相关的邻接对。这比看词汇表要可靠得多,尤其是因为谈话大多使用频率更高的词汇,这是每个人活跃词汇的一部分。

你需要进行一些对话,将单独的行分类为语音行为(这样做的同时建立一个清单)。然后识别相邻对。这将为您提供对话的结构,还应该允许你为发言者分配发言权(假设是对话,只有两个参与者)。注意,决定言语行为的并非总是纯粹的形式:你好吗?是吗?表面上是个问题,但它的功能是问候序列的一部分。

这种对话结构还可以帮助您了解第二部分,内容。如果你知道有人问问题,必威英雄联盟必威电竞其他参与者回答,然后你就知道在哪里可以找到明显的话语,这些话语可能会给你关于谈话主题的线索。至少它能让你忽略“家政”的话语,如问候和告别等。

你的第二个问题很难回答,不知道更多关于你的项目的目的。我会把这个改成一个单独的问题。必威电竞人们需要知道他们是什么样的对话,你到底想从中得到什么。

哦,我不会把谈话和诗歌相比较。完全不同的东西!:)

0

将一组消息组合在一起,目的是将会话组合在一起,这与使用覆盖的索引信息重新构建驱动器具有相同的过程功能。重新组装混装的破损物品,或根据频谱将音乐与适当的音符分配给工作人员。在所有情况下,目标都是发展不再直接可见的关联。

这个问题明确地将内容分析表述为意图,在这个问答中没有提到语音识别是问题的一部分,并陈述,“NLP之后。”我们可以假设输入是文本,不是声音,系统基于语言的使用,不是语言,从系统分析的角度来看。

使用词汇来驱动重新组装是合理的,但并没有获得重要的附加提示。暗示是一种概率关联,词汇的熵太高,不能作为信息关联的主要决定因素。消息中封装的短语在单个会话中彼此相邻时共享一个主题。在会话中消息的时间顺序中,是单向的因果关系引用,这样按相反顺序排列的消息序列将缺乏会话的一致性。虽然同一组的人有共同的词汇,在一个大的消息池中,词汇将在许多对话中共享,因此在词汇,主题,基于引用的提示是。

我们要定义每个[消息]所属的[对话]。

考虑一组$C$对话,,请$\mathbb c:c 1,CY2…CYC\$$和一套$M$信息,,请$\mathbb m:m 1,M_2号,…百万美元.每条消息都有以UTF-8或其他一些编码方式编码的文本。其目的是开发序列,使以下内容有一定的概率大部分是正确的。如果真的发生了,完全肯定是不寻常的。

分布可以通过定义$P(I,J\ell)美元作为概率百万美元在位置索引处美元\ell$在交谈中$Ci-I$.我们可以看到,在会话中属于特定位置的消息的概率集不容易直接从消息内容中确定。

$$ \ {p(i)J1)\P(I)J2);圆点\大\=f(\mathbb c,\MathbB{M},我,J)$$

然而,如果我们将对话定义为至少一条消息的序列,我们知道对于所有消息的任何给定的提议关联映射,每个消息都属于一个会话中的一个位置。如果数据的边界是干净的,在消息中没有不完整的会话和每个会话的长度。$Ci-I$$si-i$我们可以确定更多。

$$FALALL;我在[ 1,SIIⅠ;土地;J in in [ 1,M】\,,请;总i=1 ^c p(i,J\ELL)=1美元

使用该模型进行训练需要找到一种算法,该算法收敛到一组完整的概率。

如果从数据集中收集了一些对话,那么有监督的学习是可能的,可能使用LSTM人工网络类型,但必须在某些基础上实现融合,用损失函数表示。在这种情况下,一条给定信息的概率数组的发散,使得一条消息的概率明显高于另一条消息的概率是客观的,所以损失是相反的。

也可以采用直接的朴素贝叶斯方法。如果没有更多的信息和一些最好的实验,这是不清楚的。

以上列出了概率的主要驱动因素(词汇,主题,参考文献)。除非认知是系统中包含的人工智能能力之一(这需要时间机器)。与词汇相关的概率,主题,因果关系参考必须基于三个更直接可用的量。

  • 词匹配
  • 单词在整体数据集中的频率或使用的语言
  • 词的邻接

这些情况可能有助于阐明上述情况。

赞成,如果邮箱不那么脆弱的话,他肯定是个好人。

我儿子刚刚登上了荣誉榜。

当约书亚翻过邮箱的时候,这有点扼杀了他去的机会。

人工智能系统不需要知道那些在第一和第三条信息中说话的人是年轻人,他们正在计划一个活动,而约书亚对汽车的使用被限制在开始进行对话。$Ci-I$其中包括$MY3$美元\ell$百万美元$ \ EL+ 1美元.它们可能是同一对话中的消息,也可能是按时间倒序排列的。

这种可能性的结果不以定冠词为基础。这个,请这在语言中似乎太多了,无法作为概率决定因素发挥价值。第二条信息显然不在与其他两个人的对话中,但包含这个作为两个词名词的一部分荣誉榜(因为用形容词不容易得出意思)荣誉从这个词现在名词很少被自己使用。过去式动词翻滚由语言成分组成-ED作为过去式的结尾。元素在这种情况下,可能是一个适得其反的关联决定因素。代词也太常见,无法强烈表示关联。

单词对邮箱是两个单词的组合,每种语言的频率都比这个.结合起来,它们是话题的重要决定因素。这就是邻接性证明其概率重要性的地方。NLP是否返回邮箱,邮箱或者邮箱不能总是已知的。口语抽象怀疑可能永远不会变成这样的新词斯米拉拉特.即使是这样,这将是一个更强有力的指标怀疑他,请但少了一个不寻常的专有名称,比如怀疑Jalisia.

随着复杂度的提高和培训数据量的增加,人工智能系统有可能,没有充分的认知,认识到单词triplet是一个因果提示,它增加了引用与上述顺序相反的可能性。

有一些工具和库可以执行对话的重组,损坏的驱动器,一袋一袋的碎纸,但他们是公司机密,不是开源的。寻找语义重构,请对于区别对话,请对于各种其他的同义词和术语排列,无论是在学术上还是在一般的搜索中都没有收获。

法律要求咨询从业者从头开始重组。最终,知识产权将在某一领域渗透到一般知识中,但在撰写本文时,每个项目都是一个开拓性的项目。

尽管如此,有时令人惊讶的是,每一个实现都变得如此不同,即使是由同一个人工智能工程师开发的。初始尝试失败,进一步的要求被收集起来,适应数据可用性挑战,以及与公司数据库的集成,应用,过程,而约定会对系统施加约束。质量和可接受性期望常常推动开发远离过去有效的解决方案,尤其是在成分池的统计分布不同的情况下。

你的答案

点击“发布你的答案”,请您确认已阅读我们的更新服务条款,请,请隐私政策cookie策略,请您继续使用本网站必须遵守这些政策。

不是你要找的答案?浏览标记的其他问题必威英雄联盟 必威电竞问你自己的问题.