永远期待从非结构化数据中获得更多

自从基于文本的信息开始激增以来,对管理文本信 永远期待从非结构 息的软件的需求也随之激增。传统上,这种软件基于所谓的关键字技术,因为这是访问和分析信息最简单、最合理、最有效的方法。事实上,随着信息不断增长,事实证明这并不完全正确。

关键字技术使用的算法侧重于匹配,而不是理解每个搜索词的确切含义。当我们没有其他选择或需要处理的信息量有限时,这种技术非常有用。然而,越来越多的组织在其数据库、文件共享系统和 CRM 中面临着不断增长的非结构化数据量(例如文本、电子邮件、业务文档等)。如果不真正了解这些数据,这些公司在获取洞察力和提取知识以支持有效决策方面的能力将受到严重限制。

问题是,这些组织如何有效地利用其非结构化数据来获取有意义的信息?

利用 NLU(自然语言理解)技术理解非结构化数据

NLU 技术以模拟人类理解信息的方式理解文本。例如,即使文本中没有明确提到这两个词,它也可以识别出文本是关于“教育”和“体育”的。相反,它使用与它们相关的概念(教育:学校、辅导、老师、数学等;体育:比赛、球队、得分、足球、四分卫等)来建立联系。

更重要的是,它能够理解会话语言及 手机号码数据 其所有歧义(俚语、缩写、多语言文本),不仅可以理解单词,还可以理解用户的意图。这在衡量 2020 年美国总统大选的选民意图方面特别有价值。通过分析超过 条推文的情绪,我们在社会研究公司 Sociometrica 的帮助下,提供了比传统民意调查更准确的意图指示。

几年前,Sociometrica针对 Twitter 用户前往意大利罗马的旅行意向(即热门目的地和其他旅行物流)进行了类似的分析。这项分析展示了该技术分析非结构化文本的能力,以及它在建立单词和概念之间的联系方面的优势。

在分析的多条评论中

大多数都集中在我们系统归类为“交通”的主题上,例如航班、航空旅行、出租车、公交车和地铁。通过这种方式,NLU 技术根据评论中明示或暗示的主题对评论进行分类,并建立了评论者提到的热门概念的层次结构。

同样的,NLU 技术能够区分模糊信息,从而确定“便宜”这一价值判断的正确语境。这个词的意思可能是好、便宜,也可能表示质量差,但如果没有从正确的语言分析(形态和语法、句法、词汇)中捕 如果您想提高电子邮件营销的效果 捉整体语境的能力,就很难区分两个或多个含义。

这里不是对关键词的猜测,而是对一个词有多种含义,以及一组具有相同含义或与相同含义相关的词的区分能力。

NLU技术的商业优势

在商业领域,分析师需要不断了解越来越多的信息。虽然有 香港领先 很多优秀的系统可以分析结构化数据,但用于处理非结构化信息的基于关键字的系统需要不断开发(和预测)新的关键字列表和信息,以避免性能下降。

问题是,大多数组织没有时间或资源进行常规文档培训,以满足他们对更深入知识的需求。手动思考所有可能具有相同含义的术语或表达方式的多种方式几乎是不可能的,无论是用英语还是其他语言。更不用说,有许多见解或低调趋势被低估或忽视了。

那么 NLU 是每个分析师的灵丹妙药吗?当然不是。关键字可能很有用,但我们知道它们的局限性。通过分面搜索将 NLU 与关键字技术集成是一种混合解决方案,可以根据特定顺序或类别沿不同路径进一步细化搜索。它甚至可以成为开始迁移到完全基于 NLU 的搜索的解决方案。

最终,公司对非结构化数据抱有更高的期望。他们也应该这样做。但仅仅访问非结构化数据是不够的;它需要得到准确的处理。让 NLU 指引您前进。

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注

滚动至顶部