返回

非结构化数据一站式搜索解决方案

一、项目背景

国家电网公司通过多年信息化建设,已经建立九大业务体系,四大数据集中管理平台,其中非结构化数据平台数据总条数达到5.4亿,存储总量410T,数据存储增长7.9T/月。非结构化数据平台中的数据仍然按业务条线进行存储、管理和利用,导致跨业务、跨系统的数据难以获取。非结构化数据一站式搜索旨在以业务需求及用户体验为驱动,提供跨业务、跨系统、强关联的各类非结构化数据一站式搜索公共服务。

二、问题与挑战

1.搜索深度不同,项目管理系统无搜索功能;知识管理系统仅提供标题搜索;协同办公系统支持全文搜索,但无法实现关联检索。

2.技术不同,现有系统搜索功能采用技术路线不统一,有Domino、Autonomy等商业软件,也有自主研发的检索功能,不能实现统一的集成与检索。

3.无跨系统检索,目前信息化系统产生的数据分散于多个系统中,如果查找资料需到每个系统分别检索。

4.业界差距较大,谷歌、百度等互联网搜索引擎提供了自动推荐、智能检索等智能化应用,而企业内部的搜索,没有实现智能化,用户体验不佳。

三、解决方案

1.采用分布式搜索引擎技术对全业务系统的非结构化数据构建索引,实现对数据的全文检索。

1539078936128446.jpg


2.采用自然语言技术对文档相似度、文档特征、关联词进行分析,实现同义近义检索、关联检索、检索词联想等功能。

1539079354877257.jpg


3.采用用户画像、文档画像、推荐技术等,对用户浏览历史等进行分析,实现基于文档相似度的推荐、基于用户兴趣度的推荐、基于协同过滤的推荐,为用户主动推送可能关注的文档资料。

1539079611776678.jpg


四、应用创新

1.构建专业词库,该词库从非结构化平台中的文档提取,对于特定业务文档的分析建模起到关键作用。

2.采用词向量构建电力关联词库,为扩展搜索结果和个性化推荐提供依据。

3.采用兴趣模型对用户进行画像,并根据兴趣模型提供个性化推荐。

4.在搜索展示结果上引入业务关系图谱和时间脉络图谱,提供更适用于业务需求的展示方式。

五、相关案例

国家电网非结构化数据一站式搜索系统