随着互联网的高速发展,网络信息量不断增加,各种搜索引擎已经成为了人们获取知识和学习资源最常用、最快捷有效方式。而作为一个新兴事物——Web网页也是如此。在这种环境下我们需要的是更加方便快捷地搜索自己所需并具有针对性强以及使用起来更便捷的网站来进行答题服务;同时还应该能够满足用户对检索结果查询需求等方面的要求,从而使得搜索引擎得到了快速发展并且成为主流趋势之一,这就为网络信息时代提供了巨大契机和广阔前景。而现在的网络信息时代,人们对搜索引擎更加依赖,同时也提出了更高要求。因此在这种环境下需要一个便捷高效、快速准确查询结果以及能实时更新数据的工具。[1]而本文所提出的基于Neo4j图数据库系统是一个非常好的解决方案,它可以快速有效地解决上述问题。
1.2 研究目的及内容
本文的主要研究目的是将传统文本问答系统中存在的问题进行信息化,以提高古诗词信息检索效率,并为广大用户提供一个方便快捷、高效便捷且具有良好交互性和安全性等优点。本文主要内容是从基于互联网技术发展背景下提出了一种新时代互联网+文摘平台来解决古诗词答题模式滞后现状。[2]该体系利用图数据库实现数据共享以及文本内容分析与查询功能;通过对现有的文献资料进行整合分类及整理,设计出一种基于图数据库的古诗词问答系统,实现对网络上各种信息资源进行有效整合,并利用该平台,帮助广大网民快速了解古诗词相关知识。[3]该系统能够实现古诗词问答平台的信息查询和检索功能,使网络上各种不同类型答题形式进行在线,并对相关专家以及学者提供了有效、便捷地解决方案。
3 古诗词问答系统结构设计
3.1 网络爬虫
随着科学技术的飞速发展,互联网已经成为许多信息的载体。如何有效地提取和利用这些信息已经成为一个巨大的挑战。为了解决这些问题,网络爬虫技术应运而生。网络爬虫,又称网络蜘蛛或网络机器人,可以根据一定的规则自动或半自动地对互联网上的各种数据进行爬取。[3]根据系统结构和实现技术,网络爬虫大致可以分为两类:通用网络爬虫和聚焦网络爬虫。网络爬虫是一种在网页上进行快速有效的信息获取方法,它可以通过对文本内容分析,来发现隐藏于数据库中的有用数据。网络爬虫主要是通过网页的结构和主题来获取数据库中包含有哪些重要信息,文本关键词抓取。
在本系统中使用的是聚焦网络爬虫,使用lxml模块对古诗文网的相关诗词进行爬取,lxml使用的是 Xpath 语法,相比于BeautifulSoup同样是效率比较高的解析方法。用户也可以根据自己需求将需要进行关键字查找并提取出相应的数据集作为检索结果样本库,从而实现对图数据库内容分析、抽取以及分类等操作过程;也可按特定规则搜索对应文本进行抓取并存储到大文件页面用于获取相关关键词汇或属性来提高查询效率和质量。