1引言
在網絡和電子等技術的發展影響下,每天網絡中產生大量的數據,圖靈獎獲得者Jim Gray提出了一個關于網絡環境下數據量的定律:網絡環境下每18個月產生的數據量等于有史以來數據量之和[1].如此海量的數據 中蘊含 著大量有用的信息[2],檢索正是實現信息發現的有效方法。信息檢索是指將信息按照一定的方式組織存儲起來,并根據用戶的需求檢索出有關信息的過程[3].信息檢索經歷了手工檢索、計算機檢索到網絡化、智能化檢索等多個發展階段,檢索的內容也從最初的獨立的、穩定的、相對封閉的內容變為形式多樣、動態、更新快、分布廣泛、管理松散的數據信息。隨著信息多樣化和信息檢索能力的要求,基于關鍵詞匹配算法的傳統檢索檢索方法雖然快捷、簡單,但檢準率低,已無法有效實現檢索,不能滿足檢索要求和結果的個性化呈現[3].適應網絡化、智能化以及個性化的需要是信息檢索技術發展的必然趨勢[4],由此智能檢索技術應運而生。
2智能信息檢索技術及應用
2.1智能信息檢索技術
智能信息檢索是在傳統信息檢索方法的基礎上,運用人工智能技術,對所檢索的內容分析、理解、推理、決策等,并以良好的形式展現給用戶。它除了提供傳統的快速檢索,相關度排序等功能,還提供用戶角色登記、用戶興趣自動識別、內容的語義理解、智能化信息過濾和推送等功能。智能信息檢索將信息檢索從基于關鍵詞層面提高到基于知識(或概念)層面。理想的智能信息檢索系統應具有的主要功能:提供多種樣式的檢索能力;語義推理能力;基于自然語言或其他語言;信息的及時更新;能力擴充;個性化結果呈現等。
根據信息檢索技術的不同,智能信息檢索系統的特點和應用領域存在較大差異。其中典型的智能信息檢索技術有:基于垂直搜索的信息檢索技術、基于語料庫的信息檢索技術和基于語義網的信息檢索技術等。
2.2基于垂直搜索的信息檢索技術及應用
垂直搜索是專業領域檢索的典型技術,通過針對某一特定領域、某一特定人群或某一特定需求提供的有一定價值的信息和相關服務,其具專、精、深的特點,且具有行業色彩。文獻[5]以12580餐飲垂直檢索為例,提出針對垂直檢索的策略,對垂直檢索的查詢效率、查準率、信息抽取等方面進行改進。垂直檢索相比一般的檢索,其檢索內容的范圍具體,更容易獲取需要的信息。例如搜狗購物、360團購等都是典型購物檢索引擎。
2.3基于語料庫的信息檢索技術及應用
基于語料庫的信息檢索是以語料庫為基礎,通過在語料庫中對查詢信息的語義匹配分析,查找相關語義的信息內容?;谡Z料庫的信息檢索技術廣泛應用于不同形式的自然語言之間的信息檢索,例如中英文平行檢索、文言文檢索等。文獻[6]提出一種基于語料庫的跨語言信息檢索方法。通過語料庫將一種語言形式的檢索語句轉變為其他語言形式,實現跨語言的信息檢索。
2.4基于語義網的信息檢索技術及應用
基于語義網的信息檢索技術是在對信息進行由下而上組織表示的基礎上,對信息和信息之間關系的發現和檢索?;谡Z義網的信息檢索技術已經廣泛應用于數字圖書館、電子商務、電子政務等多個領域。
在數字圖書信息檢索領域,文獻[7]提出基于智能引擎的智能信息檢索方法,采用語義網技術體系中的本體方法,在知識層面對數字圖書館中的信息進行表示,從檢索意圖的分析與判斷能力、知識庫動態監視和更新反應功能、各種形式的信息廣泛整合支持、靈活檢索機制、專業層面的強大索引功能等方面改進數據圖書館的檢索效率。
在電子商務領域,文獻[8]智能信息檢索為解決網絡時代企業信息膨脹而提出面向電子商務領域,專門設計改進搜索引擎,提出使用基于語義Web的電子商務核心語言,實現在電子商務領域智能信息檢索的高效檢索和高檢準率?;诖砗蜋C器學習的智能信息檢索技術在電子商務領域中的應用為系統使用者提供更加個性化的信息推送和檢索結果排序,根據對使用者購買記錄、關注點、操作習慣等方面的分析,電子商務中的智能信息檢索為每個使用者提供了“量身定制”的個性化檢索引擎。例如淘寶網,京東商城等電子商務網站都開始將這種個性化的服務提供給用戶。
以上三種典型的智能信息檢索技術在技術、適用范圍、應用情況、各自優缺點等方面的對比如表1所示?;谡Z義網的信息檢索技術實現了知識層面的信息檢索,尤其在查全率、個性化、隱含知識發現等方面優勢突出,成為智能信息檢索技術中的主流技術之一。本文以基于語義網的智能信息檢索技術為例,對采用該技術系統的體系架構進行設計、對關鍵技術進行介紹。
3基于語義網的智能檢索技術體系架構
基于語義網的智能信息檢索技術是數據資源采用語義網技術體系統一描述的基礎上,引入自然語言識別,采用自然語言對數據進行檢索。它是語義網技術,檢索技術,人機交互技術,自然語言識別技術等多種技術的綜合,本文構建的體系結構由數據獲取、數據語義處理、語言轉換和應用共四層組成,為在應用層面保障交互環境的可信,在四層結構中引入安全和可信技術,其體系結構如圖1所示。
數據獲取層主要實現對獲取的數據進行處理,為上一層的語義處理提供該領域內數據的來源。
根據數據的組織形式,領域中的數據主要分為兩類:結構化數據和非結構化數據。結構化數據采用標準的、統一的格式,對數據進行組織。非結構化數據是指結構未經標準化的文檔、語音資料、視頻資料等。非結構化數據經過識別、提取和轉換等手段對其中的有用信息進行抽取,采用結構化形式進行數據描述。其他領域相關數據和抽取后的結構化數據匯集起來成為領域數據。
數據語義處理層的實現是在對領域內數據采用統一編碼描述的基礎上,運用資源描述框架、本體、邏輯、證明和數字證書等技術,形成領域內本體數據庫,在語義層實現對數據和數據關系的檢索。索引的建立有利于對領域內整體情況的理解,也有利于對知識進行針對性檢索。
語言轉換層主要實現非規范檢索語言到規范檢索語言的映射轉換。若輸入為自然語言,系統通過自然語言識別,對自然語言進行詞法分析、語法分析,并按照規范語法,對自然語言中的元素進行重新組織,形成規范化的查詢語句,例如SPARQL查詢語句等。
應用層是系統對用戶所提供的應用接口。用戶既可以是人也可以是其他系統。安全和可信技術在各層中的具體功能不同,在數據獲取層,安全和可信技術主要確保獲取數據的可信和數據存儲的安全等;在數據語義處理層,它主要控制對數據的非法訪問;在語言轉換層,可信技術要確保轉換規則的正確,保證語言轉換前后語義的正確;在應用層采用的安全和可信技術更為豐富,從應用的角度確保系統整體數據環境和對外接口等方面的安全和可信。
4基于語義網的智能信息檢索關鍵技術
4.1領域本體建立
智能信息檢索系統的構建是由智能信息檢索所面對的信息、使用者、系統的功能性要求、非功能性要求、系統的軟硬件環境、安全環境等共同影響的。這些共同的影響因素共同形成了領域特點,針對不同的領域,需要進行領域信息的表示。由于本體具有對信息組織表示和描述信息之間的內在聯系的能力。所以本體論成為知識獲取和表示、規劃、進程管理、數據庫框架集成、自然語言處理和企業模擬等研究領域的核心?;诒倔w論的知識庫的建立將提供一個內容豐富和現代的框架以實現術語的規范、服務和管理[9].為實現對數據的語義檢索,采用本體技術對結構化數據或從非結構化數據中提取的結構化信息進行描述,描述的基礎是領域本體庫的建立。領域本體庫建立的步驟[10]通常為
1)明確業務領域。一般從領域的具體業務流程出發,重點關注領域所涉及的業務對象、關系、規則、限制、與其他領域關系等;
2)屬性建立。根據對業務領域的理解,抽象出領域內的實體成為本體,并對其屬性進行描述;
3)明確屬性約束;
4)明確本體關系;
5)明確函數、限制、規則和公理等。