lawpalyer logo

資訊系統與資訊檢索概要考古題|歷屆國考試題彙整

橫跨多種國家考試的資訊系統與資訊檢索概要歷屆試題(選擇題 + 申論題)

年份:

圖書資訊管理 100 題

Metadata 的建置有助於提升資訊檢索的精確率,試說明國際通用 Metadata 格式Dublin Core 的15 項核心元素和簡要著錄原則。(25 分)
資訊檢索(IR)與資料探勘(Data Mining)的核心目標有何異同?請以 圖書館應用來說明。(25 分)
請說明圖書館在數位資源整合平台(如Discovery Service)中所扮演的 角色與管理挑戰。(25 分)
試從使用者的角度,闡述您認為生成式AI 的發展,將對資訊檢索技術 及使用者行為造成何種影響?(25 分)
為了解決圖書館館藏資源使用不均的情形,可採取那些資訊技術策略來 促進資源再利用與精準推薦?(25 分)
以下是一個典型的混淆矩陣(Confusion Matrix) 判定為正類P 判定為負類N 實際為正類P TP(正確判定為正類) FN(誤判正類為負類) 實際為負類N FP(誤判負類為正類) TN(正確判定為負類) 若將其應用於資訊檢索系統之成效評估時,試闡述其中的TP、FP、 FN、TN 所代表之意涵。(20 分) 假設TP=40、FP=10、FN=15、TN=35,試問資訊檢索之查準率 (Precision,又稱精確率)與查全率(Recall,又稱回收率)分別為多 少?(5 分)
布林邏輯(Boolean Logic)常見的運算符號有AND、OR、NOT,試說 明此三者之意涵及其在資訊檢索上的應用為何?(25 分)
生成式人工智慧在資訊檢索領域帶來了那些新的可能性與挑戰?(25 分)
請論述鏈結資料目錄(Linked Data Catalog)與資源探索系統(Discovery System)有何不同?(25 分)
圖書館常見的門禁認證系統有那些種類?每類系統的優點和缺點為何? (25 分)
自然語言處理(Natural Language Processing, NLP)是資訊檢索系統中的 應用之一。請說明NLP 如何提高檢索準確率,並舉出兩個應用實例。 (25 分)
近年來除了期刊的期刊影響指數(Journal Impact Factor, JIF)外,也有所 謂的圖書引文指標(Book citation metrics)。請論述圖書引文指標的實例 之一—商業出版社Springer 提供所謂的Bookmetrix 與JIF 有何不同? (25 分)
圖書館自動化管理可應用RFID(Radio Frequency Identification)技術, 何謂RFID?RFID 的主要組成有那些部分?(25 分)
近年來,Altmetrics 已逐漸受到重視與應用,作為資訊檢索結果之參考指 標,請論述圖書館可應用Altmetrics 所達成資訊服務之角色與功效為何? (25 分)
請論述比較PageRank 與TF/IDF(Term Frequency/Inverse Document Frequency)的差異,包括對象與功能。(25 分)
請說明資訊安全的基本需求有那些?並說明資訊安全在圖書館有那些 應用?(25 分)
試說明主題分析及其重要性,以及進行主題分析時應注意的事項。(25 分)
何謂搜尋策略(search strategy)?(10分)又請說明珍珠成長搜尋策略 (pearl growing search strategy)。(15分)
試說明布林邏輯(Boolean logic)檢索技巧及其缺點,以及如何使用權重 (weight)來解決布林邏輯檢索結果沒有排序的缺點。(25 分)
在網際網路(Internet)上為了提供線上資訊給所有人包括失能(disability) 的讀者,所以網頁存取性(web accessibility)需要考慮一些原則,請列舉 五個並說明。(25分)
傳統上,進行文件檢索的評分時,採用的是recall(查全率)與precision (查準率),這是一種適用於無排序之檢索結果(non-ranked retrieved list) 的評量尺度。然而,多數的資訊檢索系統的檢索結果都是排序的,這也 符合使用者的期待,畢竟第1 篇文件就是相關文件,與第20 篇文件才 是相關文件,對使用者而言,感覺是截然不同的。試說明並舉例資訊檢 索的評價指標MRR、MAP 和NDCG。(25 分)
使用Google搜尋灰色文獻有何益處?又有何限制或缺點?請各列舉五個 並說明。(25分)
試說明人工智慧的研究領域及應用人工智慧於圖書館實務工作的資訊 系統。(25 分)
請闡述Discovery Services系統的做法,又與Google Search有何不同?(25分)
檢索相關文件的指標,包括精確率(Precision rate)、回現率(Recall rate) 與正確率(Accuracy rate)。請說明各指標的意義、計算方式與實務上判 定可能的問題。(25 分)
何謂資料視覺化(Data visualization)?其重要因素與優點為何?試舉例 二項實例來說明資料視覺化的施行重點要素。(25 分)
資料庫的鍵(key)是表格(table)中一個或一組欄位的集合,主要目的 是區隔紀錄(record)的唯一性,或是作為表格關聯的依據。評估作為主 鍵(Primary key)的評估原則為何?除了主鍵之外,還有那些鍵的類型? 其意義為何?(25 分)
學者T.D. Wilson 提出資訊尋求行為模型,並分別於不同年代修正理論模 型,請說明該理論模型的要素與內容重點。(25 分)
網頁使用者經驗(User eXperience, UX)應該進行那些層面的操作和執 行設計?(25 分)
圖書館相關資訊系統規劃與新科技的導入如何針對當代的環保節能等 永續發展議題而有所因應,請說明相關配套措施與原則。(25 分)
資訊安全與隱私權於數位時代是很重要的議題,請說明影響資訊安全的 因素與樣態,如何防範圖書館相關資訊系統受到資訊安全的威脅?如何 為圖書館擬定資訊安全政策?(25 分)
機器學習(Marchine learning)可以提供推薦及資訊檢索的相關應用。 機器學習的規則主要包含那三種方法(Learning methods),請分別說 明之。(25 分)
依照下表1 檢索情況 表1 甲與乙檢索資料結果表 相關數目 不相關數目 檢索者 甲 乙 甲 乙 檢索到資料 80 70 20 30 未檢索到資料 20 0 20 30 請就精確率(precision ratio)、回現率(recall ratio)、精確率補充 (complement of precision)及回現率補充(complement of recall)等四個 方向說明並分別計算甲及乙的精確率、回現率、精確率補充及回現率補 充。(20 分)並就甲及乙檢索者比較其檢索品質。(5 分)
資訊系統很強調使用者經驗(user experience),一般在衡量(measure) 使用者經驗可從二種觀點上來看。一是績效表現(performance),另一個 是滿意程度(satisfaction)。請就績效表現來探討。 任務成功(task success)是最被廣泛運用在績效表現衡量測度(metric)。 請闡述並舉例二元成功(binary success)。(15 分) 請再舉出二個績效表現衡量的測度並加以說明。(10 分)
闡述概念為基礎(concept based)技術檢索的方式。(15 分) 並說明其優點、限制與改善的方法。(10 分)
請說明分區組合(block building)檢索,並以主題甲、主題乙及主題 丙為例。(10 分) 請說明主題層面配對(pairwise facets)檢索,並以主題甲、主題乙及 主題丙為例。(10 分) 試比較分區組合檢索與主題層面配對檢索。(5 分)
請問在商業上常用的資料探勘與目前相當熱門的文字探勘應用,兩者有 何異同之處?(25分)
試分別說明內容為基礎之多媒體檢索(Content-based Multimedia Retrieval)如何利用影像(Image)、聲音(Audio)及視訊(Video)的內 容特徵,進行多媒體檢索?相較於利用文字(Text)描述多媒體資訊,並 以文字間接進行多媒體檢索的方式,直接以內容特徵進行多媒體檢索的 優缺點為何?(25分)
試從檢索效益評估的角度分析資源與服務的取用性(accessibility,亦可 翻為可及性)及使用性(usability)有何不同?(25分)
Word2Vec為一種Word Embedding的技術,請說明Word2Vec的技術內涵 為何?相較於TF×IDF所決定的詞向量,採用Word2Vec所決定詞向量於 向量空間模型(Vector Space Model)所設計的資訊檢索系統,其優缺點 分別為何?(25分)
大數據分析為目前各行各業均視為極重要的技術,請問就你所知圖書館 有那些大數據可以進行分析,你預期能做出何種分析結論作為決策依 據。(25分)
現今網路上充斥著許多形形色色的資源,怎樣選擇、評估這些檢索到的資 源已成為重要課題。試分別說明何謂資訊的正確性(Accuracy)、權威性 (Authority)、客觀性(Objectivity)、涵蓋性(Coverage)及時效性 (Currency)?如何從這五個面向來判斷所檢索資訊的可信度?(25分)
目前圖書館書籍編目是採中國圖書分類法,而博碩士論文是以院、系、 所別進行歸類,請問這兩種分類方式有何差異?碩博士論文如果也比照 書籍分類方式,試說明應如何實現。(25分)
試說明搜尋引擎提供動態查詢語句建議(Dynamic Query Suggestions)的 目的為何?要達成有助於使用者的動態查詢語句建議,在技術上需要考量 那些面向?提供這樣的服務對於搜尋引擎效能的主要挑戰為何?(25分)
請以資料、用戶、服務三個面向,說明數位圖書館(Digital Library)與 網頁搜尋引擎(Web Search Engine)之差異。(25 分)
請闡述鏈結開放資料(linked open data)及5 star scheme,並說明圖書館 扮演的角色。(25 分)
當系統沒有要求使用者登入時,如何取得使用者查詢紀錄;若系統有要 求使用者登入時,如何得知其之前的查詢條件?(25 分)
請說明評鑑資訊檢索系統時應考量的面向。(25 分)
假設某機構有一萬筆文件資料,擬採購檢索系統,針對A、B 兩套系統 做成效評估的比較:針對查詢詞T,已知有5 筆相關文件,其中A 系統 回應有10 筆資料,其第1、3、9、10 筆為相關文件,而B 系統回應有6 筆資料,其第2、3、5 筆為相關文件。就查詢詞T 而言,計算並比較說 明其檢索成效。(25 分)
詮釋資料(metadata)的互通有助於電腦網路間的檢索。請闡述詮釋資 料互通的三種類型。(25 分)
在有N 篇文長近似的文件(如N 篇摘要,都約300 詞)的全文檢索系統 中,索引詞彙T 在每一篇文件都有其權重。最簡單的詞彙權重設定方式 是布林(Boolean)邏輯方式,亦即詞彙T 出現在文件D,則其權重為1, 若沒出現在文件D 則其權重為0。另一種詞彙權重設定方式為TF x IDF, 亦即:T 出現在D 的次數(或是正規化後之詞頻,TF)「乘以」T 在N 篇文件中出現篇數的倒數(或是正規化後之文件篇數倒數,IDF)。請說 明並比較布林權重、TF、IDF 及TF x IDF 等四種權重方式,對相關文件 排序的影響。(25 分)
圖書館為因應資訊科技的快速變遷,持續發展圖書館自動化系統,請說 明圖書館自動化系統的模組及其各功能。(25 分)
對於使用者而言,經常會以自己的方式,輸入查詢問句(Queries),例 如,輸入「台灣傳奇」,卻希望能夠不管是簡寫「台」或是正體「臺」 的相關資料都能夠檢索出來。請說明資訊檢索系統可如何滿足這樣的需 求?(25 分)
檢索系統中,有所謂「字彙不匹配」(vocabulary mismatch)問題。 請舉例說明其意義。(10 分) 請舉出系統處理字彙不匹配問題的兩種策略。(15 分)
過去圖書館典藏實體資源,為提供使用者有效檢索,圖書館資訊系統索 引大量的書目資料。隨著電子資源的快速增加,圖書館亦開始建構自有 的數位化資源。請以服務提供者的角度,說明書目資料的檢索與全文資 料的檢索在檢索功能的開發上可考量的因素為何?(25 分)
假設某機構擬針對其一萬筆文件分成10 個主題類別(假設每篇文件僅能屬於某一主 題類別),以提供瀏覽或是讓使用者依類別訂閱文件(爾後有該類新文件,會自動派 送給使用者)。受限於人力時間,僅有4000 篇被人工分類,各類別的篇數如下表第 二列所示。該機構擬採購文件自動分類系統,評估了X 與Y 兩套系統,其中X 系統 可正確分類的類別與篇數分布如下表第三列,而Y 系統可正確分類的類別與篇數分 布如下表第四列。請問: X 與Y 系統分類4000 篇文件的正確率,各是多少?(5 分) X 與Y 系統在各類別上的平均分類正確率,各是多少?(5 分) 若要選一個系統,讓使用者依類別訂閱文件,應該選那一個比較好,為什麼?(7 分) 若要選一個系統,把剩下的6000 篇文件自動分類完,應該選那一個比較好,為什麼? (8 分) 類別 1 2
大數據(Big Data)已經在眾多領域造成廣泛的影響,一些圖書館亦開始設 置資料館員(Data Librarian)。對於圖書館而言,長期以來,除了書目資料, 亦逐漸擴展服務範圍,因此資料的類型亦愈趨多元。請舉出書目資料之外 的二種類型的資料,並說明應用這些資料,可能產生的影響。(25 分)
資訊檢索的績效評估可以採用質性的評估與量化的評估,請分別各舉一 例說明其評估方式。(25 分)
9 10 篇數 2000 1000 300 200 100 100 100 100 50 50 X 1600 800 180 70 50 40 30 20 5 5 Y 1000 500 180 120 80 80 80 80 40 40 三、請說明權威檔(authority file)與索引典(thesaurus)的意義,以及他們在資訊檢索應 用的可能範例。(25分) 四、在輔助使用者更快或更易找到資訊的檢索輔助功能中,請敘述何謂查詢提示、相關 回饋、檢索後分類,並各舉一個案例說明。(25 分)
國家圖書館全國圖書書目資訊網(NBINET)提供眾多國內圖書館的書目資訊,國立 臺灣大學圖書館建置的MetaCat 亦可檢索國內眾多圖書館的書目資訊。請說明這二 種資訊服務系統的異同。(25 分)
圖書資訊系統的互通性(interoperability)是達成整合檢索的重要機制。「開放檔案詮 釋資料擷取協定(OAI-PMH)」是在圖書館界常運用的互通性方法之一。試論述 OAI-PMH 的運作方式及其可能的應用。(25 分)
一般的網路搜尋引擎送回的每一筆檢索結果都會附加一段簡短的文字(Snippet),這 段文字可能包含使用者的檢索詞彙,也可能沒有包含使用者的檢索詞彙,這段文字 的目的是讓使用者可藉以簡易判斷這筆檢索結果是否為其所需,並進而決定是否點 選(Click)該筆資料。請說明搜尋引擎如何產生Snippet。(25 分)
請闡述「自動問答系統(Automatic Question-Answering System)」的功能與運作方式, 其與一般「檢索引擎(Search Engine)」有何異同之處,並說明自動問答系統在圖書 館服務上的應用。(25 分)
眾多的資訊系統需要使用者的輸入作為後續處理的依據。當使用者輸入資料時,有 可能輸入錯誤的文字(例如:拼錯英文詞彙covfefe),或是輸入贅字(例如:個人電 電腦)。請說明資訊系統如何偵測可能的錯誤,並能夠友善性修正錯誤。(25 分)
請以高級中學為場域,選定一小論文研究主題,說明在該主題下,如何運用資訊大 六技能或稱六大教學法(Big Six),培養高中生資訊素養。(25 分)
資訊檢索系統效能的評量指標(Metrics)有多種,例如眾所周知的Recall(回現率、 查全率、求全率)與Precision(精確率、查準率、求準率),以及查詢時間等等。請 盡可能列出你所知的評量指標,並逐一說明其定義與適用的時機或情況。(25 分)
請闡述大數據(Big Data)的四項特性(4V),並說明大數據在圖書館的應用。(25 分)
在使用控制辭彙進行人工索引的書目資料庫(如Medline)常有「延展查詢」 (Explode) 及「精準查詢」(Focus/Major)兩種進階檢索功能,試解釋這兩種功能的作用及其對 查準率及查全率的影響。(25 分)
引文資料庫與其他書目型及全文資料庫之資訊檢索有何不同?請分析比較其檢索時 機、檢索項目、檢索結果呈現之資訊內容。近年興起‟Altmetrics”議題,請簡述 Altmetrics 概念,其相關指標可分為那些類型?如何將Altmetrics 應用於資料庫檢索 內容以及其意涵為何?(25 分)
試詳述R.S. Taylor 的資訊需求階段理論。(25 分)
何謂擴增實境(Augmented Reality, AR)?該技術如何運作?可應用於圖書館那些服 務項目?對於資訊檢索的意涵為何?請分別為學術圖書館與公共圖書館舉例說明應 用模式內容及其預期效益。(25 分)
試從使用者、文件屬性、索引方法及排序方式等四個面向比較書目資料庫和網路搜 尋引擎的異同。(25 分)
資料科學(Data Science)為一新興學科,請說明其包含那些核心知識?與資訊科學 有何不同?面臨此趨勢,試舉與資料科學相關之技術工具二例,並說明如何將該技 術工具應用於圖書館。(25 分)
試解釋互動式檢索(Interactive Information Retrieval)評估與傳統資訊檢索評估方式 有何不同?(25 分)
網路圖像資源檢索技術發展方向主要有二,其一為以概念(Concept-based)為本, 另一則以圖像內容(Content-based)為本。請問曾在2006-2011 年上線之Google Image Labeler 是為協助解決前述那一方向的圖像檢索技術的那些難題?其運作模式為何? 成效為何?(25 分)
依據向量空間模式(Vector-Space Model)建構的資訊檢索系統,是將每一份文件表 達為對應的文件向量,請說明如何建構文件的向量,解釋文件向量分量(Component of Vector)的意義,並討論如何產生每一個分量的數值。(25 分)
以資訊取用(Information Access)的方式而言,使用者可以採用搜尋(Searching)或 是瀏覽(Browsing)的方式取得所需的資訊。由於大多數的使用者已經習慣於網路 搜尋引擎,使得提供瀏覽功能的資訊系統越來越少,然而仍有部分使用者喜用瀏覽 的方式取用資訊。請說明搜尋與瀏覽二種資訊取用方式的優缺點。(25 分)
許多資訊檢索系統在建構索引時,排除了停用詞(Stop Words),但是某些資訊檢索 系統,並不排除停用詞。請先說明何謂停用詞,繼之討論排除停用詞與不排除停用 詞的利弊得失。(25 分)
全文檢索系統必須為系統內部典藏的文件建構全文索引,然而全文索引不盡然為每 一份文件的每一詞彙建構索引,因此,也不盡然是純然的全文檢索系統。換言之, 文件中某些詞彙不會做為索引詞彙,請說明那些類型的詞彙在何種考量之下,可以 不做為索引詞彙。(25 分)
在大數據(Big Data,亦稱為巨量資料)的風潮下,圖書館界亦關心研究資料的典藏、 管理及使用,也就是近年備受關注的資料庋用(Data Curation)議題。圖書館若是提 供資料庋用的服務,則必須建構資料庋用系統,並提供檢索功能,請討論研究資料 的檢索與文件的檢索,在功能開發上,有何不同的考量。(25 分)
圖書資訊學在討論權威控制時,會說明各種權威控制工具,例如標題表、索引典等。 請說明索引典在館員編目時與使用者檢索時提供的功能。(25 分)
有一些資訊檢索系統提供同義處理、同音處理、近似處理或是詞幹處理(Stemming) 後的檢索等,我們可以將前述的處理都視為是建構等價群集(Equivalence Class),例 如相同意義的詞彙形成一個等價群集;發音相同的詞彙形成一個等價群集。請討論 提供前述處理功能的檢索系統,對於檢索績效(Performance)的正面與負面的影響。 (25 分)
開放式的資訊檢索系統允許使用者隨意使用該系統,如果使用者願意登錄(Login), 系統可以得知使用者的身分。試說明以登錄系統的方式與不登錄系統的方式使用資 訊檢索系統,各有何優缺點,以及各有何應注意的要點。(25 分)
試說明搜尋引擎中採用的Pagerank 排序的原理為何?相較於相關排序(relevance ranking),採用Pagerank 排序的優點及缺點為何?(25 分)
相關回饋(Relevance Feedback)通常可以讓使用者進一步提升檢索結果的效益,請 說明相關回饋的可能做法。(25 分)
請論述如何利用蒐集使用者的點擊行為(click behavior)來優化包括相關排序、索 引系統及緩衝儲存等搜尋引擎的效能?(25 分)
因為語言文字的不同,文件檢索系統的設計與開發,會考量在地的因素(Local Factors),請說明以中文為主的文件檢索系統與以英文為主的文件檢索系統,在設 計考量上有何不同,至少舉出二點,並討論之。(25 分)
何謂分區組合檢索法(building block)?試說明若採用此一檢索法所獲得的資料量太多 不夠準確,可以分別採取那些方法提升此一檢索法的資料檢索準確率(precision rate)? (25 分)
圖書館的編目工作分為記敘編目(Descriptive Cataloging)與主題編目(Subject Cataloging),編目而得之書目資料經圖書館資訊系統(或稱為圖書館自動化系統) 「索引」(Index,此處做動詞用)後,則可作為使用者使用圖書館線上公用目錄 (Online Public Access Catalog, OPAC)時的檢索資料。請說明「索引」這個功能, 實際上做了什麼,其對於使用者「檢索」,有何助益。(25 分)
試說明文件索引(document indexing)採用字元(character)、字(word)、片語 (phrase)及概念(concept)等不同層次語彙進行索引(index),對於資訊檢索的 準確率(precision rate)與召回率(recall rate)的影響為何?怎麼從文件中萃取出重 要且能代表該文件的關鍵字,作為該文件的索引詞(index term)?(25 分)
Recall(回收率、查全率或求全率)、Precision(精確率、查準率或求準率)是經常 用以評估檢索效益的指標(Metrics),試評論這二個指標的適用性,並請你提供一 項不同的指標,說明這個指標的適用性,同時比較Recall、Precision 與你提供的指 標。(25 分)
近年來,網際網路搜尋引擎(Search Engine)紛紛提供影像或圖片的檢索,請討論 影像檢索服務系統使用者介面的模式,亦即使用者可以用那些模式提出其檢索需求。 (25 分)
試說明以詮釋資料(metadata)為基礎的資訊檢索與全文檢索(full-text search)的 差異為何?兩者各有何優劣?(25 分)
資訊檢索系統的索引檔案結構多使用倒置檔(Inverted File),請詳細說明倒置檔,並 討論以倒置檔型式製作索引檔的優缺點。(25 分)
試分別說明布林模型(Boolean Model)及向量空間模型(Vector Space Model)應用 於資訊檢索的原理為何?兩者各有何優缺點?(25 分)
請比較文件檢索服務(Document Retrieval Service,例如Google Search)與文件過 濾服務(Document Filtering Service,例如Google Alert)的異同。(25 分)
試說明將搜尋結果以視覺化(visualization)呈現的主要目的為何?相較於文字呈現 搜尋結果,視覺化呈現搜尋結果之優缺點為何?舉三個將搜尋結果視覺化呈現之實 例,並分別說明其對於使用者可能產生的助益為何?(25 分)
一般而言,基於布林模式(Boolean Model)的資訊檢索系統無法提供排序的查詢結 果(Ranked Search Result),但如果提供多欄位的布林查詢介面,而且賦予每個欄 位不同的權重(Weight),則可以提供排序的查詢結果。請詳細討論賦予欄位權重 的方式。(25 分)
試解釋下列資訊檢索相關名詞的意義:(每小題5 分,共25 分) 資訊擷取(information extraction) 資訊過濾(information filtering) 相關回饋(relevance feedback) 排序學習(learning to rank) 查詢語句擴展(query expansion)
請說明圖書館的電子書應如何維護,如何服務?(25 分)