Erweitertes Boolesches Retrieval - LinkFang.de





Erweitertes Boolesches Retrieval


Erweitertes Boolesches Retrieval ist eine Abwandlung des Booleschen Retrieval, die eine flexiblere Handhabung der Suchbegriffe und eine Bewertung der Suchresultate erlaubt.

Beim klassischen Booleschen Retrieval legt die Anfrage fest, welche Begriffe in den Suchresultaten vorkommen sollen. Die Anfrage teilt die Dokumente in zwei Mengen: Die einen Dokumente erfüllen die Anfrage, die anderen nicht. Das bringt zwei Probleme mit sich:

  1. Ein Dokument, das einen verlangten Term nicht enthält, wird nicht gefunden. Dennoch könnte das Dokument relevant sein. Womöglich benennt es den gesuchten Begriff einfach mit einem anderen Namen (Synonymie). Die anderen Suchterme sind vielleicht zahlreich vertreten.
  2. Die Dokumente, die den Suchkriterien entsprechen, können nicht nach Relevanz geordnet werden.

Das erweiterte Boolesche Modell versucht, diesen Problemen zu begegnen, indem die binäre Natur der Booleschen Algebra (wahr - falsch) aufgehoben und stattdessen Werte erlaubt werden, die sich dazwischen bewegen. Die Werte werden dabei mathematisch über einem Intervall [0,1] definiert, wobei null für „falsch“, eins für „wahr“ steht.

Mathematische Definition

Ein erweitertes Boolesches Modell wird definiert durch den 4-Tupel (T, Q, D, rank(.,.)) mit

  • T = {ti | i = 1, …, n}: Menge der Indexterme, die Dokumente und Queries beschreiben.
  • Q = {qj | i = 1, …}: Menge aller erlaubten Queries.
  • D = {dk | k = 1, …, m}: Menge der vorliegenden Dokumente. Bei den erweiterten Booleschen Modellen besitzt jeder Term tki eines Dokumentes dk ein Gewicht wki ∈ [0,1], welches die Wichtigkeit des Termes im Dokument repräsentiert. Ein Dokument dk besitzt somit die Struktur dk = ((tk1, wk1), …, (tkn, wkn)).
  • rank(.,.): Rankingfunktion, welche die Ähnlichkeit eines Dokumentes mit einer Query beschreibt. Sie ist allgemein definiert durch: rank(dk, qj): D x Q → [0,1]: (dk, qj) |→ rank(dk, qj) ∈ [0,1].

Die Rankingfunktion beschreibt die unterschiedlichen Klassen von erweiterten Booleschen Modellen, wobei alle Modelle zwischen der Verwendung der logischen Operatoren AND und OR in der Query unterscheiden.

Erweiterte Boolesche Modelle ohne Query-Gewichte

Bei dieser Klasse von Modellen wird jede Query repräsentiert als eine Kombinationen der Indexterme und der logischen Operatoren AND, OR, NOT unter der möglichen Verwendung von beliebig geklammerten Ausdrücken. Es wird angenommen, dass alle Terme die gleiche Bedeutung besitzen, was durch fehlende Termgewichte in der Query repräsentiert ist. Folgende erweiterte Boolesche Modelle lassen sich unterscheiden:

Einfache Fuzzy-Mengen-Modell (Buell 1981, Bookstein 1980, Radecki 1979)

rank(dk, t1 AND t2) = MIN{wk1, wk2};
rank(dk, t1 OR t2) = MAX{wk1, wk2}.

Dieses einfache Modell besitzt die Einschränkung, dass es nur zwei Terme evaluieren kann, im Gegensatz zu den folgenden Modellen, die beliebig viele Terme verarbeiten können.

Waller-Kraft-Modell (Waller & Kraft 1979)

rank(dk, t1 AND … AND tn) = (1 − γ) · MIN{wk1, …, wkn} + γ · MAX{wk1, …, wkn}, 0 ≤ γ ≤ 0,5;
rank(dk, t1 OR … OR tn) = (1 – γ) · MIN{wk1, …, wkn} + γ · MAX{wk1, …, wkn}, 0,5 ≤ γ ≤ 1.

Paice-Modell (Paice 1984)

Bei einer AND-Verknüpfung ordne zunächst die Gewichte wki mit ansteigenden Werten, d. h. wk1 ≤ … ≤ wkn, und berechne dann

rank(dk, t1 AND … AND tn) = (∑i=1n (ri-1 · wki))/(∑i=1n ri-1), 0 ≤ r ≤ 1.

Bei einer OR-Verknüpfung ordne zunächst die Gewichte wki mit absteigenden Werten, d. h. wk1 ≥ … ≥ wkn, und berechne dann

rank(dk, t1 OR … OR tn) = (∑i=1n (ri-1 · wki))/(∑i=1n ri-1), 0 ≤ r ≤ 1.

P-Norm-Modell (Salton et al. 1983)

rank(dk, t1 AND … AND tn) = 1 − (1/n · ∑i=1n (1 − wki)p)1/p, 1 ≤ p < ∞,
rank(dk, t1 OR … OR tn) = 1 − (1/n · ∑i=1n (wki)p)1/p, 1 ≤ p < ∞.

Infinite-One-Modell (Smith 1990)

rank(dk, t1 AND … AND tn) = γ · (1 − MAX{1 − wk1, …, 1 − wkn}) + (1 − γ) · (1/n · ∑i=1n wki), 0 ≤ γ ≤ 1;
rank(dk, t1 OR … OR tn) = γ · MAX{wk1, …, wkn} + (1 − γ) · (1/n · ∑i=1n wki), 0 ≤ γ ≤ 1.

Erweiterte Boolesche Modelle mit Query-Gewichten

Die Retrieval-Effektivität lässt sich steigern, indem den Termen Wichtigkeitsfaktoren in Form von Gewichten zugeordnet werden. Eine Query qj bekommt somit eine Struktur analog zu einem Dokument dk mit Tupeln aus Termen und Gewichten. Werden Terme, die nicht in der Ursprungs-Query auftreten mit einem Gewicht von Null kodiert, so kann jede Ursprungs-Query in eine Query umkodiert werden, die alle in T vorkommenden Terme mit berücksichtigt:

qj = ((tq(j)1, wq(j)1), …, (tq(j)n, wq(j)n)).

Bei den Relevanz-Gewichtungs Ansätzen (siehe Buell (1981)) werden die Rankingfunktionen derart reformuliert, dass die Gewichte der Dokumente und Queries multipliziert werden, d. h.:

rank(dk, (tq(j), wq(j))) = wk · wq(j).

Unter dieser Annahme sind von den vorgestellten erweiterten Booleschen Modellen das P-Norm- und das Infinite-One-Modell in der Lage, die Gewichte in den Dokumenten und einer Query zu evaluieren:

P-Norm-Modell mit Query-Gewichten

rank(dk, (tq(j)1, wq(j)1) AND … AND (tq(j)n, wq(j)n)) = 1 − ((∑i=1n (1 − wki)p · wq(j)ip)/(∑i=1n wkip))1/p, 1 ≤ p < ∞,
rank(dk, (tq(j)1, wq(j)1) OR … OR (tq(j)n, wq(j)n)) = 1 − ((∑i=1n wkip · wq(j)ip)/(∑i=1n wkip))1/p, 1 ≤ p < ∞.

Infinite-One-Modell mit Query-Gewichten

rank(dk, (tq(j)1, wq(j)1) AND … AND (tq(j)n, wq(j)n)) = γ · (1 − ((MAX{(1 − wk1) · wq(j)1, …, (1 − wkn) · wq(j)n})/(MAX{wq(j)1, …, wq(j)n})) + (1 − γ) · ((∑i=1n (wki · wq(j)i)/(∑i=1n wq(j)i)), 0 ≤ γ ≤ 1;
rank(dk, (tq(j)1, wq(j)1) OR … OR (tq(j)n, wq(j)n)) = γ · (MAX{wk1 · wq(j)1, …, wkn · wq(j)n})/(MAX{wq(j)1, …, wq(j)n}) + (1 − γ) · ((∑i=1n (wki · wq(j)i))/(∑i=1n wq(j)i)), 0 ≤ γ ≤ 1.

Literatur

  • Buell, D.A.: A general model for query processing in information retrieval system. In: Information Processing and Management, 17, 1981, S. 249–262.
  • Bookstein, A.: Fuzzy requests: an approach to weighted boolean searches. In: Journal of the American Society for Information Science, 31, 1980, S. 240–247.
  • Fox, E.A.; Betrabet, S.; Koushik, M.; Lee, W.: Extended boolean models. In: Frankes, W.B.; Yates, R.B. (eds): Information Retrieval Data Structures and Algorithms. Prentice Hall, 1992, S. 393–418.
  • Kim, M.H.; Lee, J.H.; Lee, Y.J.: Analysis of fuzzy operators for high quality information retrieval. In: Information Processing Letters, 46 (5), 1993, S. 251–256.
  • Lee, J.H.; Kim, M.H.; Lee, Y.J.: Ranking documents in thesaurus-based boolean retrieval systems. In: Information Processing and Management, 30, 1994, S. 79–91.
  • Lee, J.H.; Kim, M.I.I.; Lee, Y.J.: Enhancing the fuzzy set model for high quality document rankings. In: Proceedings of the 19th Euromicro Conference.1992, S. 337–344.
  • Lee, J.H.; Kim, W.Y.; Kim, M.H.; Lee, Y.J.: On the evaluation of boolean operators in the extended boolean retrieval framework. In: SIGIR 1993, 1993, S. 291–297.
  • Lee, Joon Ho: Properties of extended Boolean models in information retrieval. In: Croft & Rijsbergen (1994): SIGIR 1994, S. 182–190.
  • Paice, C.P.: Soft evaluation of boolean search queries in information retrieval systems. In: Information Technology: Research and Development, 3 (1), 1984, S. 33–42.
  • Radecki, T.: Fuzzy set theoretical approach to document retrieval. In: Information Processing and Management, 15, 1979, S. 247–259.
  • Sachs, W.M.: An approach to associative retrieval through the theory of fuzzy sets. In: Journal of the American Society for Information Science, 27, 1976, S. 85–87.
  • Salton, G.; Fox, E.A.; Wu, H.: Extended boolean information retrieval. In: Communication of the ACM, 26(11), 1983, S. 1022–1036.
  • Smith, M.E.: Aspekts of the p-norm model of information retrieval: syntactic query generation, efficiency, and theoretical properties. PhD thesis, Cornell University, 1990.
  • Waller, W.G.; Kraft, D.H.: A mathematical Model for weighted Boolean retrieval systems. In: Information Processing and Management, 15, 1979, S. 235–245.

Kategorien: Information Retrieval

Quelle: Wikipedia - http://de.wikipedia.org/wiki/Erweitertes Boolesches Retrieval (Vollständige Liste der Autoren des Textes [Versionsgeschichte])    Lizenz: CC-by-sa-3.0

Änderungen: Alle Bilder mit den meisten Bildunterschriften wurden entfernt. Ebenso alle zu nicht-existierenden Artikeln/Kategorien gehenden internen Wikipedia-Links (Bsp. Portal-Links, Redlinks, Bearbeiten-Links). Entfernung von Navigationsframes, Geo & Normdaten, Mediadateien, gesprochene Versionen, z.T. ID&Class-Namen, Style von Div-Containern, Metadaten, Vorlagen, wie lesenwerte Artikel. Ansonsten sind keine Inhaltsänderungen vorgenommen worden. Weiterhin kann es durch die maschinelle Bearbeitung des Inhalts zu Fehlern gerade in der Darstellung kommen. Darum würden wir jeden Besucher unserer Seite darum bitten uns diese Fehler über den Support mittels einer Nachricht mit Link zu melden. Vielen Dank!

Stand der Informationen: August 201& - Wichtiger Hinweis: Da die Inhalte maschinell von Wikipedia übernommen wurden, ist eine manuelle Überprüfung nicht möglich. Somit garantiert LinkFang.de nicht die Richtigkeit und Aktualität der übernommenen Inhalte. Sollten die Informationen mittlerweile fehlerhaft sein, bitten wir Sie darum uns per Support oder E-Mail zu kontaktieren. Wir werden uns dann innerhalb von spätestens 10 Tagen um Ihr Anliegen kümmern. Auch ohne Anliegen erfolgt mindestens alle drei Monate ein Update der gesamten Inhalte.