Matthias Bernauer - Freiburg im Breisgau
      Start > Skript-Sammlung > Kuenstliche Intelligenz > Model Based Agents >>







Model Based Agents


hat Historie und gewisses Weltwissen
(z.B. Plan der Wohnung), kennt die Auswirkung
seines Handelns, z.B. weiß Staubsauger, wo er
schon gesaugt hat, wo er sich befindet, und
dass er da dann nicht mehr saugen muss, da
dort dann sauber ist


Das vorhandene Weltwissen wird über die

Sensoren aktuallisiert


Bem.: Die Umgebung kann sich ohne Zutun

des Agenten durch Dritte ändern



function Reflex-Agent-With-State(Wahrnehmung) returns an actionen

static: state (current world state)
rules (condition-action-rules)

action (letzte action, anfangs keine)
state := update_state(state, action, wahrnehmung) // hat der agent keinen Sensor

rule := rule_match(state, rules) // dann ist Wahrnehmung=0

action := rule_action(rule) // und nur die action zählt

return actionen // z.B. weiß Staubsauger ohne
// dies mit Sensor zu prüfen, dass an akt. Stelle sauber sein muss

Ziel-basierte Agenten

  • Wahrnehmung alleine ist oftmals unzureichend, um zu entscheiden, what to do

  • daher Angabe expliziter Ziele




über Sensor erfasster neuer Zustand

der Umwelt wird aktuallisiert

Bei der Auswahl der Action, kann der
Agent zunächst imaginär die Wirkung
berechnen
Diese kann er mit den vorgegebenen
Zielen abgleichen










Utility-Based-Agents

Keine explizite Formulierung der Ziele sonder Angabe der Nützlichkeit von Zuständen,
z.B. Ziel heißt Gewinnen und nicht explizit gewinne mit 4:0 oder bspw. 4:0 besser as 4:2


Learning Agents

  • auch möglich: beginne mit keinem Wissen und lernen alles selbst

  • evtl. keine Informationen über Umwelt

  • Lernen geschieht evtl. über Feedbacks oder indem man ihm Beispiele gibt

  • PerformanceElement stellt die
    bisher kennengelernten Agenten dar.

  • Die weiteren Komponenten sind
    die Arweiterung der bisherigen A

  • ProblemKomponente simuliert S




Umgebung rationaler Agenten

  • (Un)Zugänglichkeit
    ist es dem Agenten möglich, seinen eigenen Zustand zu erfassen? z.B. wo bin ich gerade?
    Zustand vollständig oder nur partiell Beobachtbar (z.B. mit WSK p=40% glaubt Agent in Zustand 1 zu sein und mit 60% in Zustand2)

  • Umgebung kann deterministisch (z.B. jede Saugaktion --> Teppich stets sauber) oder stochastisch (z.B. Teppich anschl. wahrscheinlich sauber --> nochmal Sensor anwenden) sein.
    Spezialfall: strategische Umgebung, z.B. handelt Gegner beim Spielen nicht stochastisch sonder denkt nach, wie er gewinnen kann.

  • Episodische oder sequentielle Umgebungen
    Kann jede Aktion nach jedem Zeitschritt unmittelbar bewertet werden?
    z.B. studieren nicht episodisch, da die Klausur sich auch das Lernen des ges. Semester bezieht
    z.B. Studieren bez. auf einzelne Vorlesungsfächer episodisch, da jedes Fach semesterweise bewertet

  • statische Umgebungen (außer dem Agenten bewegt sich nichts darin, sonder Agent ist einziger Agierender, z.B. geöffnete Türe bleibt offen) oder dynamische Umgebung (mit Fremdeinwirk.)
    semi-dynamische Umgebungen: Umgebung ändert sich nicht, doch die Performance des Agenten hängt zusätzlich von der verbrauchten Zeit ab.

  • Diskrete Umgebung (nur endlich viele Probleme, z.B. Schachspielen) und kontinuierliche Umgebungen (z.B. Roboternavigation)

  • Umgebungen, wo nur ein Agent (Single-Agent)handelt oder Mehragentszenarien (Multi-Agent) (Zustandsraum wächst exponentiell mit der Anzahl der Agenten)


Beispiele:

Kreuzworträtsel

  • vollst. beobachtbar Agent sieht immer was er tut

  • deterministisch geschriebener Buchstabe steht tats. im Rätsel

  • sequentiell gemachter Fehler pflanzt sich fort (Lösung gibt's erst am Ende)

  • statisch das Rätsel ändert sich nicht und Eingaben verschwinden nicht

  • diskret die Menge der Felder ist bekannt

  • single-agent


Backgammon

  • vollst. beobachtbar

  • stochastisch da Würfelspiel

  • sequentiell da Ergebnis erst am Ende feststeht

  • statisch

  • diskret

  • multi-agent da zwei Agenten tätig


TaxiDriving

  • nur part. beobachtbar da bspw. Bremswirkung des Vorherfahrenden unbekannt

  • stochastisch da eingene Bremswirkung bspw. Unbekannt

  • sequentiell da Erfolg der Fahrt erst nach Abfahren der Strecke bekannt

  • dynamisch da sich strassenverkehr ständig ändert

  • kontinuierlich

  • multi-agent da weitere Fahrzeuge vorhandene


Bildbearbeitung

  • semi-dynamisch da Bewertung des Programmes von der Dauer der Berechnung abh.


Schwierigster Fall: z.B. RoboCup

  • nur partiell beobachtbar

  • nicht-deterministisch Lage des Balles stochastisch

  • strategisch mit Gegner, der gewinnen möchte

  • dynamisch tun wir nichts, handelt der Gegner dennoch

  • kontinuierlich

  • mehreren Agenten



Suche nach Problemlösung (Zielzustand)


akt. Zustand abh. vom Stat.&S.


keine Aufgaben vorhandene

form. Ziel abh. vom akt. Zust.
Formuliere Problem und
generiere Aufgabenliste
erste Aufgabe erledigen

restlichen Aufgaben


Eigenschaften des Agenten

  • statsiche Umwelt (während Agent handelt, ändert niemand etwas)

  • alles beobachtbar (Agent weiß in welchem Zustand er sich befindet)

  • deterministisch (Aktion änder Umwelt in der gewünschten Form mit Sicherheit)

  • diskrete Zuständen


Problemformulierung

  • gegebenes Ziel (Weltzustand mit gewissen Eigenschaften)

  • Zustandsraum: nur relevante (nicht zu spezifisch) Aspekte, damit Abstraktion möglich

  • definierte Aktionen (--> Zustandsübergang), die in Abh. des Zustandes zur Verfügung stehen
    gegeben durch Nachfolgerfunktion

  • verschiedene Problemtypen (abh. vom Wissen über world states und actions)

  • Kosten der Aktionen bekannt um Performance zu berechnen
    such- und offline-Kosten, execution-Kosten (Pfad- und Online-Kosten)

  • Problemformulierung hat enormen Einfluss auf die Lösbarkeit des Problems


muss Umwelt imme vollständig beobachtbar sein?



Staubsauger-Agent


  • Zustände: 2 zu reinigende Orte --> 8 Zustände (Zelle1, Zelle2), X=Roboter ist in Zelle, D = Zelle schmutzig, C = Zelle sauber
    (XD,D), (XD,C), (XC,D), (XC,C), (D,XD), (D,XC), (C,XD), (C,XC)

  • Aktionen: gehe links Left(L), Right(R) oder bleibe Suck(S)

  • Ziel: (C,C)

  • Pfadkosten: 1 pro Aktion


Suche also nach einem optimalen Pfad von Aktionssequenzen um zum Ziel zu kommen


Google MSN Suche
<< Start | Studium | Poolmgr | Tanzen | GPG | Impressum >>
Matthias Bernauer