๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ

๐“ก๐“ธ๐“ธ๐“ถ5: ๐’ฆ๐‘œ๐“‡๐‘’๐’ถ ๐’ฐ๐“ƒ๐’พ๐“‹/Artificial Intelligence(COSE361)

[์ธ๊ณต์ง€๋Šฅ] 4. Beyond Classical Search - 2

2. Local Search In Continuous Space

 : ์ง€๊ธˆ๊นŒ์ง€๋Š” ํ˜„์žฌ ๋‚ด๊ฐ€ ์–ด๋–ค state์— ์žˆ๋Š”์ง€, action์„ ์ทจํ•˜๋ฉด ์–ด๋–ป๊ฒŒ ๋˜๋Š”์ง€, ์ด์‚ฐ์ , ๊ทธ๋ฆฌ๊ณ  ์ด ๊ฒŒ์ž„์˜ ๊ทœ์น™์ด ๋ญ”์ง€ ์•„๋Š” ๊ฒฝ์šฐ์˜€๋‹ค! ์ฆ‰ fully observable, deterministic, discrete, and known environment! 

 

discrete์™€ continuousํ•œ ํ™˜๊ฒฝ์˜ ๊ตฌ๋ถ„์€ ์‹œ๊ฐ„์ด ๋‹ค๋ค„์ง€๋Š” ๋ฐฉ๋ฒ•๊ณผ agent์˜ action๊ณผ percept์— ๋”ฐ๋ผ ์ด๋ฃจ์–ด์ง„๋‹ค.

์ง€๊ธˆ๊นŒ์ง€ ์„ค๋ช…ํ–ˆ๋˜ ์•Œ๊ณ ๋ฆฌ์ฆ˜์œผ๋กœ๋Š” continuous state์™€ action space๋ฅผ ๋‹ค๋ฃฐ ์ˆ˜๊ฐ€ ์—†๋‹ค. (๋‹จ, first-choice hill climbing๊ณผ simulated annealing ์ œ์™ธ) ์™œ๋ƒ๋ฉด ์—ฐ์†์ ์ธ ๊ฒฝ์šฐ branching factor๊ฐ€ ๋ฌดํ•œํžˆ ๋งŽ์•„ ๊ฐ€๋Šฅํ•œ ๊ฒฝ์šฐ์˜ ์ˆ˜๊ฐ€ ๋„ˆ๋ฌด๋„ˆ๋ฌด ๋งŽ๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค. ์ด๊ฑธ ๋‹ค ์ผ์ผํžˆ ํƒ์ƒ‰ํ•  ์ˆ˜๋Š” ์—†์œผ๋‹ˆ...

 

 

 1) Gradient Ascent/ Descent Search

 

์ด๋Ÿฌํ•œ continuous problem์„ ํ”ผํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ๊ฐ state์˜ neighborhood๋ฅผ discretize ํ•˜๋Š” ๋ฐฉ๋ฒ•์ด ์žˆ๋‹ค. ์ฆ‰, ์—ฐ์†์ ์ธ state๋ฅผ discrete state๋กœ ๋ฐ”๊ฟ”์ฃผ๋Š” ๊ฒƒ์ด๋‹ค. 

 

์ด์‚ฐ์ ์ธ ๊ฐ’์œผ๋กœ ๋ฐ”๊ฟ”์ฃผ๊ณ  ๋‚˜๋ฉด ์šฐ๋ฆฌ๋Š” gradient๋ฅผ ๊ตฌํ•  ์ˆ˜ ์žˆ๋‹ค. objective funtion์˜ gradient๊ฐ’์€ ๊ฐ€์žฅ ๊ฐ€ํŒŒ๋ฅธ ๊ตฌ๊ฐ„์˜ ๋ฐฉํ–ฅ๊ณผ ์ •๋„๋ฅผ ์•Œ๋ ค์ฃผ๋Š” vector ∇f(x)์ด๋‹ค. ์ฆ‰ f(x)๋ฅผ ๋ฏธ๋ถ„ํ•œ ๊ฐ’, ๊ธฐ์šธ๊ธฐ๊ฐ€ gradient ๊ฐ’์ด๋‹ค. steepest-ascent hill climbing๋Š” ํ˜„์žฌ state๋ฅผ x<- x+ a∇f๋กœ ์—…๋ฐ์ดํŠธ ํ•˜๋ฉด์„œ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋‹ค. ์ด ๋•Œ a๋Š” step size๋ผ๊ณ  ๋ถˆ๋ฆฌ๋Š” ์ž‘์€ ์ƒ์ˆ˜๊ฐ’์ด๋‹ค. 

์ด๊ฒŒ ๋ญ” ์†Œ๋ฆฌ์ธ๊ฐ€ ํ•˜๋ฉด, ๊ทธ๋ผ๋””์–ธํŠธ ๊ฐ’, ์ฆ‰ f(x)์˜ ๋ฏธ๋ถ„๊ฐ’์„ ๋”ฐ๋ผ์„œ x๊ฐ’์„ a ๋งŒํผ์”ฉ ์ด๋™์‹œ์ผœ ๋‚˜๊ฐ„๋‹ค๋Š” ์–˜๊ธฐ๋‹ค. ๋งŒ์•ฝ ์ตœ๋Œ“๊ฐ’์„ ๊ตฌํ•˜๊ณ  ์‹ถ์œผ๋ฉด, ๊ธฐ์šธ๊ธฐ๊ฐ€ ์–‘์ˆ˜์ธ ๊ทธ๋ž˜ํ”„๋ฅผ ๋”ฐ๋ผ ์ด๋™ํ•ด์•ผํ•  ๊ฒƒ์ด๊ณ , ์ตœ์†Ÿ๊ฐ’์„ ๊ตฌํ•˜๊ณ  ์‹ถ์œผ๋ฉด ์Œ์ˆ˜์ธ ๊ตฌ๊ฐ„์„ ๋”ฐ๋ผ ์ด๋™ํ•˜๊ฒŒ ๋˜๊ฒ ์ง€? 

 

์ด object function์€ ๋ฏธ๋ถ„ ๋ถˆ๊ฐ€๋Šฅํ•œ ์ƒํ™ฉ์—์„œ๋Š” ์‚ฌ์šฉํ•  ์ˆ˜ ์—†์„ ์ˆ˜๋„ ์žˆ๋Š”๋ฐ, ์ด๋Ÿด ๊ฒฝ์šฐ ์šฐ๋ฆฌ๋Š” x๊ฐ’์ด ์กฐ๊ธˆ ๋ณ€ํ•จ์— ๋”ฐ๋ผ ์ฆ๊ฐ€ํ•˜๋Š” ์–‘ ๋˜๋Š” ๊ฐ์†Œํ•˜๋Š” ์–‘์„ ์•Œ์•„๋‚ด๋Š” empirical gradient๋ฅผ ์ด์šฉํ•˜์—ฌ ๊ทธ๋ž˜ํ”„์˜ ๊ธฐ์šธ๊ธฐ๋ฅผ ์ถ”์ •ํ•  ์ˆ˜ ์žˆ๋‹ค. empirical gradient search๋Š” ์ด์‚ฐ์ ์ธ ์ƒํ™ฉ์—์„œ steepest-ascent hill climbing๊ณผ ๊ฐ™๋‹ค. 

 

์ ์ ˆํ•œ a๊ฐ’์„ ๊ตฌํ•˜๋Š” ๊ฒƒ๋„ ๋ฏธ์…˜์ด๋‹ค. a๊ฐ€ ๋„ˆ๋ฌด ์ž‘์œผ๋ฉด step์ด ๋„ˆ๋ฌด ๋งŽ์ด ํ•„์š”ํ•˜๊ณ , a๊ฐ€ ๋„ˆ๋ฌด ํฌ๋ฉด search๊ฐ€ maximum์ด ์žˆ๋Š” ๊ตฌ๊ฐ„์„ ๋›ฐ์–ด ๋„˜์–ด๋ฒ„๋ฆด ๊ฒƒ์ด๋‹ค.

 

* line search๋Š” ์ด๋Ÿฌํ•œ a์˜ ๊ฐ’์„ ์ ์ ˆํžˆ ๊ตฌํ•˜๋Š” ๋ฐฉ๋ฒ•์ด๋‹ค. a์˜ ๊ฐ’์„ doubling ์‹œ์ผœ๊ฐ€๋ฉด์„œ f๊ฐ€ ๋ณ€ํ™”ํ•˜๋Š” ์ถ”์ด๋ฅผ ์ž˜ ์ง€์ผœ๋ณด๋‹ค๊ฐ€, ์–ด๋Š์ˆœ๊ฐ„ ํ™• ๊ฐ์†Œํ•ด๋ฒ„๋ฆฌ๋Š” ์ง€์ ์„ ์ฐพ๋Š”๋‹ค. ๋งŒ์•ฝ ์–ด๋–ค point์—์„œ ๊ฐ์†Œํ•˜๊ธฐ ์‹œ์ž‘ํ•˜๋ฉด ๊ทธ ์ง์ „ point๋ฅผ new current state๋กœ ์ถ”๊ฐ€ํ•œ๋‹ค.

a->2a->4a ๋กœ ์ด๋™ํ•˜๋‹ค๊ฐ€ 4a์—์„œ ๊ฐ’์ด ๊ฐ‘์ž๊ธฐ ๊ฐ์†Œํ•ด๋ฒ„๋ ธ์œผ๋‹ˆ๊นŒ 2a๋กœ ๋Œ์•„๊ฐ€ state์„ ์ถ”๊ฐ€ํ•œ๋‹ค. 

 

 

  2) Newton-Raphson Method

 

Newton-Raphson Method๋Š” function์˜ ๊ทผ(g(x) = 0 ์ด ๋˜๋Š” ์ง€์ )์„ ์ฐพ๋Š” ๊ฐ€์žฅ ์ผ๋ฐ˜์ ์ธ ๋ฐฉ๋ฒ•์ด๋‹ค. g(x)์—์„œ ๊ทผ์€ x๊ฐ’ ๋Œ€์‹  x = x - g(x)/g'(x)๋กœ ๊ทผ์‚ฌํ•ด๊ฐ€๋ฉฐ ๊ตฌํ•  ์ˆ˜ ์žˆ๋‹ค. 

 

f์˜ maximum ๋˜๋Š” minimum ๊ฐ’์„ ๊ตฌํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” gradient๊ฐ’์ด (๊ธฐ์šธ๊ธฐ๊ฐ€) 0์ด ๋˜๋Š” ์ง€์ ์„ ์ฐพ์•„์•ผ ํ•œ๋‹ค.

 

 

๊ทธ๋ž˜์„œ newton's formula ์—์„œ g(x) = ∇f(x)๋กœ ๋‘๊ณ  ๊ทผ์„ ์ฐพ๋Š” ๊ฒƒ์ด๋‹ค. ์ด๊ฑธ ๊ณต์‹์œผ๋กœ ํ’€๋ฉด, ๊ฒฐ๊ตญ x = x 0 Hf^(-1)∇f(x) ๊ฐ€ ๋œ๋‹ค. ์–ด์šฐ ํ—ท๊ฐˆ๋ ค ๊ทธ๋ž˜์„œ ์ด Hf^(-1)์ด ๋ญ”๋ฐ?? Hf = (f(x))'=(f(x))''์ฆ‰, f(x)์˜ ์ด๊ณ„๋„ํ•จ์ˆ˜์ด๋‹ค. ์‚ฌ์‹ค ๊ทธ๋ž˜์„œ ๊ทธ๋ƒฅ ์•ž์˜ ์‹ x = x - g(x) / g'(x) ์—์„œ g(x)์— f'(x)๋ฅผ ๋Œ€์ž…ํ•œ ๊ฒƒ๊ณผ ๊ฐ™๋‹ค. ์ฆ‰ f'(x) = 0์ด ๋˜๋Š” x์˜ ๊ฐ’์„ x = x - f'(x) / f''(x)๋กœ ๊ทผ์‚ฌํ•ด๊ฐ€๋ฉฐ ํ‘ธ๋Š” ๊ฒƒ์ด๋‹ค. 

 

๋ณด๋ฉด x๊ฐ’์—์„œ g(x)/g'(x) ๊ฐ’์„ ๋นผ์ฃผ๋‹ค ๋ณด๋ฉด x๊ฐ’์ด ๊ทผ์— ๊ทผ์‚ฌํ•˜๊ฒŒ ๋œ๋‹ค. ์™œ๋ƒ๋ฉด x=๊ทผ ์ผ ๋•Œ, g(x)๊ฐ€ 0์ด ๋˜๋‹ˆ๊นŒ! ๊ณ„์† ์กฐ๊ธˆ์”ฉ ์กฐ๊ธˆ์”ฉ ๋นผ์ฃผ๋‹ค๋ณด๋ฉด ์–ธ์  ๊ฐ„ ๊ทผ์— ๊ฐ€๊นŒ์›Œ ์ง€๊ฒ ์ฅฌ

 

 

 

3. Searching with Nondeterministic Action 

 

๋งŒ์•ฝ agent์— ์˜ํ•ด action์ด ์ˆ˜ํ–‰๋˜์—ˆ์„ ๋•Œ  ๋‹ค์Œ state๊ฐ€ ํ˜„์žฌ state์— ์˜ํ•ด ์™„๋ฒฝํžˆ ๊ฒฐ์ •๋  ๊ฒฝ์šฐ, ์ฆ‰ ๋‹ค์Œ state๋ฅผ ์˜ˆ์ƒํ•  ์ˆ˜ ์žˆ๋‹ค๋ฉด ์ด ํ™˜๊ฒฝ์„ deterministicํ•˜๋‹ค๊ณ  ๋ถ€๋ฅธ๋‹ค. ๊ทธ๋ ‡์ง€ ์•Š์œผ๋ฉด stochasticํ•˜๋‹ค. (stochastic์€ ํ™•๋ฅ ์ ์ธ๊ฑฐ)

 

nondeterministic environment์—์„œ ๊ฐ action๋“ค์€ action์„ ์ทจํ–ˆ์„ ๋•Œ ๊ฐ€๋Šฅํ•œ outcome๋“ค์˜ ํ›„๋ณด๋ฅผ ์•Œ์ˆ˜๋Š” ์žˆ์ง€๋งŒ, ๊ทธ ์ค‘ ๋ญ๊ฐ€ ๋‹ค์Œ state๊ฐ€ ๋ ์ง€๋Š” ์•Œ ์ˆ˜ ์—†๋‹ค. ๊ทธ ๊ฐ๊ฐ์˜ state์—๋Š” ํ™•๋ฅ ์กฐ์ฐจ ์กด์žฌํ•˜์ง€ ์•Š๋Š”๋‹ค.  ์ฆ‰, ๋ญ๊ฐ€ ๋‚˜์˜ฌ์ง€ ์•„์˜ˆ ๋ชจ๋ฅด๋Š”๊ฑฐ๋‹ค.

 

๊ทธ๋ž˜์„œ ์šฐ๋ฆฌ๋Š” not fully observable ํ•˜๊ฑฐ๋‚˜ not deterministic ํ•˜๋ฉด environment๊ฐ€ uncertain ํ•˜๋‹ค๊ณ  ๋ถ€๋ฅธ๋‹ค. 

 

๋งŒ์•ฝ environment๊ฐ€ nondeterministicํ•˜๋‹ค๋ฉด, ์„ผ์„œ๋ฅผ ํ†ตํ•ด ์ธ์‹์„ ํ•ด์„œ, action์ด ์ˆ˜ํ–‰๋˜์—ˆ์„ ๋•Œ ๊ฐ€๋Šฅํ•œ outcome๋“ค ์ค‘์—์„œ ์–ด๋–ค outcome์ด ์‹ค์ œ๋กœ ์ผ์–ด๋‚ฌ๋Š”์ง€๋ฅผ agent์—๊ฒŒ ์•Œ๋ ค์ค€๋‹ค. 

 

์˜ˆ๋กœ ๊ณ ์žฅ๋‚œ ๋กœ๋ด‡์ฒญ์†Œ๊ธฐ๊ฐ€ ์žˆ๋‹ค๊ณ  ์น˜์ž. ์“ฐ๋ ˆ๊ธฐ๋ฅผ ๋นจ์•„ ๋“ค์ผ์ˆ˜๋„, ๊ทธ๋ ‡์ง€ ์•Š์„ ์ˆ˜๋„,์˜† ์นธ๊นŒ์ง€ ๋‹ค ๋นจ์•„๋“ค์ผ์ˆ˜๋„ ์žˆ๋‹ค. ๊ทธ๋ž˜์„œ ๋ฐฉ์— ์“ฐ๋ ˆ๊ธฐ๊ฐ€ ์žˆ์–ด๋„ ์–˜๋ฅผ ํก์ˆ˜ํ• ์ง€ ์•ˆํ• ์ง€๋ฅผ ๋ชจ๋ฅด๋Š” ๊ฒƒ์ด๋‹ค. ๊ทธ๋ž˜์„œ ์ด vacuum world์—๋Š” ์ด 8๊ฐ€์ง€์˜ ๊ฐ€๋Šฅ์„ฑ์ด ์žˆ์„ ์ˆ˜ ์žˆ๋‹ค. ์ด ์ค‘ 7๊ณผ 8์ด goal state์ด๋‹ค. 

 

 

* Contingency Plans

: environment๊ฐ€ nondeterministicํ•  ๋•Œ, ๋ฏธ๋ž˜์˜ percept์€ ๊ฒฐ์ •๋˜์–ด์งˆ ์ˆ˜ ์—†์œผ๋ฉฐ agent์˜ ๋ฏธ๋ž˜์˜ action์€ ์ด๋Ÿฌํ•œ ๋ฏธ๋ž˜ percept์— ์˜์กดํ•œ๋‹ค. ๊ทธ๋ž˜์„œ problem์˜ solution์€ ์–ด๋– ํ•œ sequence๊ฐ€ ์•„๋‹ˆ๋ผ ๋ชจ๋“  ๊ฒฝ์šฐ๋ฅผ ๋‹ค ์ƒ๊ฐํ•˜๋Š” contingency plan(=strategy)์˜ ํ˜•ํƒœ๋กœ ๋‚˜ํƒ€๋‚˜์ง„๋‹ค. ์™œ๋ƒ๋ฉด ๊ฐ percept๋งˆ๋‹ค ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋Š” action์ด ๋‹ค ๋‹ค๋ฅธ๋ฐ, ๋ฏธ๋ž˜์— ์–ด๋–ค percept๊ฐ€ ๋  ์ง€ ๋ชจ๋ฅด๋‹ˆ๊นŒ! 

 

๊ทธ๋ž˜์„œ nondeterministic problems์˜ solution์€ "if-then-else statements"๋ฅผ ํฌํ•จํ•œ๋‹ค. ์ฆ‰ sequence๊ฐ€ ์•„๋‹ˆ๋ผ tree์˜ ๊ผด๋กœ ๋‚˜ํƒ€๋‚œ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค. ์ˆ˜ํ–‰ํ•˜๋Š” ๋™์•ˆ ์ผ์–ด๋‚  ์ˆ˜ ์žˆ๋Š” ๋ชจ๋“  ๊ฒฝ์šฐ์˜ ์ˆ˜๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ action์„ ์„ ํƒํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•œ๋‹ค. 

 

ex) [if percept then action-1 else action-2]

 

 1) AND-OR Search Trees

 deterministic environment์—์„œ๋Š” ๊ฐ agent์˜ choice์— ๋”ฐ๋ผ branch๊ฐ€ ์˜ค์ง ํ•˜๋‚˜์˜€๋‹ค. ๋”ฐ๋ผ์„œ ๋ญ ์ด action์„ ํ•˜๋“  ์ € action์„ ํ•˜๋“  ์„ ํƒํ•  ์ˆ˜ ์žˆ์—ˆ๊ณ  state๋“ค ๋ผ๋ฆฌ๋Š” or๋กœ ๋ฌถ์—ฌ ์žˆ์—ˆ๋‹ค. ๊ทธ๋ž˜์„œ ์ด node๋“ค์„ OR node๋ผ๊ณ  ๋ถ€๋ฅธ๋‹ค. 

 ๋ฐ˜๋ฉด nondeterministic environment์—์„œ๋Š” ๊ฐ action์— ๋Œ€ํ•œ outcome์ด ๋‘ ๊ฐœ ์ด์ƒ์ผ ์ˆ˜ ์žˆ๊ณ , action์— ๋Œ€ํ•œ ๋ชจ๋“  outcome์ด goal๋กœ ๊ฐˆ ์ˆ˜ ์žˆ์–ด์•ผ action์ด solution์ด ๋  ์ˆ˜ ์žˆ์œผ๋ฏ€๋กœ AND node๊ฐ€ ๋œ๋‹ค. 

  ์ด ๋‘ ๊ฐ€์ง€ node๋ฅผ ์ด์šฉํ•ด ๋งŒ๋“ ๊ฒŒ ๋ฐ”๋กœ AND-OR tree์ด๋‹ค.  

 

 

์ด ๋•Œ LOOP๋Š” ์œ„์— ์ด๋ฏธ ๋‚˜์™€์žˆ๋˜ state๋กœ, ์ด node๋Š” ๋”์ด์ƒ ํƒ์ƒ‰ํ•ด๋ณด์ง€ ์•Š์•„๋„ ๋œ๋‹ค. (=failure ๋ฅผ ๋ฆฌํ„ดํ•œ๋‹ค) ์ด node์— ์†”๋ฃจ์…˜์ด ์—†๋‹ค๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, ์–ด์ฐจํ”ผ ์œ„์— ์žˆ์—ˆ์œผ๋‹ˆ๊นŒ solution์ด ์žˆ๋‹ค๋ฉด ๊ฑฐ๊ธฐ์„œ ์ด๋ฏธ ๋‚˜์˜ฌ ๊ฑฐ๋‹ˆ๊นŒ! ์ด ๋…ธ๋“œ๋Š” ๋”์ด์ƒ ๋ณด์ง€ ์•Š๊ฒ ๋‹ค๋Š” ์˜๋ฏธ์ด๋‹ค. 

 

AND-OR search problem์˜ solution์€ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ํŠน์ง•์„ ๊ฐ–๋Š” subtree์ด๋‹ค.

  - ๋ชจ๋“  leaf๊ฐ€ ํ•˜๋‚˜ํ•˜๋‚˜ goal node์ด๋‹ค.

  - ๊ฐ๊ฐ์˜ OR nodes์—์„œ๋Š” ํ•œ ๋ฒˆ์— ํ•˜๋‚˜์˜ action๋งŒ์ด ์ˆ˜ํ–‰๋œ๋‹ค.

  - ๊ฐ๊ฐ์˜ AND nodes์— ๋ชจ๋“  ๊ฐ€๋Šฅํ•œ outcome branch๊ฐ€ ํฌํ•จ๋œ๋‹ค.

 

 

๋จผ์ € AND-OR-GRAPH-SEARCH๊ฐ€ ์‹œ์ž‘๋˜๋ฉด initial state๋ฅผ or search ํ•˜๊ธฐ ์‹œ์ž‘ํ•œ๋‹ค.

 

OR-SEARCH์—์„œ๋Š” ๋งŒ์•ฝ ํ˜„์žฌ state๊ฐ€ goal์ด๋ผ๋ฉด empty plan์„ ๋ฆฌํ„ดํ•ด์ค€๋‹ค. (์ด๋ฏธ plan์— ์ฐจ๊ณก์ฐจ๊ณก ์Œ“์—ฌ์žˆ์Œ)

๋งŒ์•ฝ state๊ฐ€ ์ด๋ฏธ ์ง€๋‚˜์˜จ path์— ์žˆ์—ˆ๋”๋ผ๋ฉด loop(cycle)์ด๋ฏ€๋กœ failure์„ ๋ฆฌํ„ดํ•ด์ค€๋‹ค.

๊ทธ๋ฆฌ๊ณ  ๋‚˜์„œ state์—์„œ ์ทจํ•  ์ˆ˜ ์žˆ๋Š” ๋ชจ๋“  action์„ ๊ฒ€์‚ฌํ•ด๋ณผ ๊ฒƒ์ด๋‹ค.

plan์ด๋ผ๋Š” ๋ณ€์ˆ˜์— and-search์˜ ๊ฒฐ๊ณผ๋ฅผ ์ง‘์–ด ๋„ฃ๊ณ , ์ด ๊ฒฐ๊ณผ๊ฐ€ failure๊ฐ€ ์•„๋‹ˆ๋ผ๋ฉด ๊ธฐ์กด solution์— ํ•ด๋‹นํ•˜๋Š” plan ์ฆ‰ action์„ ์ถ”๊ฐ€ํ•ด์ค€๋‹ค. and-search๋ฅผ ๋ณด๋‚ผ ๋•Œ์—๋Š” ํ˜„์žฌ state์—์„œ ํŠน์ •ํ•œ action์„ ์ทจํ–ˆ์„ ๋•Œ ๋‚˜์˜ฌ ์ˆ˜ ์žˆ๋Š” future state๊ณผ, ๊ธฐ์กด path์— ํ˜„์žฌ state์„ ์ถ”๊ฐ€ํ•ด์„œ ๋ณด๋‚ด์ค€๋‹ค.

๋ชจ๋“  action์„ ๊ฒ€์‚ฌํ•ด์ค€ ๋‹ค์Œ์—๋Š” ๋”์ด์ƒ ๋ณผ ๊ฒƒ์ด ์—†์œผ๋ฏ€๋กœ ๊ทธ๋ƒฅ failure ๋ฆฌํ„ดํ•ด์ค€๋‹ค.

 

AND-SEARCH์—์„œ๋Š” or search์—์„œ ๋‚ ์•„์˜จ, action์—์„œ ๊ฐ€๋Šฅํ•œ ๋ชจ๋“  state์˜ ๊ฒฝ์šฐ๋ฅผ ๊ฒ€์‚ฌํ•ด๋ณผ ๊ฒƒ์ด๋‹ค.

๊ฐ state๋งˆ๋‹ค or-search๋ฅผ ๋‹ค์‹œ ๋ณด๋‚ด์„œ ํ•˜๋‚˜๋ผ๋„ failure๊ฐ€ ๋˜๋ฉด and search์˜ ๊ฐ’๋„ failure๊ฐ€ ๋  ๊ฒƒ์ด๋‹ค. 

๋งŒ์•ฝ ๋ชจ๋‘ failure๊ฐ€ ์•„๋‹ˆ์—ˆ๋‹ค๋ฉด, ์กด์žฌํ•˜๋Š” state๋“ค์— ๋Œ€ํ•œ plan์„ ์ „๋ถ€ returnํ•ด์ค€๋‹ค. ๊ทธ๋Ÿฌ๋ฉด ์ด ์•„์ด๋ฅผ ๋‹ค์‹œ or search๊ฐ€ ๋ฐ›์•„์„œ plan์— ๋„ฃ์„๊ฑฐ๊ณ , ๊ทธ๋ ‡๊ฒŒ solution์— ํ•ด๋‹น plan์ด ์ถ”๊ฐ€๋˜๊ฒŒ ๋œ๋‹ค. 

 

* Cyclic Solutions

 

๊ทธ๋ ‡๋‹ค๋ฉด ๋งŒ์•ฝ ์ฒญ์†Œ๊ธฐ ๋ฐ”ํ€ด๊ฐ€ ๊ณ ์žฅ๋‚˜์„œ ์˜ค๋ฅธ์ชฝ์œผ๋กœ ๊ฐ€๋ผ๋Š” ๋ช…๋ น์— ์˜ค๋ฅธ์ชฝ์œผ๋กœ ๊ฐˆ ์ˆ˜๋„, ๊ฐ€๋งŒํžˆ ์žˆ์„ ์ˆ˜๋„ ์žˆ๋‹ค๊ณ  ๊ฐ€์ •ํ•ด๋ณด์ž. ์ด ๊ฒฝ์šฐ cycle์ด ์ƒ๊ธฐ๊ฒŒ ๋˜๋Š”๋ฐ, ๊ทธ๋ ‡๋‹ค๊ณ  ํ•ด์„œ ์ด ๊ฒฝ์šฐ solution์ด ์—†๋Š”๊ฒŒ ์•„๋‹ˆ๋‹ค. ๊ทผ๋ฐ ์ด ๊ฒฝ์šฐ๋ฅผ loop๋ผ๊ณ  ์ฒ˜๋ฆฌํ•ด๋ฒ„๋ฆฌ๋ฉด solution์„ ์˜์˜ ์ฐพ์ง€ ๋ชปํ•˜๋Š” ๊ฒฝ์šฐ๊ฐ€ ๋ฐœ์ƒํ•  ์ˆ˜ ์žˆ๋‹ค. ๊ทธ๋Ÿฌ๋ฉด ์ด๋Ÿฌํ•œ cyclicํ•œ solution์€ ์–ด๋–ป๊ฒŒ ํ‘œํ˜„์„ ํ•  ์ˆ˜ ์žˆ์„๊นŒ?

 

์ด ๊ฒฝ์šฐ plan์˜ ์ผ๋ถ€์— label์„ ๋ถ™์—ฌ์„œ ๊ณ„์† ๋ฐ˜๋ณตํ•˜๊ฒŒ ๋งŒ๋“ค ์ˆ˜ ์žˆ๋‹ค. ๊ณ„์†๊ณ„์† tryํ•ด์„œ state๊ฐ€ ๋„˜์–ด๊ฐ€ solution์œผ๋กœ ๋„˜์–ด๊ฐˆ ๋•Œ๊นŒ์ง€ ๋ฐ˜๋ณตํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ์‰ฝ๊ฒŒ ์ฝ”๋“œ๋กœ ์“ฐ๋ฉด while(state==5) do action(right); ์ •๋„๊ฐ€ ๋˜๊ฒ ์ง€? ๊ทผ๋ฐ ์šฐ๋ฆฌ๋Š” labeling์„ ํ†ตํ•œ๊ฑฐ๋‹ˆ๊นŒ while ๋ณด๋‹ค๋Š” goto ๋ฌธ์ด๋ผ๊ณ  ์ƒ๊ฐํ•˜๋ฉด ์‰ฝ๋‹ค. state==5๋ฉด goto label1 ์š”์ •๋„?

 

ex) [label-1 :, action -1 ,... , if percept then label-1 else action-2] : action-1(label-1)์„ ํ–ˆ์„ ๋•Œ ์–ด๋–ค ํŠน์ • percept๊ฐ€ ๋‚˜์™”์œผ๋ฉด ๋‹ค์‹œ action-1(=label-1), ์•„๋‹ˆ๋ฉด action-2๋ฅผ ์ˆ˜ํ–‰ํ•ด๋ผ.

 

 

 

4. Searching with Partial Observation

  

  * Sensorless Problem ( = conformant problem) 

   : ์„ผ์„œ๊ฐ€ ๊ณ ์žฅ๋‚˜์„œ ํ˜„์žฌ percept์— ๋Œ€ํ•œ ์ •๋ณด๋ฅผ ๋ฐ›์ง€ ๋ชปํ•˜๋Š” ์ƒํ™ฉ์˜ ๋ฌธ์ œ

  

  -> ํ˜„์žฌ ๋‚ด ์ƒํƒœ๊ฐ€ ์–ด๋””์— ์žˆ๋Š”์ง€ ๋ชจ๋ฅด์ง€๋งŒ, ์ผ๋‹จ์€ ์˜ค๋ฅธ์ชฝ์œผ๋กœ ์ด๋™ํ•˜๊ธฐ, ๋จผ์ง€๋นจ์•„๋“ค์ด๊ธฐ, ์™ผ์ชฝ์œผ๋กœ ์ด๋™ํ•˜๊ธฐ, ๋จผ์ง€๋นจ์•„๋“ค์ด๊ธฐ๋ฅผ ๋‹ค ์ˆ˜ํ–‰ํ•˜๊ณ  ๋‚˜๋ฉด ๋ฌด์กฐ๊ฑด solution์— ๋„์ฐฉํ•  ์ˆ˜๋Š” ์žˆ๋‹ค.  

 

 * Belief State

 

  agent๊ฐ€ ์—ฌ๋Ÿฌ๊ฐ€์ง€ ๊ฐ€๋Šฅํ•œ state์ค‘ ํ•˜๋‚˜์— ์žˆ๋‹ค๊ณ  ํ•  ๋•Œ, ํ•˜๋‚˜์˜ action์€ ๋˜ ์—ฌ๋Ÿฌ๊ฐ€์ง€ ๊ฐ€๋Šฅ์„ฑ ์ค‘์— ํ•˜๋‚˜๋ฅผ ๋งŒ๋“ค์–ด ๋‚ผ ๊ฒƒ์ด๋‹ค. (deterministic ํ•  ๋•Œ) ์ด๋ ‡๊ฒŒ partially observableํ•œ ๋ฌธ์ œ๋ฅผ ํ’€๊ธฐ ์œ„ํ•œ ํ‚ค๊ฐ€ ๋ฐ”๋กœ Belief State์ด๋‹ค. 

  Belief state ๋ž€ ์–ด๋–ค percept๊ณผ action์˜ sequence๊ฐ€ ์ฃผ์–ด์ง„ ๊ฒฝ์šฐ, ํ˜„์žฌ state์ผ ์ˆ˜ ์žˆ๋Š” ๋ชจ๋“  physical state๋“ค์„ ๋งํ•œ๋‹ค. ์ด sensorless problem์„ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” physical state๊ฐ€ ์•„๋‹ˆ๋ผ belief state์˜ space๋ฅผ searchํ•ด์•ผํ•œ๋‹ค. ๊ธฐ์กด ํƒ์ƒ‰ ๋ฌธ์ œ์—์„œ physical state๋ฅผ belief state๋กœ ๋ฐ”๊ฟ”์น˜๊ธฐ ํ–ˆ๋‹ค๊ณ  ๋ณด๋ฉด ๋œ๋‹ค. 

  belief-state space์—์„œ๋Š” problem์ด fully obserbableํ•œ๋ฐ, agent๊ฐ€ ์ž์‹ ์˜ belief state๋ฅผ ํ•ญ์ƒ ์•Œ๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค. ๋” ๋‚˜์•„๊ฐ€ solution์€ ํ•ญ์ƒ action๋“ค์˜ sequence๋กœ ๋‚˜ํƒ€๋‚˜๊ฒŒ ๋  ๊ฒƒ์ด๋‹ค. ์ฆ‰, belief state ๋ ˆ๋ฒจ์—์„œ๋Š” observable ๋ฌธ์ œ๋กœ ๋ฐ”๋€Œ๊ฒŒ ๋œ๋‹ค. 

 

 

1) Searching with Unobservable States : ๋‚ด๊ฐ€ ์–ด๋–ค state์ธ์ง€ ์ „ํ˜€ ์•Œ ์ˆ˜ ์—†์„ ๋•Œ

 

  physical problem P๊ฐ€ ์žˆ๋‹ค๊ณ  ๊ฐ€์ •ํ•ด๋ณด์ž. ์ด ๋•Œ ์šฐ๋ฆฌ๋Š” Actionsp, Resultp, GoalTestp, StepCostp๋ฅผ ์ •์˜ํ•  ์ˆ˜ ์žˆ๋‹ค. 

 

  - Belief states: physical state์˜ ๋ชจ๋“  ๊ฐ€๋Šฅํ•œ set์„ ํฌํ•จํ•˜๋Š” belief-state space. ์ฆ‰ physical state๋ฅผ ์›์†Œ๋กœ ๊ฐ€์ง€๋Š” ๋ชจ๋“  ๊ฐ€๋Šฅํ•œ ๋ถ€๋ถ„ ์ง‘ํ•ฉ. n๊ฐœ์˜ state๊ฐ€ ์žˆ๋‹ค๋ฉด belief state๋Š” 2^n๊ฐœ

 

  - Initial state : ๋ชจ๋“  Physical state๋ฅผ ํฌํ•จํ•˜๊ณ  ์žˆ๋Š” ์ „์ฒด ์ง‘ํ•ฉ. 

 

  - Actions 

         ๋ถˆ๊ฐ€๋Šฅํ•œ action์„ ์ทจํ–ˆ์„ ๋•Œ ์•„๋ฌด๋Ÿฐ ๋ณ€ํ™”๊ฐ€ ์—†๋‹ค๋ฉด, ๊ฐ state์—์„œ ๊ฐ€๋Šฅํ•œ action๋“ค์„ ์ „๋ถ€ ํ•ฉ์ง‘ํ•ฉ ํ•ด์ค˜๋„ ๋จ

         ๋ถˆ๊ฐ€๋Šฅํ•œ action์„ ์ทจํ–ˆ์„ ๋•Œ failure๊ฐ€ ๋œ๋‹ค๋ฉด ํ•ฉ์ง‘ํ•ฉ์„ ํ•˜๋ฉด ์•ˆ๋œ๋‹ค. ๊ต์ง‘ํ•ฉ์„ ํ•ด์•ผ ํ•œ๋‹ค. 

 

  - Transition model : ์–ด๋–ค action์„ ์ˆ˜ํ–‰ํ•œ ํ›„ ์ƒˆ๋กœ์šด belief state๊ฐ€ ์ƒ์„ฑ๋˜๋Š” ๊ณผ์ •์„ prediction step์ด๋ผ๊ณ  ๋ถ€๋ฅธ๋‹ค. 

                             b'(์ƒˆ๋กœ์šด belief state) = Result(b, a) (state b ์—์„œ action a ์ˆ˜ํ–‰) == Predict(b, a)

 deterministic action์ด๋ผ๋ฉด, Result(b,a)๋Š” b์˜ ๊ฐ’๋ณด๋‹ค ์ปค์งˆ ์ˆ˜ ์—†๋‹ค. ์™œ๋ƒ? ๋‹น์—ฐํ•˜๊ฒŒ๋„ state b์—์„œ action์„ ์ทจํ•˜๋ฉด ๊ฐ๊ฐ ํ•˜๋‚˜์˜ new state b'๊ฐ€ ์ƒ์„ฑ๋˜๋‹ˆ๊นŒ!  

      Result(b,a) = {s' | s' = Resultp(s, a) ∧ s ∈ b}  // s๊ฐ€ belief state์˜ ์›์†Œ์ผ ๋•Œ s'๋Š” resultp(s, a)์ด๋‹ค. 

nondeterminism์ผ ๋•Œ Result(b, a)๋Š” b์˜ ๊ฐ’๋ณด๋‹ค ํด ์ˆ˜๋„ ์žˆ๋‹ค.

      Result(b,a) = {s' | s' ∈ Resultp(s, a) ∧ s∈b } = Us∈b Resultp(s, a) // s'๋Š” resultp(s,a)์—์„œ ๋‚˜์˜ฌ ์ˆ˜ ์žˆ๋Š” ๋ชจ๋“  ๊ฒฝ์šฐ์˜ ์ˆ˜์ด๋‹ค. 

 

  - goal test : beilef state ์•ˆ์— ์žˆ๋Š” ๋ชจ๋“  physical state๊ฐ€ goal์„ ๋งŒ์กฑํ•˜๋Š”๊ฐ€. 

 

  - path cost : ๋ชจ๋“  state์—์„œ action์˜ cost๋Š” ๋‹ค ๋™์ผํ•˜๋‹ค๊ณ  ๊ฐ€์ •ํ•œ๋‹ค. ๋งŒ์•ฝ ๊ฐ™์€ action์ด ๋‹ค๋ฅธ state์—์„œ ์„œ๋กœ ๋‹ค๋ฅธ cost๋ฅผ ๊ฐ–๋Š”๋‹ค๋ฉด, ๊ฐ belief state์— ๋”ฐ๋ผ action์„ ์ˆ˜ํ–‰ํ•˜๋Š”๋ฐ ๋“œ๋Š” cost๊ฐ€ ์—ฌ๋Ÿฌ๊ฐ€์ง€ value ์ค‘ ํ•˜๋‚˜๊ฐ€ ๋˜์–ด ๋ฒ„๋ฆฐ๋‹ค. ์ด๊ฒƒ์€ ๋˜๋‹ค๋ฅธ ๋ฌธ์ œ๋ฅผ ์•ผ๊ธฐํ•  ์ˆ˜ ์žˆ๋‹ค. ๊ทธ๋ž˜์„œ ๋‹ค ๋™์ผํ•˜๋‹ค๊ณ  ๊ฐ€์ •ํ•˜๋Š”๊ฑฐ์ž„.

 

       

์ด๋ ‡๊ฒŒ ๋ชจ๋“  ๊ฐ€๋Šฅํ•œ state๋ฅผ ํฌํ•จํ•˜๊ณ  ์žˆ๋Š” initial state์œผ๋กœ ๋ถ€ํ„ฐ ํƒ์ƒ‰ ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์‚ฌ์šฉํ•˜๋ฉด ๋œ๋‹ค.

 

* Pruning : ๊ฐ€์ง€์น˜๊ธฐ

 : ์–ด๋–ค belief state b์— ๋Œ€ํ•ด์„œ ํ•œ action sequence๊ฐ€ solution์ด๋ผ๋ฉด, b์˜ subset ์—ญ์‹œ solution์ด๋‹ค. ๊ทธ๋Ÿฌ๋ฏ€๋กœ ์šฐ๋ฆฌ๋Š” ๋งŒ์•ฝ ์ด๋ฏธ superset์˜ subset์ด ์ƒ์„ฑ๋˜์—ˆ๋‹ค๋ฉด, ๋‹ค๋ฅธ level์—์„œ ์ด superset์œผ๋กœ ๊ฐ€๋Š” path๋“ค์€ ๊ฐ€์ง€์น˜๊ธฐ ํ•ด์„œ ๋”์ด์ƒ ๋ณผ ํ•„์š”๊ฐ€ ์—†๋‹ค. ์ด๋Ÿฌํ•œ pruning์€ sensorless problem์„ ํ‘ธ๋Š”๋ฐ ์•„์ฃผ ์ข‹์€ ํšจ์œจ์„ฑ ๊ฐœ์„  ํšจ๊ณผ๋ฅผ ๋ณด์—ฌ์ค€๋‹ค. 

  -> ์• ์ดˆ์— [1, 2]์—์„œ action b๋ฅผ ํ•˜๋ฉด ๋ฐ”๋กœ goal์ด ๋‚˜์˜ฌ ์ˆ˜ ์žˆ๋Š”๋ฐ ๊ตณ์ด action a ๋ฅผ ๊ฑธ์ณ์„œ goal๋กœ ๊ฐˆ ํ•„์š”๊ฐ€ ์—†์Œ.

 

 * ๊ฐ€์žฅ ํฐ ๋ฌธ์ œ๋Š”, ๊ฐ belief state๋“ค์˜ ํฌ๊ธฐ์ด๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด initial belief state๊ฐ€ 10x10์ด๋ผ๊ณ  ํ•˜๋ฉด, vacuum world๋Š” 100x2^100์ด ๋œ๋‹ค. ์ด๊ฑด.. states๋“ค์˜ ๋ฆฌ์ŠคํŠธ๋ฅผ atomic represetation์œผ๋กœ ๋‚˜ํƒ€๋‚ด๊ธฐ์—” ๋„ˆ๋ฌด๋„ ๋งŽ๋‹ค.... 

   -> ํ•˜๋‚˜์˜ ์†”๋ฃจ์…˜์€ belief state๋ฅผ ๋ณด๋‹ค ์••์ถ•์ ์ธ ์„ค๋ช…์œผ๋กœ ๋‚˜ํƒ€๋‚ด๋Š” ๊ฒƒ์ด๋‹ค. (ex. 100๊ฐœ ๋‹ค ๊นจ๋—)

   -> belief state์—์„œ state ์ผ๋ถ€๋ฅผ ๋จผ์ € ๊บผ๋‚ด์„œ searchํ•˜๊ณ , ๋‹ค์Œ state๋„ ๋˜ searchํ•˜๊ณ . ..  develop incremental belief-state search algorithm์„ ์“ด๋‹ค. ๋‚˜์˜จ ๋‹ต์ด ๊ฐ™์œผ๋ฉด ๊ณ„์† search๋ฅผ ํ•ด ๋‚˜๊ฐ€๊ณ . ํ•˜๋‚˜๋ผ๋„ solution์ด ๋‚˜์˜ค์ง€ ์•Š์œผ๋ฉด failure.

 

 

    2)  Search with Partially Observable States : ์ผ๋ถ€๋งŒ observableํ•œ ๊ฒฝ์šฐ

  

 ์ด ๊ฒฝ์šฐ action, step cost, goaltest๋Š” ์•ž์„œ ํ–ˆ๋˜ sensorless problem๊ณผ ๊ฐ™๋‹ค. ๋‹จ, transition model์—๋งŒ ์กฐ๊ธˆ ์ฐจ์ด๊ฐ€ ์žˆ๋‹ค. ๋‹ค์Œ belief state๋ฅผ ๋งŒ๋“ค๊ธฐ ์ „์— ์–ด๋–ค state๊ฐ€ ๊ฐ€๋Šฅํ• ์ง€ ์˜ˆ์ธกํ•˜๊ณ  ๋˜, ๊ฐ€๋Šฅํ•œ percept๋ฅผ ์ธก์ •ํ•ด์•ผ ํ•œ๋‹ค.

   

  โ‘  prediction stage : ์˜ˆ์ธก ๋‹จ๊ณ„ (sensorless problem๊ณผ ๋™์ผ) : belief state b์—์„œ action a๋ฅผ ์ˆ˜ํ–‰ํ–ˆ์„ ๋•Œ ๊ฐ€๋Šฅํ•œ state                                b' = Predict(b, a)

  โ‘ก observation prediction stage : ๊ด€์ธก ์˜ˆ์ธก ๋‹จ๊ณ„ : predicted belief state์—์„œ ๊ด€์ธกํ•  ์ˆ˜ ์žˆ๋Š” percept๋ฅผ ์˜ˆ์ธกํ•œ๋‹ค. 

                             PossiblePercepts(b') = { o | o = Percept(s)  ∧ s ∈ b' }

  โ‘ข update stage : ๊ฐ percept๋“ค์ด ๊ฐ€๋Šฅํ•  ์ˆ˜ ์žˆ๋Š” state๋“ค๋ผ๋ฆฌ ๋ชจ์•„์„œ ์ƒˆ๋กœ์šด belief state๋กœ ๋งŒ๋“ค์–ด์ค€๋‹ค.  

                             b0 = Update(b', o) = {s | o = Percept(s)  ∧ s ∈ b' }

 

์ด ์„ธ ๋‹จ๊ณ„๋ฅผ ํ•ฉ์ณ์„œ ํ‘œํ˜„ํ•˜๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

 Result(b, a) = { b0 | b0 = Update(Predict(b,a), o)  ∧ o ∈PossiblPercepts(Predict(b,a))}

//๊ฐ€๋Šฅํ•œ ๋ชจ๋“  belief state์—์„œ ๊ฐ€๋Šฅํ•œ percept ์ค‘ ํ•˜๋‚˜๋ฅผ ๊ณจ๋ผ, ์ด percept๊ฐ€ ๋‚˜์˜ค๋„๋ก ํ•˜๋Š” belief state๋“ค์˜ ์ง‘ํ•ฉ์„ b0์— update ์‹œํ‚จ๋‹ค.

 

(a) ๋ฅผ ๋ณด๋ฉด ์ฒญ์†Œ๊ธฐ๊ฐ€ ์žˆ๋Š” ๋ฐฉ์—๋Š” ๋จผ์ง€๊ฐ€ ์žˆ๋Š”์ง€ ์—†๋Š”์ง€๋ฅผ ์•Œ์ง€๋งŒ ๋‹ค๋ฅธ ๋ฐฉ์—๋Š” ๋จผ์ง€๊ฐ€ ์žˆ๋Š”์ง€ ์—†๋Š”์ง€๋ฅผ ๋ชจ๋ฅธ๋‹ค๊ณ  ํ•˜์ž.  ์ด ๋•Œ ๋‘๊ฐ€์ง€์˜ belief state๊ฐ€ ์กด์žฌํ•œ๋‹ค. ์ด ๋•Œ ์ฒญ์†Œ๊ธฐ๋ฅผ ์˜ค๋ฅธ์ชฝ์œผ๋กœ ์ด๋™์‹œํ‚ค๋ฉด ๋‘๊ฐ€์ง€์˜ state๊ฐ€ ๊ฐ€๋Šฅํ•˜๋‹ค.(prediction) ์ด ๋•Œ ๊ฐ€๋Šฅํ•œ percept๋Š” ์˜ค๋ฅธ์ชฝ ๋ฐฉ์— ๋จผ์ง€๊ฐ€ ์žˆ๊ฑฐ๋‚˜/ ์—†๊ฑฐ๋‚˜. ์ฆ‰ ์ด ์‚ฌ์‹ค์„ ๋ฐ”ํƒ•์œผ๋กœ prediction belief state๋ฅผ ๋ถ„๋ฆฌํ•˜์—ฌ ๊ฐ๊ฐ update ์‹œ์ผœ์ค€๋‹ค.

 

(b)์˜ ๊ฒฝ์šฐ๋Š” ๋ฐ”ํ€ด๊ฐ€ ๊ณ ์žฅ๋‚œ ๊ฒฝ์šฐ์ด๋‹ค. ์˜ค๋ฅธ์ชฝ์œผ๋กœ ๊ฐ€๋ผ๋Š” action์„ ๋ช…๋ นํ–ˆ์„ ๋•Œ ๊ฐ€๋Šฅํ•œ belief state๋Š” ์ด 4๊ฐ€์ง€ ์ด๋‹ค. ์—ฌ๊ธฐ์„œ ๊ฐ€๋Šฅํ•œ percept๋Š” [์ฒญ์†Œ๊ธฐ๊ฐ€ ์˜ค๋ฅธ์ชฝ์— ์žˆ๊ณ  ๋ฐฉ์ด ๋”๋Ÿฝ๋‹ค], [์ฒญ์†Œ๊ธฐ๊ฐ€ ์™ผ์ชฝ์— ์žˆ๊ณ  ๋ฐฉ์ด ๋”๋Ÿฝ๋‹ค], [์ฒญ์†Œ๊ธฐ๊ฐ€ ์˜ค๋ฅธ์ชฝ์— ์žˆ๊ณ  ๋ฐฉ์ด ๊นจ๋—ํ•˜๋‹ค] ๋ผ๋Š” ์„ธ ๊ฐ€์ง€ ๊ฒฝ์šฐ๋กœ ๋‚˜๋ˆŒ ์ˆ˜ ์žˆ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ๊ฐ๊ฐ์˜ percept๊ฐ€ ๋‚˜์˜ฌ ์ˆ˜ ์žˆ๋Š” belief state๋ฅผ update ํ•ด์ค€๋‹ค. 

 

์ด๋ ‡๊ฒŒ partially observableํ•œ ๋ฌธ์ œ์—์„œ๋Š” action์„ ์ทจํ•œ ๋‹ค์Œ์— ์ •ํ™•ํžˆ ์–ด๋–ค percept๊ฐ€ ์˜ฌ ์ˆ˜ ์žˆ๋Š”์ง€ ์˜ˆ์ƒํ•˜๋Š” ๊ฒƒ์ด ๋ถˆ๊ฐ€๋Šฅํ•˜๋‹ค. ๋”ฐ๋ผ์„œ nondeterminism ํ•˜๋‹ค. ์ด๋Ÿฌํ•œ ์ƒํ™ฉ์—์„œ๋Š” ์šฐ๋ฆฌ๊ฐ€ AND - OR search tree๋ฅผ ๊ทธ๋ฆด ์ˆ˜ ์žˆ๋‹ค. 

 

 * AND-OR search for Partial observability

 : solution์€ belief state์— ๋Œ€ํ•œ conditional plan์œผ๋กœ ๋‚˜ํƒ€๋‚˜๊ฒŒ ๋œ๋‹ค. 

  agent๋Š” action์„ ์ˆ˜ํ–‰ํ•˜๊ณ  percept๋ฅผ ๋ฐ›๋Š” ๋™์•ˆ์— belief state๋ฅผ ์œ ์ง€ํ•ด์•ผ ํ•œ๋‹ค. ์ด function์€ ์—ฌ๋Ÿฌ๊ฐ€์ง€ ์ด๋ฆ„์œผ๋กœ ๋ถˆ๋ฆฌ๋Š”๋ฐ monitoring, filtering, state estimation์ด ์žˆ๋‹ค.

 new belief state b' = Update(Predict(b, a), o)

 

 - ํ˜„์žฌ state์—์˜ subset ๋˜๋Š” supersets์ด ์ „์— ์ƒ์„ฑ๋œ์ ์ด ์žˆ๋Š”์ง€ ํ™•์ธํ•จ์œผ๋กœ์จ imporveํ•  ์ˆ˜ ์žˆ๋‹ค

 - ๋˜ํ•œ incremental search algorithms์„ ํ†ตํ•ด black-box approach์— ๋น„ํ•ด ๋” ๋น ๋ฅธ ์†๋„๋ฅผ ๋ณด์—ฌ์ค„ ์ˆ˜ ์žˆ๋‹ค. 

 (๋‘˜ ๋‹ค sensorless problem๊ณผ ๊ฐ™๋‹ค)

percept๋ฅผ ํ†ตํ•ด ์ง€๋„์˜ ์–ด๋Š ์œ„์น˜๊ฐ€ ๊ฐ€๋Šฅํ•œ์ง€ ์„ ํƒ์ง€๋ฅผ ์ค„์—ฌ ๋‚˜๊ฐ€๋Š” ๋ชจ์Šต