层级实时记忆=HTM

楼主
TKUA 2013年8月14日 13:21
时间的重要性 让我们先从推断问题说起。在将时间排除在外的情况下,我们几乎无法根据触觉和听觉进行任何推断。举例来说,如果有人在你眼睛被蒙住的情况下,在你手中放了个苹果,把玩个一两秒后,你就能确定你手里拿的是什么了。在手指滑过苹果表面的过程中,虽然手指获得的触觉信息一直在变化,但是苹果这个物体自身,以及你对“苹果”的高层次认知是不变的。不过,如果在你的手掌完全张开的情况下把苹果放在你手上,并且不允许你移动自己的手或手指,你恐怕就很难识别出自己手中的物体是苹果,而不是柠檬什么的了。 对于听觉来说,也是同样的道理。静止不变的声音几乎不能传递任何信息。人们之所以能识别“苹果”这个单词的发音,或者某个人咬苹果所发出的咔哧声,是因为这些声音的声谱在时间维度上包含着数以百计的快速连续变化。 与此相反,视觉的情况会复杂一些。与触觉和听觉不同,即使图像在人类眼前快速闪过,快到眼球都来不及有哪怕再微小的转动,人类也是可以识别出图像中的内容的。因此,视觉推断不总要求随时间变化的输入。然而,在日常的视觉活动中,我们总是在不停移动我们的眼睛,脑袋和身体。周围的事物也在不停运动。实际上,我们根据那种快速闪过的视觉信息推断的能力只是个特例。我们的这种能力来自于视觉的统计特性和成年累月的训练。而对于一般性的视觉,听觉和触觉,推断都需要随时间变化的输入。 前面我们已经讨论了推断的一般情况,以及根据静态图像进行视觉推断的特殊情况。现在我们考虑学习问题。为了进行学习,所有的HTM系统都必须在随时间变化的输入上进行训练。即使是视觉这种静态推断有时可行的情况,我们也必须通过某物体变化的图像才能学习出该物体究竟是什么样子的。举例来说,想象有一只狗正冲着你跑过来。在每一个时间点上,这只狗都在你的视网膜上留下了一个运动模式。你将这些模式看作为同一只狗的不同视觉信息,但是在数学层面上,这些模式却完全不同。由于大脑是连续观测到这些模式的,所以它可以获知这些模式同属于一个物体。在这一过程中,时间扮演着“监督人”的角色,它负责告诉你哪些空间模式是表述同一物体的。 值得注意的是,感官输入仅仅随时间变化是不够的。毫无关系的连续变化模式只会让人感到混乱和困惑。所以,这些时变输入必须来自于同一个源。另外,虽然我们使用人类的感觉作为例子,但是之前的结论同样适用于非人类感觉的一般性情况。如果我们想训练一个HTM,使它可以

登录以发表回复