近日,bsport电气学院智能决策与控制技术研究团队在测量领域顶级期刊IEEE Transactions on Instrumentation and Measurement(IF 5.6,中科院二区)上发表题为“VITO-Transformer: A Visual-Tactile Fusion Network for Object Recognition”的学术论文。该研究成果以上海电机学院为唯一单位,李保江老师为第一作者及通讯作者。
物体识别是人工智能领域的一个重要研究方向,尽管各种识别算法在物体识别方面取得了重大进展,但相似或缺乏视觉信息的物体识别仍然是一个难以解决的具有挑战性的问题,基于视觉、触觉多模态信息融合进行物体识别是一个可行的解决途径。
为了解决物体的视觉-触觉多模异构信息难以融合的难题,智能决策与控制技术研究团队提出了一种VITO-Transformer融合网络。在Transformer网络基础上,设计了可以融合视觉和触觉信息的Attention模块,解决了由于视觉和触觉信息差异过大难以融合的问题。得益于这种特殊的融合机制,大幅度提升了物体的识别准确率。最后在公开和自制的视觉-触觉数据集上进行了大量的比较实验,通过与当前流行的网络算法进行比较,验证了提出的VITO-Transformer网络的优势,验证了提出的融合机制的有效性。提出的VITO-Transformer网络,通过特殊的视觉-触觉融合机制,能够处理不同的多模异构信息,给视觉-触觉融合发展领域带来了新的解决方案。(供稿:电气学院)
论文链接:
https://ieeexplore.ieee.org/document/10288485