东南大学 不同领域的“多模态”研究进展与思考

不同领域的“多模态”研究进展与思考王萌东南大学 Interesting Case Inspired by Choi’s work 人人酒杯衬衫人酒杯人人桌子 Object Detection 挨着人拿着人酒杯衬衫人酒杯白色人人桌子 Scene Graph Image Captioning 人人酒杯衬衫人酒杯人人桌子五个人围着桌子拿着酒杯碰在一起人在这张照片之前做了什么？五个人围着桌子拿着酒杯碰在一起人在这张照片之后做了什么？之后，人会… 之前，人会… Commonsense Mining 五个人围着桌子拿着酒杯碰在一起之前，人会… 人他说“喝” 拿着酒杯 Event Detection 倒满酒饼干五个人围着桌子拿着酒杯碰在一起之前，她吃了之前，他把杯子… 拿着酒杯拿着酒杯人酒杯他说“喝” 酒杯之后，他… 人她举起酒杯之后，她… 喝酒喝酒 Event Detection 放下人人装起来 … 倒满酒饼干之前，她吃了之前，他把杯子… 拿着酒杯打电话拿着酒杯人他说“喝” 酒杯酒杯人之后，他… 聊天她举起酒杯之后，她… 看书喝酒跑步喝酒五个人围着桌子拿着酒杯碰在一起人人 Multi-modal Knowledge Discovery What is Multi-modal Knowledge? Multimodality: is the application of multiple literacies within one medium1. Knowledge: Facts acquired through experience or education; the theoretical or practical understanding of a subject ------Oxford dictionary (English) , 2016 [1] https://en.wikipedia.org/wiki/Multimodality Multi-modal knowledge: is an awareness or understanding of someone or something in different multimodalities. Representation (KR, ML or DL) View LSCOM 跨模态语义关系 Large-Scale Concept Ontology for Multimedia , IEEE Multimedia Magazine, 13(3), 2006. COMM COMM: A core ontology for multimedia annotation, Handbook on Ontologies, 2009 数据集模态类型跨模态语义关系领域 DBpedia 文本、图像不支持开放域 Wikidata 文本、图像支持开放域 IMGPedia 文本、图像支持开放域 MMKG 文本、图像支持开放域 KgBench 文本、图像支持开放域 Richpedia 文本、图像支持开放域知识森林文本、图像、视频支持教育百度知识图谱文本、语音图像、视频支持开放域王萌, 王昊奋, 李博涵, 赵翔, 王鑫, 新一代知识图谱关键技术综述, 计算机研究与发展: 2022, 59(03) 图像空间共同表征空间 ViLBERT, NeurIPS 2019 知识图谱空间文本空间 Multimodal machine learning: A survey and taxonomy. IEEE transactions on pattern analysis and machine intelligence 41.2 (2018): 423-443. Oscar UNITER VL-BERT Pixel-BERT VisualBERT LXMERT Unicoder-VL ImageBERT Contrastive Learning Efficiency 细粒度表征 Few-shot Prompt Effect Analysis Commonsense Reasoning View 神经+符号 Symbolic Knowledge Distillation: from General Language Models to Commonsense Models Multimodal Neural Script Knowledge Models NeurIPS 2021 Computer Vision View 具身（体验） • Multi-modal • Embodied, (inter)active • Explorative <-> Exploitative • Multi task, generalizable Feifei Li [Held, R. and Hein A. (1963). Movement-produced stimulation in the development of visually guided behavior. Jouranal of Comparative and Physiological Psychology 56(5): 872-876.] Embodied intelligence via learning and evolution. Nature communications

东南大学 不同领域的“多模态”研究进展与思考

东南大学不同领域的“多模态”研究进展与思考