不同领域的“多模态”研究进展与思考 王萌 东南大学 Interesting Case Inspired by Choi’s work 人 人 酒杯 衬衫 人 酒杯 人 人 桌子 Object Detection 挨着 人 拿着 人 酒杯 衬衫 人 酒杯 白 色 人 人 桌子 Scene Graph Image Captioning 人 人 酒杯 衬衫 人 酒杯 人 人 桌子 五个人围着桌子拿着酒杯碰在一起 人在这张照片 之前做了什么? 五个人围着桌子拿着酒杯碰在一起 人在这张照片 之后做了什么? 之后,人会… 之前,人会… Commonsense Mining 五个人围着桌子拿着酒杯碰在一起 之前,人会… 人 他说“喝” 拿着 酒杯 Event Detection 倒满酒 饼干 五个人围着桌子拿着酒杯碰在一起 之前,她吃了 之前,他把杯子… 拿着 酒杯 拿着 酒杯 人 酒杯 他说“喝” 酒杯 之后,他… 人 她举起酒杯 之后,她… 喝酒 喝酒 Event Detection 放下 人 人 装起 来 … 倒满 酒 饼 干 之前,她吃了 之前,他把杯子… 拿着 酒杯 打电话 拿着 酒杯 人 他说“喝” 酒 杯 酒 杯 人 之后,他… 聊天 她举起酒杯 之后,她… 看书 喝酒 跑步 喝酒 五个人围着桌子拿着酒杯碰在一起 人 人 Multi-modal Knowledge Discovery What is Multi-modal Knowledge? Multimodality: is the application of multiple literacies within one medium1. Knowledge: Facts acquired through experience or education; the theoretical or practical understanding of a subject ------Oxford dictionary (English) , 2016 [1] https://en.wikipedia.org/wiki/Multimodality Multi-modal knowledge: is an awareness or understanding of someone or something in different multimodalities. Representation (KR, ML or DL) View LSCOM 跨模态语义关系 Large-Scale Concept Ontology for Multimedia , IEEE Multimedia Magazine, 13(3), 2006. COMM COMM: A core ontology for multimedia annotation, Handbook on Ontologies, 2009 数据集 模态类型 跨模态语义关系 领域 DBpedia 文本、图像 不支持 开放域 Wikidata 文本、图像 支持 开放域 IMGPedia 文本、图像 支持 开放域 MMKG 文本、图像 支持 开放域 KgBench 文本、图像 支持 开放域 Richpedia 文本、图像 支持 开放域 知识森林 文本、图像、视 频 支持 教育 百度 知识图谱 文本、语音图像、 视频 支持 开放域 王萌, 王昊奋, 李博涵, 赵翔, 王鑫, 新一代知识图谱关键技术综述, 计算机研究与发展: 2022, 59(03) 图像空间 共同表征空间 ViLBERT, NeurIPS 2019 知识图谱 空间 文本空间 Multimodal machine learning: A survey and taxonomy. IEEE transactions on pattern analysis and machine intelligence 41.2 (2018): 423-443. Oscar UNITER VL-BERT Pixel-BERT VisualBERT LXMERT Unicoder-VL ImageBERT Contrastive Learning Efficiency 细粒度表征 Few-shot Prompt Effect Analysis Commonsense Reasoning View 神经+符号 Symbolic Knowledge Distillation: from General Language Models to Commonsense Models Multimodal Neural Script Knowledge Models NeurIPS 2021 Computer Vision View 具身(体验) • Multi-modal • Embodied, (inter)active • Explorative <-> Exploitative • Multi task, generalizable Feifei Li [Held, R. and Hein A. (1963). Movement-produced stimulation in the development of visually guided behavior. Jouranal of Comparative and Physiological Psychology 56(5): 872-876.] Embodied intelligence via learning and evolution. Nature communications
东南大学 不同领域的“多模态”研究进展与思考
文档预览
中文文档
42 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共42页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 路人甲 于 2022-08-13 07:01:59上传分享