你好!欢迎来到北京图象图形学学会!
登录  |  注册
首页 > 品牌活动  > IGTA2023

知识驱动的语义理解论坛

来源:管理员  发布于2023-07-06

X-Curve:性能曲线优化算法研究

许倩倩.png

报告人:许倩倩

报告摘要主流人工智能方法大多采用准确率作为单一性能评价指标,并据此进行算法设计。该指标决策阈值固定,仅能适应特定监管需求。而在实际网络空间内容风险监管过程中,对于不同领域的监管力度具有明显差异。针对现有模型学习算法对特定指标的依赖性,突破基于静态目标函数的模型优化框架,本报告将介绍团队提出的基于X-Curve的模型优化框架,该框架以AUROC、AUPRC、AUTKC、OpenAUC等性能曲线为模型优化准则,综合考虑不同阈值下的模型性能,从而保证模型在复杂应用场景下的可靠性。

个人简介:许倩倩,中科院计算所研究员,博士生导师,基金委优秀青年基金获得者。CCF杰出会员,IEEE/CSIG/高级会员,担任CSIG青工委副秘书长、CSIG多媒体专委会副秘书长、CAAI深度学习专委会副秘书长。研究领域为数据挖掘和机器学习,共发表CCF-A类论文70余篇(其中TPAMI 12篇)。先后获得:吴文俊人工智能自然科学一等奖、吴文俊人工智能科技进步二等奖、茅以升北京青年科技奖、中国图象图形学学会石青云女科学家奖、吴文俊人工智能优秀青年奖、中国人工智能学会最佳青年科技成果奖、ACM中国SIGMM新星奖、北京图象图形学学会最美女科技工作者、中国人工智能学会优秀博士学位论文、中科院百篇优秀博士学位论文等奖励,并入选首份AI华人女性青年学者榜单。担任国际期刊TMM、T-CSVT、ACM TOMM和Multimedia Systems编委,CCF-A类国际会议ACM MM领域主席,AAAI和IJCAI SPC。


知识与数据双驱动的视觉感知

王文冠.jpg

报告人:王文冠

报告摘要:大模型时代的到来标志着计算机视觉领域将迎来全新变革。在海量数据和超大规模参数的加持下,神经网络展现出强大的表达和学习能力,而另一方面,人类智能建立在高度抽象的符号知识与逻辑先验之上。在计算机视觉领域新变革与大模型时代的背景之下,本次讲座围绕“知识与数据双驱动”的全新视觉感知范式,介绍如何将以视觉知识、逻辑知识、专家知识为代表的多重知识与数据驱动的神经网络相结合,并以视觉识别、图像分割以及图像生成等经典视觉感知任务为例,探讨计算机视觉的未来发展方向。


个人简介:王文冠,浙江大学计算机学院百人计划研究员,博士生导师,国家优秀青年基金 (海外)获得者。2022∼2023年, 任悉尼科技大学 (University of Technology Sydney)讲师。2020∼2022 年, 任苏黎世联邦理工学院 (ETH Zurich)博后研究员。2018∼2019年,先后任起源人工智能研究院 (IIAI)研究员和资深研究员。2016∼2018年在加州大学洛杉矶分校 (UCLA)访学。2018年博士毕业于北京理工大学。主要研究方向为计算机视觉和人工智能。在顶级期刊和会议 (如TPAMI、IJCV、ICLR、ICML、NeurIPS、CVPR、ICCV、ECCV、AAAI、Siggraph sia)发表学术论文80多篇。谷歌学术引用13000余次,H指数60。曾获澳大利亚研究理事会 (Australian Research Council,ARC)优秀青年基金 (Discovery Early Career Researcher Award,DECRA) (2022年)、斯坦福大学“全球前2%顶尖科学家”(2022年),Elsevier高被引中国学者 (2020∼2022年),世界人工智能大会优秀青年论文奖 (2020年)、中国人工智能学会优博奖 (2019年),ACM中国优博奖 (2018年)。带队在 15个国际学术竞赛中获得7项冠军、3项亚军和5项季军。



语义与空间双约束下的物体理解方法研究

梁孔明.jpg

报告人:梁孔明

报告摘要:物体理解涵盖了属性、关系等多种视觉概念的识别,可以给出物体所具备的颜色、形态、部件,以及物体间的相对位置、动作交互等。作为诸多计算机视觉任务的基础(如图像标题生成、医学影像自动化报告、商品检索等),视觉概念识别得到了国内外研究者的关注,也成为了人工智能领域的热点研究问题。本报告围绕语义与空间双约束的物体理解方法,介绍知识融合的异质信息交互方法、知识引导的语义先验建模方法和知识增强的伪标注学习方法,以自然图像和医学影像为例,探讨物体理解在实际应用场景下的关键技术问题


个人简介:梁孔明博士,北京邮电大学副研究员,博士生导师。2018年获得中国科学院计算技术研究所计算机应用方向博士学位,2019年至2021年于北京大学进行博士后阶段研究工作,2016-2017年在加拿大卡尔顿大学进行联合培养,主要研究方向为计算机视觉、深度学习和医学影像分析。发表国际会议期刊论文40余篇(第一作者或通讯作者20余篇),其中包含国际主流期刊会议TPAMI、TMI、CVPR、ICCV、ECCV、AAAI、IJCAI、MM、MICCAI等。共申请专利20余项,其中授权8项(第一发明人6项)。主持国家自然科学青年科学基金项目一项,作为子课题负责人参与国家重点研发计划,作为算法负责人参与国家自然科学基金联合基金重点支持项目和北京市自然科学基金重点项目等课题研发。入选2022年度北京市科协青年托举人才工程,获得2022年度MICCAI ISLES国际竞赛冠军。


知识增强的多模态预训练模型

黄岩.png

报告人:黄岩

报告摘要:在当前视觉-语言理解研究领域,各式各样的多模态预训练模型占据了各个任务性能榜单的主导地位。这些模型无一例外地都具备:标注数据多、模型体量大、模型精度高等特点。与数据驱动的监督学习方式不同,本报告将重点关注如何从多模态数据中提取表示通用概念知识、从多模态模型中挖掘复用模型知识,以提升多模态预训练模型在实际应用中的泛化性和执行效率。此外,将探讨目前主要的技术难题以及未来研究趋势。


个人简介:中国科学院自动化研究所副研究员,2017年博士毕业于中科院自动化所。研究方向为视觉-语言理解和视频分析,在相关领域的国内外期刊和会议上发表论文共计100余篇,曾获国内外学术会议最佳论文奖3项、国内外竞赛冠亚军5项,并担任CVPR和ICCV上3次多模态主题研讨会的共同组织主席。曾获得中国科学院院长特别奖、中国图象图形学学会青年科学家奖、中国人工智能学会优秀博士论文奖、百度奖学金、NVIDIA创新研究奖。入选中国科协青年人才托举工程、北京市科技新星计划和微软铸星计划。



视频人体动作的细粒度分析与理解

徐婧林.png

报告人:徐婧林

报告摘要:视频是人们观察和记录世界、进行内容分享和信息交互的重要载体,分析视频中人体动作对理解现实世界、服务人类社会具有重大意义,其作为基础性关键技术在智能体育、智能安防、智能媒体、智能家居等领域具有广阔的应用前景。本报告首先介绍视频人体动作分析与理解的难点问题和方法;重点介绍视频体育运动定量评价与数据分析等问题,构建了首个细粒度竞技体育视频数据集FineDiving,提出了基于过程感知的细粒度人体动作解析等方法,解决竞技体育运动定量评价的可回溯性问题;介绍视频人体动作意图难理解、人工标注不可靠等问题,提出了基于知识增强的意外动作定位等方法,突破现有模型稳定预测、泛化的局限性,提升了模型推理行为目标、认知他人计划的能力。


个人简介:徐婧林,北京科技大学智能科学与技术学院副教授,西北工业大学博士、清华大学博士后。主要研究方向为视频动作理解、多视图分析与识别等,已发表CCF A类国际期刊和会议论文14篇,包括IEEE TIP、TKDE、CVPR、AAAI、IJCAI等。主持国家自然科学基金青年基金、中国博士后科学基金等多个项目,参与国家自然科学基金重点、面上、企业横向等多个项目。2022年中国图象图形学学会优秀博士学位论文奖、2022年西北工业大学优秀博士学位论文。担任《电子与信息学报》编委、中国自动化学会模式识别与机器智能专业委员会委员、中国图象图形学学会视觉大数据专委会委员,担任国际权威期刊(IEEE TPAMI、TIP、TNNLS、TCSVT、TMM等)和国际会议(CVPR、ICCV、IJCAI、AAAI等)审稿人。