米兰·(milan)中国官方网站-专访上海大学方昱春教授:数据驱动的手语识别研究,如何破解数据之困?|GAIR live
于科技日月牙异的今天,手语辨认作为一种新兴的跨学科研究范畴,正逐渐走进公家视线。
近期,咱们约请了上海年夜学的方昱春传授,这位于计较机视觉及手语研究范畴深耕多年的资深专家,与咱们分享了她怎样将计较机视觉技能与手语研究相交融,斥地出一片新的研究六合。
方传授的研究重点于在使用计较机视觉技能(CV)摸索手语辨认,尤其是经由过程深度进修要领来求解这一繁杂而神奇的天然语言交流情势。今朝她及团队已经经于多模数据收罗、伶仃词辨认、持续手语辨认以和人体姿态建模等四个标的目的上开展了研究。
现实上,方传授的学术研究始在人脸辨认,跟着时间的推移,她的研究兴致逐渐扩大得手语辨认这一范畴。
2003年,她于中科院主动化所得到博士学位,以后前去法国国立信息与主动化研究院做博士后,从事图象检索研究。虽然手语研究并不是她最初的研究重点,但于2005年插手上海年夜学后,方传授逐渐将研究重心转向了手语范畴。
尤其是于2017年,她协助本校手语语言学专家倪兰传授筹建面向人工智能研究的手语数据库,并于2018年得到上海市科委项目撑持,正式开展手语辨认研究。
于方传授看来,手语研究不仅是技能摸索的历程,更是深切理解人类认知智能机制的主要路子。她指出:“手语作为一种天然语言,只管其成长汗青相对于较短,但它所蕴含的关在语言成长及认知机制的信息是极为贵重的。”
如今,方传授的研究不仅存眷在手语的理论研究,更致力在解决手语于现实场景中的运用问题,为聋人群体于应急、医疗及购物等现实场景中提供数字化技能撑持。方传授及团队正于开发的运用步伐及小步伐,恰是这一方针的详细实践。
此外,她也指出,跟着年夜型语言模子等前沿科技的成长,手语辨认研究将面对新的机缘及挑战。她的团队正于踊跃摸索联合计较机视觉及天然语言处置惩罚的要领,以期于手语研究范畴取患上更多冲破。
如下为对于话(经编纂):
01计较机视觉学者做起手语辨认
雷峰网:方传授,我留意到您是计较机视觉(CV)身世,手语研究于您的研究事情中所占比重于逐年增长,能详细先容下您是怎样把二者调集起来的吗?
方昱春:简朴来讲,计较机视觉及手语的联合,形成为了“手语辨认”这一研究标的目的。
手语辨认研究是数据驱动的,而手语数据的获取及标注相对于繁杂。之以是我涉足这一范畴,是由于倪兰教员介入了国度及上海的科研勾当,但愿将人工智能技能运用在手语研究,这促使我最先着手语数据的收罗及研究计划。
于搭建手语辨认体系时,还有有另外一种技能线路--基在传感装备(如数据手套及位置跟踪器)的体系。穿着式装备如数据手套也曾经是主流手语辨认研究标的目的。
跟着深度进修于人脸辨认运用上的乐成,手语辨认研究也逐渐向呆板进修及计较机视觉联合的标的目的成长。
今朝,我的研究小组跟踪了计较机视觉范畴的主流要领,正于以深度进修要领为主来处置惩罚手语辨认问题,后续研究规划越发存眷手语语言学交织学科问题的摸索。
我及团队已经经摸索了四个重要标的目的,包括多模态数据收罗、伶仃词辨认、持续手语辨认,以和人体姿态建模及AI天生技能运用在手语研究。
于持续手语辨认方面,我想夸大的一点是,咱们试图建模手语运动的多模态特征,好比头部、脸部、双手及躯干之间的空间瓜葛及运动瓜葛,以实现敌手语更深切的理解。这是咱们团队已往几年一直于努力的标的目的。
跟着人工智能天生内容技能的成长,咱们最先测验考试了一些手语的计较天生研究,这部门事情还有处在低级阶段。
雷峰网:手语辨认这一研究范畴已往很少人存眷,海内于这方面年夜致履历了如何的成长阶段?
方昱春:计较机视觉的手语辨认研究履历了20年摆布的成长,跟着深度进修技能的成长,基在呆板进修及计较机视觉的手语辨认才最先蓬勃成长,近两年行家语辨认研究的范围迅速增加。
我是于2005年插手上海年夜学,于2017年才最先计划手语研究,2018年最先正式投入得手语研究中。2017年,我协助倪兰教员筹办数据设置装备摆设,这年对于上海年夜学手语研究来讲是一个主要的里程碑,倪兰传授成立了“中国手语和聋人研究中央”,很是有气概气派。
雷峰网:您认为手语辨认研究的久远方针是甚么?
方昱春:手语作为一种天然语言,蕴含着人类的认知智能机制。与文字语言或者白话比拟,手语形成的汗青相对于较短,这使到手语成为研究语言成长及认知机制的名贵研究对于象。
从理论角度来看,咱们但愿可以或许更深切地舆解这些机制。
而从运用角度来讲,咱们的方针是解决手语于现实场景中的运用问题,好比于应急、医疗及购物等场景中,为聋人社区提供数字化的技能撑持。咱们正于测验考试开发运用步伐及小步伐,来实现这些方针。
雷峰网:方传授,手语研究此刻是您研究事情的重要部门吗?对于您招生方面有何影响?
方昱春:手语研究是我今朝研究的重要使命之一,自从最先着手语项目以来,我投入的精神及资源都于不停增加。
于招收研究生方面,咱们也很是但愿有跨学科配景的学生插手,好比语言学及呆板进修的两重配景,但找到如许的综合型人材很是坚苦。
幸运的是,上海年夜学有倪教员如许于手语语言学范畴有着深挚堆集的专家,将来,我及倪教员规划互助引导学生,造就具备交织学科配景的复合性人材,这一方针对于学生的职业成长及人生计划将很是有价值。
02 数据是手语辨认研究的最年夜瓶颈
雷峰网:我近来对于田英利传授的手语研究举行了专访,您可能已经经看过了。田传授的研究专注在美国手语,并开发了一个及时手语语法过错辨认体系。这个体系旨于为手语进修者提供即时反馈,并有望于将来提高切确度后,集成得手机或者电脑中,以便将聋哑人的手语翻译给听力正常的人。请问您于这方面的研究是否有相似的地方或者存于差异?
方昱春:从我小我私家的角度来讲,我敌手语研究还有是一个新手,咱们试验了从计较机视觉角度研究手语的基本要领,我认为这些要领于运用上是具备实用价值的,对于将来的理论研究也尤其有帮忙。
我及倪教员于会商上海年夜学将来的手语研究计划时,相识到田英利传授开展了手语研究,在是我决议接洽她,促成差别手语研究之间的交流。虽然咱们研究的手语语种、可能差别,但暗地里的机理是可以互相借鉴的,咱们可以经由过程比力美国手语及中国手语来互相验证。
现实上,我最初举行手语研究时,也是从伶仃词的辨认最先,利用的是美国手语(ASL)的数据集。正如我以前提到的,数据驱动的研究离不开数据。于咱们本身的数据预备就绪以前,咱们重要依靠开源数据集。
那末,不管是美国手语还有是中国手语,现实上于差别地域之间,手语的体现情势还有是有所差别的,就像方言同样,会有变化。
今朝,中国科学技能年夜学、西安电子科技年夜学、中国科学院计较所及主动化所,是海内开展手语辨认很是有代表性的研究机构。团队之间的互助沟通必然是有利的,如鞭策数据库同享等。
雷峰网:手语也有“方言”之分,今朝您利用的手语数据集,是否重要来自在上海一带所利用的?
方昱春:咱们今朝于上海举行的手语研究还有处在比力基础的阶段,好比数据的支解及预处置惩罚,还有没有深切到辨认层面。
咱们算法研究利用的数据集叫做“中国手语辨认数据集”(CSL),这是由中国科学技能年夜学的研究团队成立的。
今朝国度层面及政策层面为了帮忙聋人群体,做了许多语言推广事情,经由过程制订新的尺度来推广手语。
虽然对于在咱们这些不打手语的门外汉来讲,不克不及辨识差别地域的手语方言,可是关在手语的这类地区差异,还有有许多问题需要研究。
雷峰网:海内今朝也有中科年夜、西电、中科院等几支手语辨认的领先团队,所利用的手语数据是否针对于特定地域?
方昱春:是的,这几所单元开展手语辨认研究,都具有丰盛的堆集。针对于特定的手语方言的研究还有很是少。
上海的手语语言学成长较为进步前辈,倪教员及上海的聋人群体成立了持久的接洽,并开展了现实互助。
从计较机视觉研究的角度来看,咱们更多地利用德国的凤凰(PHOENIX)数据集,由于德国的手语数据集上做出来的标杆算法较多,咱们但愿相识本身的算法到达了甚么水平。德国的标杆数据集开源较多,是以各人都愿意利用它来验证本身要领的前进。
雷峰网:利用德国手语数据集举行研究会有语言欠亨的问题吗?这对于咱们的研究要领有影响吗?
方昱春:从计较机视觉的角度来看,利用德国或者其他国度手语数据集是没有问题的,要领是有通用性的。视频中包罗的重要是上半身的多模态运动,这些旌旗灯号对于咱们来讲都是同样的。只管云云,从语言学的角度来看,差别语言的手语确凿存于差异,由于它们属在差别的语系。
雷峰网:于开发数字人举行手语运用时,您是否碰到了一些挑战,好比聋人群体可能没法理解数字人利用的手语,或者者差别企业开发的数字人于手语表达上可能呈现同质化的问题?
方昱春:起首,咱们面对的最年夜挑战是手语数据的缺少。
咱们会选择利用德国凤凰(PHOENIX)数据集,由于它将场景限制于气候预告上,问题因场景限制而简化,他们提供大众研究的开源数据量很年夜,他们的团队开展了语言学家及计较机科学专家的互助,是一个很好的模式。
第二个挑战是,手语语言学专家及语言学专业职员的缺少。
上年夜年夜学手语辨认研究,有幸能得到倪兰教员的引导。
假如仅从计较机视觉的角度解决手语辨认问题,不相识手语语言的特色,不相识聋人的语言特色,所开发出来的算法或者模子会离开现实运用的需求。
田英利传授的事情就是一个跨学科互助的范例,她联合了语言学及计较机视觉技能,我认为她的交织运用选点很是新奇。倪教员也很是赞美田传授的事情,并特意保举给咱们上海年夜学团队参考。
雷峰网:咱们也很是存眷前沿科技对于您事情的影响,好比去年推出的ChatGPT及本年的Sora,它们于天然语言处置惩罚方面取患了显著成绩。这些模子暗地里的设计理念及技能路径,对于您做手语辨认研究有何启迪?
方昱春:咱们团队也一直于存眷年夜语言模子的成长。咱们正于规划使用黉舍新建的年夜型GPU集群,开展更多年夜语言模子相干的研究。
于联合计较机视觉(CV)及天然语言处置惩罚(NLP)方面,于中科年夜团队将天然语言理解技能运用在手语辨认研究的开导,咱们团队近期也提出了一个解决方案,取患了显著的效果。
雷峰网:咱们留意到,年夜模子的呈现让许多人但愿成立一个全世界或者国度通用的手语年夜模子。但这确凿面对挑战,特别是数据获取坚苦。手语数据凡是包罗上半身,触及肖像权及隐私问题。您是否重要利用倪兰传授网络的数据库举行数据研究?
方昱春:为了妥帖利用数据,确凿需要健全隐私掩护机制。咱们团队于数据收罗及利用方面,都严酷遵守隐私掩护的约束。
手语理解数据集面对的最年夜的挑战于在数据标注问题。当收罗到伶仃词或者持续手语句的视频后,可以举行甚么水平的标注?今朝,文字情势天然语言的主动分词已经很是成熟。可是,要将手语视频分化成音韵要素,主动处置惩罚难度很是高,人工标注事情量会很是年夜。
于接下来的线上圆桌会商中,我但愿及各人一路切磋手语辨认范畴的数据之困。
本文作者吴彤,接待添加微信(icedaguniang),交流认知,互通有没有。
|GAIR live 圆桌预报
3月18日,北京时间20:00-22:00,雷峰网将举办主题为「AI+手语辨认,技能改造与运用远景」的线上圆桌论坛。
本次论坛佳宾有,美国纽约都会年夜学田英利传授、上海交通年夜学主动化系苏剑波传授、上海年夜学计较机工程与科学学院方昱春传授、上海年夜学文学院倪兰传授,配合分享他们的看法及研究结果。
“全世界人工智能与呆板人年夜会”(GAIR)始在2016年雷峰网与中国计较机学会(CCF)互助创建的 CCF-GAIR 年夜会,旨于打造人工智能海潮下,毗连学术界、财产界、投资界的新平台,而雷峰网“毗连三界”的全新定位也于此年夜会上患上以确立。
颠末几年成长,GAIR年夜会已经成为行业标杆,是今朝为止粤港澳年夜湾区人工智能范畴范围最年夜、规格最高、跨界最广的学术、工业及投资范畴嘉会。
GAIR Live 作为雷峰网(公家号:雷峰网)旗下视频直播品牌,旨于输出新鲜、深度、原创的年夜咖访谈与对于话内容,打造辐射产、学、研、投的特点线上平台。

|手语相干资料
1,《专访纽约都会年夜学田英利传授:用多通道、多模态的要领「看懂」手语》https://mp.weixin.qq.com/s/jgng2-6tiG9HC9C7FEbMLA
2,《Multi-Modal Multi-Channel American Sign Language Recognition 》https://gairdao.com/doi/10.1142/S2972335324500017
|IJAIRR正于邀约论文及专题
《国际人工智能与呆板人研究期刊》(International Journal of Artificial Intelligence and Robotics Research,简称IJAIRR),是由新加坡GAIR研究院与世界科技出书社结合出书的国际学术期刊。
作为全世界首本专注在人工智能(AI)、呆板人技能(Robotics)以和基础科学交织研究(Research)的期刊,IJAIRR致力在成为AI与呆板人范畴研究的权势巨子发布平台。
IJAIRR接待各种研究论文、评论文章、短篇论文、书评以和专题(Special Issue)情势的投稿。
咱们尤其存眷那些于顶级AI集会上发表并现场展示,但缺少持久沉淀平台的优异论文。为了给这些论文和其作者提供一个更广泛的发表及推广渠道,IJAIRR现正踊跃邀约相干论文投稿。
(1)“假如您于本事域顶级集会上发表的文章(或者行将发表)不跨越一年,咱们将协助您稍作修改后于IJAIRR期刊上发表。
(2)假如您带领的团队于顶级集会上有多篇论文发表,并但愿于IJAIRR上缭绕特定主题筹谋一个专题(Special Issue),咱们诚挚约请您深切会商互助事宜。
(3)假如您是顶级集会的构造者,并成心与IJAIRR互助,针对于特定集会筹谋一个专题(Special Issue),咱们也期待与您详细参议互助细节。
IJAIRR期待与您联袂,配合鞭策人工智能与呆板人研究的成长。
接洽人:IJAIRR创刊主编朱晓蕊博士,xiaorui_zhu@gair.sg
关在期刊创刊主编等更多信息,可点击
https://mp.weixin.qq.com/s/gEctQolbEqqf2eVwBAkdoA
关在雷峰网、GAIR年夜会、GAIR研究院(期刊及于线社区)的具体先容,请浏览朱晓蕊传授的专访:https://mp.weixin.qq.com/s/Qn7Gc3rVijQhhK0hTSrgxw
IJAIRR期刊的主页链接为:https://gairdao.com/journals/ijairr
雷峰网原创文章,未经授权禁止转载。详情见转载须知。





