机器之心专栏
机器之心编辑部
来自华南理工大学、新加坡国立大学、香港理工大学以及琶洲试验室的研讨者们联合提出一种风趣的手写文字生成办法,仅需供给少数的参阅样本即可描摹用户的书写风格,然后生成契合该风格的恣意文字。
笔迹仿照 AI 的研讨布景
俗话说,见字如面,字如其人。比较板滞的打印字体,手写体更能体现书写者的个人特色。信任很多人都曾想象过,具有一套归于自己的手写字体,用在交际软件中,更好的展现自己的个人风格。
但是,不同于英文字母,汉字数量是极端巨大的,想要发明一套自己的专属字体价值非常昂扬。例如,最新发布的国标GB18030-2022中文字符集包括8万多个汉字。有报导称,某视频网站博主花了18个小时写完了7000多个汉字,中心耗费了足足13支笔,手都写麻了!
上述问题引发了论文作者的考虑,能否规划一个文字主动生成模型,协助处理专属字体发明价值高的问题呢?为了处理这一问题,研讨者想象提出一个会笔迹仿照的 AI,仅需用户供给少数的手写样本(大约 10 几张),就能提取笔迹中包括的书写风格(例如字符的巨细、歪斜程度、横宽比、笔画的长短和曲率等),而且描摹该风格去组成更多的文字,然后为用户高效组成一套完好的手写字体。
进一步地,论文作者从运用价值和用户体会两个视点动身,对该模型的输入和输出模态做了如下考虑:1. 考虑到序列模态的在线字体 (online handwritings) 比图画模态的离线文字 (offline handwritings) 包括更丰厚的信息(轨道点的详细方位和书写次序,如下图所示),将模型的输出模态设置为在线文字会有更广泛的运用远景,例如能够运用到机器人写字和书法教育上。2. 在日常日子中,比较经过平板和接触笔等收集设备获取在线文字,人们运用手机摄影获取离线文字愈加便利。因而,将生成模型的输入模态设为离线文字,用户运用起来会愈加便利!
总结起来,本文的研讨方针是提出一个风格化的在线手写文字生成模型 (stylized online handwriting generation method)。该模型既能描摹用户供给的离线文字中所包括的书写风格,又能依据用户需求在线生成内容可控的手写笔迹。
论文地址:https://arxiv.org/abs/2303.14736
代码开源:https://github.com/dailenson/SDT
首要应战
为了完结上述方针,研讨者们剖析了两个关键问题:1. 因为用户只能供给少数的字符样本,能否仅从这些少数的参阅样本中学习用户共同的书写风格呢?换句话说,依据少数的参阅样本描摹用户的书写风格是否可行?2. 本文的研讨方针不只需求满意生成的文字风格可控,还需求内容也可控。因而,在学习到用户的书写风格后,怎么将该风格与文字内容高效的结合,然后生成满意用户希望的手写笔迹?接下来让咱们看看这篇 CVPR 2023 提出的 SDT(style disentangled Transformer)办法是怎样处理这两个问题的吧。
处理方案
研讨动机 研讨者发现,个人笔迹中一般存在两种书写风格:1. 相同书写者的笔迹存在着一种全体上的风格共性,各个字符呈现出类似的歪斜程度和宽高比,且不同书写者的风格共性各不相同。因为这种特功能够用于区分出不同的书写者,研讨者们称其为书写者风格。2. 除了全体上的风格共性,来自同一书写者的不同字符间存在着细节上的风格不一致。例如,关于 “黑” 和 “杰” 两个字符,二者在字符结构上具有相同的四点水部首,但该部首在不同的字符中存在弱小的书写差异,体现在笔画书写的长短、方位和曲率上。研讨者们将这种字形上的纤细的风格形式称为字形风格。受启发于上述调查,SDT 旨在从个人笔迹中解耦出书写者和字形风格,希望提高对用户笔迹的风格仿照才能。
在学习到风格信息后,不同于以往的手写文字生成办法简略的将风格和内容特征进行简略的拼接,SDT 将内容特征作为查询向量,自适应的捕获风格信息,然后完结风格和内容的高效交融,生成契合用户预期的手写笔迹。
办法结构SDT 的全体结构如下图所示,包括双分支风格编码器、内容编码器和 transformer 解码器三部分。首要,本文提出两个互补的比照学习方针来引导风格编码器的书写者分支和字形分支别离学习对应的风格提取。然后,SDT 运用 transformer 的注意力机制 (multi-head attention) 对风格特征和内容编码器提取到的内容特征进行动态交融,渐进式的组成在线手写文字。
(a) 书写者风格比照学习 SDT 提出面向书写者风格提取的有监督比照学习方针(WriterNCE),将归于相同书写者的字符样本集合在一起,推远归于不同书写者的手写样本,显现地引导书写者分支重视个人笔迹中的风格共性。
(b) 字形风格比照学习 为了学习愈加细节的字形风格,SDT 提出无监督的比照学习方针 (GlyphNCE),用于最大化相同字符不同视角间的互信息,鼓舞字形分支专心学习字符中的细节形式。详细如下图所示,首要对同一张手写字符做两次独立的采样,获取一对含有笔画细节信息的正样本和,然后从其他字符中采样得到负样本。每次采样时,随机挑选少数样本块作为包括原始样本细节的新视角。样本块的采样遵守均匀分布,防止字符的某些区域被过度采样。为了更好的引导字形分支,采样进程直接效果于字形分支输出的特征序列上。
(c) 风格和内容信息的交融战略 获取了两种风格特征后,怎么将其与内容编码器学习到的内容编码进行高效交融呢?为了处理这一问题,在恣意的解码时间 t,SDT 将内容特征视作初始点,然后结合 q 和 t 时间之前输出的轨道点构成新的内容上下文。接着,内容上下文被视为 query 向量,风格信息作为 key & value 向量。在穿插注意力机制的交融下,内容上下文与两种风格信息顺次完结动态聚合。
试验
定量点评SDT 在中文、日文、印度文和英文数据集上都取得了最优异的功能,尤其是在风格分数指标上,比较之前的 SOTA 办法,SDT 取得了较大打破。
定性点评在中文生成方面,比较曾经的办法,SDT 生成的手写字符既能防止字符的崩坏又能很好的描摹用户的书写风格。得益于字形风格学习,SDT 在字符的笔画细节生成方面也能做的很好。
在其他言语上 SDT 也体现杰出。尤其在印度文生成方面,现有干流办法很简略生成溃散的字符,而咱们的 SDT 仍旧能够保持字符内容的正确性。
不同模块对算法功能的影响 如下表所示,本文提出的各个模块具有协同效果,有用提高了对用户笔迹的描摹功能。详细来说,书写者风格的参加提高了 SDT 对字符全体风格的仿照,例如字符的歪斜程度和长宽比等,而字形风格的参加改进了生成字符的笔画细节。比较已有办法简略的交融战略,在各项指标上 SDT 的自适应动态交融战略全面增强了字符的生成功能。
两种风格的可视化剖析 对两种风格特征进行傅里叶变换得到如下的频谱图,从图中调查到,书写者风格包括更多的低频成分,而字形风格首要重视高频成分。事实上,低频成分包括方针的全体概括,高频成分则愈加重视物体的细节。这一发现进一步验证和解说了解耦书写风格的有用性。
展望
我们能够经过笔迹 AI 发明自己的专属字体,在交际平台上更好的表达自我!
未来的输入法会变成什么样?是全息键盘、漂浮笔迹、仍是腾空手写?这几天,百度Create大会正在元世界中如火如荼地举行,百度输入法也在creator city里搭建了一座“AI造字未来馆”。在这儿,你能...
金融界11月13日音讯,世纪华通在互动渠道表明,公司旗下盛趣游戏借助于当下的AIGC大模型东西和职业经历,敞开了AI造字项目的探究,现在已完成打通了AI造字全流程,继开发了黑体、楷体、行体3款根底美术...
事实上,自2023年以来,大模型热潮正盛,商场中的每一个参与者都能殷切地感受到这股热潮的涌动。从百度文心一言、阿里通义千问到华为盘古,再到快手的爽快,大厂们纷繁推出自家的AI大模型,一场全新的比赛已然拉开帷幕,我们纷繁布局、加大出资,企图在这场比赛中拔得头筹。
但与此一起,随之而来的问题也日益凸显。
一方面,当其复杂性和规划不断添加,怎么客观、精确地评价这些模型的功用,已成为一个亟待处理的问题;另一方面,跟着AI技能的广泛应用,比如AI欺诈、AI不良案牍传达等社会问题也随之而来。
315接近,新华社日前也对人工智能高速开展期间衍生出的新圈套、新套路进行了揭穿。
其在报导中说到,一些不法分子声称可供给ChatGPT服务,实践是冒牌AI;一起,不法分子还运用AI换脸技能,将视频电话中出现的“亲朋”形象替换为假造的画面,制作假象,施行欺诈行为。更为恶劣的是,一些人为寻求网络流量,不吝运用AI技能假造虚伪流言,制作惊惧,严峻打乱社会秩序。
至此,“人工智能”开端变成“人为圈套”。
而近年来,比如此类经过AI技能组成出方针人物的语音或视频,假充其身份进行欺诈活动,然后骗得钱财或灵敏信息的状况并不罕见。
2023年11月底,最高人民检察院发布的检察机关依法惩治电信网络欺诈及其相关违法典型事例中,就曾说到有欺诈团伙运用AI语音机器人欺诈,共骗得1437人3586万余元。
业界专家表明,这种行为严峻侵犯了个人隐私和产业安全,给受害者带来巨大的经济损失和心理压力,一起简单损坏社会的信赖机制,也在必定程度上对正常的社会秩序形成要挟。
除此之外,中华网财经注意到,经过AI技能生成虚伪信息或歹意言辞,并在交际媒体等平台上广泛传达的状况也一再产生。
“网信我国”曾经过微信大众号发文着重,乱用AI技能诽谤值得警觉。其指出,2023年10月份网传多起所谓的“爆破事端”、恶性刑事案件,过后均被证实为网络流言。如运用编程和AI技能假造“广州地铁遭受恐怖袭击”、“安徽泾县产生学校伤人事情,多人伤亡”等恶性流言,闭门造车“西南大学药学院产生爆破”“河北保定化粪池爆破致1死5重伤”等虚伪信息,制作社会惊惧。
在“三人成虎”的传达效应之下,网民若不明就里、容易信任,就会成为流言传声筒,形成不良社会影响。而以上仅仅AI带来的社会问题的一部分,跟着AI技能的不断开展和广泛应用,还需求继续重视并应对更多的应战。
在此布景下,大模型“监督者”人物不可或缺。
业界人士曾向中华网财经表明,例如大模型测评类的项目或相关第三方公司能够经过供给舆情监测和内容审阅服务,协助企业和政府机构了解和操控信息传达的内容。例如,主张AI大模型评测体系能够新增部分功用,经过对AI生成的语音、视频以及文本进行深度语义及情感剖析和辨认,有用区别实在和假造的内容,然后协助大众辨认和防备欺诈行为,并检测和辨认歹意言辞、流言、歧视性内容等不良案牍,然后有助于阻挠其传达。
在北京大学教授、鹏城实验室网络智能研讨部副主任田永鸿看来,尽管评测体系本身无法处理AI带来的社会问题,但在评测过程中要重视模型的安全性和可控性,尽可能下降潜在的危险。
针对AI欺诈等社会性问题,田永鸿向中华网财经表明,一方面,能够经过开发专门的反AI欺诈技能,进步模型的安全性和可信度,防止其被用于不良意图;但另一方面,也需求立法和技能手段相结合的方法来处理,政府出台相关法规和政策,标准AI技能的运用,冲击与AI技能相关的违法违法行为。
“与此一起,根据互联网打破国界的状况,还需求加强世界协作,不能单靠某一方力气,且大众也需求进步本身的科技素质和防备知道,加强对AI技能的了解和知道,防止成为受害者。”田永鸿称如是说。
本文源自:中华网财经
文|罗曾事实上,自2023年以来,大模型热潮正盛,商场中的每一个参与者都能殷切地感受到这股热潮的涌动。从百度文心一言、阿里通义千问到华为盘古,再到快手的爽快,大厂们纷繁推出自家的AI大模型,一场全新的...
2025年4月10日,杭州市公安局滨江区分局在网络巡查工作中发现,某交际渠道账号"奥秘风铃Y4"发布题为《滨江区产生恶性刑事案 嫌疑人已被刑拘》的虚伪信息,引发网络重视。经核对,文中所述"4月7日清晨...
来历:智通财经APP 作者: 智通财经 马火敏 2024年注定是美股史上不普通的一年。 智通财经APP了解到,虽然本年全球政治和经济面对多重应战,美国三大股指仍连续改写前史纪录。从标普500指数...
这是AI年代最令人等待的艺术盛事
今天美术馆·未来馆与红树林今天AI艺术中心联合主办
AI艺术圈顶流天团加盟
寻觅10000+ AI艺术家免费参展
一起打造全球首个参展人数最多、参展著作最多、
兼具艺术专业性和群众参与度、
艺术方法最丰盛、线下展出体量最大的AI艺术展
“首届红树林AI艺术万人展暨今天未来馆AI艺术特展”
现已敞开著作上传!
首届红树林AI艺术万人展暨今天未来馆AI艺术特展(以下简称“大展”)将于2025年1月29日-2月28日在三亚、青岛的四座红树林休假国际盛大举行。11月15日起,登陆MVM(猫喂猫)小程序,进入“今天AI艺术中心”频道即可上传你的参展著作,比赛今天未来馆AI艺术特展专业组及红树林AI艺术万人展群众组10大丰盛奖项。
AI,让人人都是艺术家成为或许这是AI年代最令人等待的艺术盛事今天美术馆·未来馆与红树林今天AI艺术中心联合主办AI艺术圈顶流天团加盟寻觅10000+ AI艺术家免费参展一起打造全球首个参展人数最多、...