百分点NLP技术支撑 “AI李白”智能作诗送祝福H5春节受追捧


2018-03-09 17:14 来源:中新网

  3月9日电 春节期间,一款智能作诗拜年H5在亲朋好友间大规模地传播开来。产品上线6天的点击量就超过了1100万。这是百分点联合人民日报等机构推出的智能作诗送祝福应用——“AI李白”。

  当古典诗词与现代风触碰到AI技术后,生成出一首首个性化诗词,祝福不再千篇一律,乘着拜年的习俗、伴着祝福的味道,让很多人都体会了“一秒变李白”的神奇,也让使用AI技术成为了拜年新风尚。

  中国是“礼仪之邦”,春节拜年是中国优秀传统文化的集中展示。通过使用人工智能技术,由机器作出个性化的诗句,“AI李白”成为了中国首个被大量人群使用的智能作诗拜年送祝福的应用。区别于其他智能作诗应用,“AI李白”具有三个特点:

  在研发阶段,考虑到诗词中有自己的平仄韵律美和组合规律,传统的N-Gram语言模型表达能力有限,无法较好的处理长距离的上下文语言依赖问题。因此,百分点NLP团队利用先进的深度神经网络技术,训练出以春节祝福为主题的诗词自动生成模型。

  “AI李白”不仅可以支持使用者向亲人、朋友、师长、领导、爱人等拜年,还可以提供不同的风格和形式,不仅有唐诗、宋词,还有祝福语、现代风、Freestyle等风格和形式,来满足中国人在新春佳节互相拜年的需求。

  为了让大家在春节期间玩起来,增加了互动性和趣味性,在唐诗和宋词中特别地支持用户输入个性化的4-8个字的祝福语句,从而生成个性化诗词,并且在生成页面用高亮的呈现效果散落在诗词中。

  2

  “AI李白”H5由百分点提供技术支持,从开始的创意策划、研发到优化、测试、上线,时间只有短短数周,在H5上线后百分点和人民日报中央厨房相关团队一起全程保障产品运行。

  在整体设计上,“AI李白”产品是百分点卓越的自然语言处理技术与中国传统文学典籍的巧妙结合,是技术+艺术的美好尝试。 具体表现在:

  百分点首席算法科学家苏海波博士介绍,百分点NLP团队利用了先进的深度学习技术,采用长短期记忆网络模型LSTM(Long-Short-Term Memory),结合大规模的诗词训练语料,自动学习发现诗词中的特征和规律,捕获上下文复杂的语言依赖关系,从而训练出智能作诗的模型。尤其是在宋词中,五十多个词牌模型全部依靠AI习得。

  为了达到更好的生成效果,在对诗词上下文建模中,采用的训练语料包括全部的唐诗、宋词、诗经以及经典的现代散文和现代诗共计80万首,构建了大规模的数据集。

  在相关诗词专家团队的指导下,利用词向量(Word2Vec)技术发现与春节语义相关的词汇,并智能化填入各种风格的诗词中,呈现出春节送祝福的美好意境。

  为了保证用户插入的祝福语满足诗词自身的平仄和谐,百分点NLP团队运用了启发式搜索技术实现了这种插入逻辑,而且在前端还支持用户上传自己的照片,最终让用户生成的每一首诗词都是满满的个性化祝福。

  最重要的是智能审核环节。为保障诗词中不出现黄色、非法或广告词汇,在本项目中所使用的敏感词审核系统是百分点为主流媒体机构开发并实际使用的一款智能审核系统,系统中包括数万条的敏感词库,结合先进的机器学习算法,可以实现各种敏感词变种识别,并且从训练语料库、输入环节、生成诗词的各个阶段都有极为严苛的技术保障。

  在春节之际,“AI李白”让人们使用人工智能技术写诗,传承了民族文化、弘扬中华经典,同时,也是百分点NLP技术能力的一次对外展示。未来,在深度学习算法持续升级换代,以及在大量用户使用中积累了更多数据集后,系统将持续进行自学习、自优化。可以预想,“AI李白”会越来越贴近人写诗的效果。

  实际上,NLP不仅是可以应用于诗词的自动生成,还可应用在智能推荐、智能搜索、智能校验、智能问答、智能商情等众多的业务场景,百分点在这些方面积累了丰富的业务实践经验,覆盖新零售、媒体出版、公安、教育等行业,未来在“NLP+”方面将会有越来越多的落地项目。