一、基于内容的视频检索关键技术(论文文献综述)
黄立,朱定局[1](2021)在《基于语义的视频检索技术综述》文中指出本文综述了基于语义的视频检索的研究现状,以帮助未来的研究人员了解基于语义的视频检索领域中可用的技术,视频检索系统的产生是为了在互联网或数据库中的大量视频数据集中找到用户想要查询的视频.本文对基于语义的视频检索过程进行了说明与讨论,本文还对基于语义的视频检索中,解决语义鸿沟这一主要问题的相关技术进行了综述.语义鸿沟的形成是因为从视频内容中提取的低层特征与现实世界中用户对这些特征的认知存在差异,将视频内容的低层特征转化为高层的语义概念是一个备受关注的研究课题.
支卫建[2](2021)在《基于多特征融合的视频检索技术研究》文中研究说明目前随着自媒体的发展,视频内容丰富多彩,传统的特征已经无法满足现代社会人员对视频检索的需求。随着短视频的普及,个人小视频在媒体中大量传播,短视频的数据量急剧增加,人们越来越关注自己感兴趣的内容,希望能够高效地找到自己喜欢的视频,检索出自己想要的结果。而随着深度学习技术的逐渐成熟,训练出某一特定感兴趣的内容不再困难。但是在海量数据中高效地检索出感兴趣的目标人物的视频,仍然是一个难点。因此,结合深度学习中的相关技术进行研究和实践。论文研究具体内容如下:大多数K-Means聚类提取关键帧的方法未考虑到图像中人脸的信息。因此,为了能够快速检索出目标人物的视频片段,在K-Means聚类的基础上,结合人脸识别中的相关方法,提出了一种基于人脸识别和改进K-Means聚类的关键帧提取方法。该方法首先使用人脸检测方法检测出人脸图片,并提取人脸特征,然后使用K-Means聚类方法提取关键帧,在K-Means聚类中使用人脸的相似度边界确定聚类半径,通过边界迭代划分簇类,最后取距离簇的中心最近的人脸图片作为关键帧。最终的实验结果表明,该方法与文献中的方法相比,在准确率上有所提升。使用传统的方法提取特征并进行融合,并未考虑到感兴趣的目标人物,而使用人物的面部或者身体姿态等单一特征,对准确率有一定的限制。因此,本文在关键帧提取的基础上,提出了一种多特征融合的视频检索方法。首先使用卷积神经网络提取人脸特征、人头特征和身体姿态特征,使用这些特征作为衡量一个人物的标准,然后使用不同的特征与视频库中对应的特征进行匹配和融合,最后检索出用户感兴趣的目标人物视频片段。实验表明,本文检索的方法在准确率上高于文献的方法,具有较高的准确性。综上所述,实验结果证明本文的方法可以准确地提取关键帧,并在此基础上较准确的检索出视频。
张晨[3](2021)在《基于内容的视频检索关键技术研究及实现》文中研究表明
袁凌利[4](2021)在《基于多模态特征的视频检索技术研究与应用》文中认为视频是承载着动态信息的多媒体载体,蕴含了丰富的语义信息,而高层的语义信息与常规认知中的低层特征之间常常存在“语义鸿沟”。为缩小视频的“语义鸿沟”,本文以教学视频为研究对象,综合视频的图像模态及文本模态从视频结构化、视频信息提取等方面对视频检索技术展开研究,并基于视频的多模态信息设计实现了视频检索系统,以提高用户对于教学视频的检索效率。主要研究工作和成果包括:1.提出了一种基于时空切片与相似度度量(STSSM)的镜头边界检测算法。针对教学视频镜头内部运动变化较少,镜头变换形式较为单一的特点,依据突变镜头与渐变镜头的特性,通过在时空切片算法中引入相似度度量函数,解决了传统镜头边界检测算法计算复杂度高、查准率低的问题。实验结果表明,该算法可以在较小的时间代价下保持较高的查全率与查准率。2.提出了一种基于Tesseract与TF-IDF的视频信息提取方法。针对Tesseract对于视频中中文文本识别率低的问题,采用字符库训练方法对教学视频中的文本进行有效识别,结合TF-IDF方法对视频图像文本与字幕文本进行语义信息提取。实验结果表明,该方法提取的视频信息能够很好的对视频内容进行概括。3.利用以上算法从视频的图像模态与文本模态中提取相应语义信息,采用Spring Boot+Shiro+My Batis+Thymeleaf技术,设计实现了基于多模态特征的视频检索系统。该系统主要包括信息管理、视频分析、视频检索等功能,具有检索准确度高的特点。测试表明,系统能有效满足用户多元检索需求。主要贡献:提出的基于时空切片与相似度度量的镜头边界检测算法,可在较小的时间代价下保持较高的查全率与查准率;提出的基于Tesseract与TF-IDF的视频信息提取方法,可同步对视频图像文本与字幕文本进行语义信息提取;设计实现的基于多模态特征的视频检索系统,可有效满足教学视频的检索需求。
孙垂进[5](2021)在《基于人脸图像的视频检索系统》文中提出进入21世纪,互联网技术不断进步,多媒体逐渐成为人们获取信息的主要来源,其中视频因有着传输方便、生动直观、信息量大等一系列特点所以得到了大范围的应用。同时,随着国内各类视频监控的普及应用,视频监控开始普遍的应用于教育、公共安防等领域。然而如果想要在视频监控中找出想要的特定目标,仅仅通过人工浏览来进行查找,那一方面工作人员会因为长时间的眼部工作产生视觉疲劳,另一方面也极有可能会在观看视频时漏掉想要查找的特定目标,从而影响检索的速率和准确率。本文对比分析了基于帧间差分和聚类算法的视频关键帧提取方法、基于YOLO v4的人脸检测识别方法,设计实现了面向学生管理工作需要的基于人脸图像的视频检索系统。系统以Springboot和vue框架为基础,采用帧间差分算法来对视频关键帧进行提取,利用YOLO v4方法对视频关键帧中的人脸目标进行检测并做出框选,使用ArcFace算法对框选出的人脸图片进行特征提取,通过对待检测图片人脸特征与数据库内关键帧的人脸特征进行相似性度量,从而比对出是否存在待检测人脸。系统使用了mysql数据库和mybatis框架,综合使用Java和Python程序设计语言开发完成。本文所实现的视频检索系统以学生证件照和监控视频为输入,输出检索后得到的、包含待检索人脸的视频监控片段,对于目标人脸的检测查全率方面可达95.6%,检测速度方面对时长为1小时的监控视频可以在6分钟左右的时间完成检测,可以满足准确、实时的要求。这将为学校学生管理工作者提供及时、高效的信息化手段,学生管理工作者在需要查阅校园内视频监控时可借助该系统快速确定某学生在视频监控中出现的位置、时间等信息。
吴诗尧[6](2021)在《基于支持向量机的多模态视频场景分割算法》文中提出视频场景分割是基于内容的视频检索的重要环节,它将镜头作为研究对象,根据镜头内容的相关性把相似的镜头划分到同一个场景中,这样就可以将一段完整的视频划分成多个逻辑故事单元。目前的视频场景分割方法采用图像特征作为视频的底层特征,并没有全面考虑视频镜头所包含的信息,从而导致场景分割的准确率不高。该文在充分分析视频内容结构和深入研究视频场景分割方法的基础上,提出了一种基于支持向量机的多模态视频场景分割算法,通过在多种视频上的实验验证了该算法具有较高的检索效果,能够实现对不同视频序列的快速而准确地分割,提高在海量视频中寻找特定视频片段的准确度并降低查找的时间成本。该文主要研究内容如下:(1)视频数据预处理。该文针对目前采用图像特征来代表视频底层特征而导致镜头部分内容丢失的问题,通过多模态融合思想对视频底层特征进行提取,在已经提取图像特征的基础上,提取美尔频域倒谱系数来代表音频特征,采用基于统计的特征提取方法,选取词频和反文档频率描述视频的文本特征,并将提取的三类数据用SimFusion算法进行融合,作为视频底层的多模态特征。(2)语义概念检测。该文通过机器学习中支持向量机的分类思想来构建语义提取模型,选用高斯核函数来求解不同类型数据间的最优分类面,并利LIBSVM软件包构造出若干语义分类器,分类出镜头关键帧对应的语义概念,统计数据集中每一类语义概念所返回的相关镜头数,通过评价指标来量化语义分类效果。(3)视频场景分割。在基于语义概念的视频场景分割中,该文采用语义重叠镜头链算法划分出不同的场景,由实验结果及分析可知,由于充分考虑了多模态之间的内在特性,与文献[35]相比,该文不仅在语义概念检测中取得了较好的效果,而且在多种视频数据的场景分割上都取得了更高的查全率与查准率。多种视频数据的实验结果表明,该文算法的查全率、查准率达到了91.18%与92.81%,相较于文献[35]提高了2.36%与1.29%,综合指标达到了92.45%,相较于文献[35]提高了1.84%。
李欣颖[7](2021)在《移动短视频用户信息行为影响因素及动态演化研究》文中研究说明截至2020年3月,我国移动短视频用户规模接近8亿,占全体网民的86%,成为移动互联网的新风口,超越综合视频成为第三大移动应用。同时受到新冠疫情影响,2020年下半年用户规模进一步大幅提升,移动短视频观看时长日均3亿小时,成为领跑互联网的新发展热点。虽然随着移动短视频竞争格局走向良性,内容质量得到提升,版权意识也不断增强,但是移动短视频作为新兴事物和新兴业态,还是存在一系列的生态问题。如何挖掘移动短视频用户信息行为影响因素,基于用户信息行为特征、规律和网络结构,基于信息行为演化过程,从移动短视频用户的多元信息行为和多维场景出发,维护移动短视频生态系统的稳定和平衡,保障移动短视频产业的持续良性发展,是移动短视频用户信息行为管理的新挑战。本文以移动短视频用户信息行为作为研究对象,基于信息生态学、行为科学理论、系统动力学理论等交叉学科理论,展开了移动短视频用户信息行为相关问题的研究。首先基于行为科学和信息生态理论构建了移动短视频用户信息行为机理模型,并对机理关系进行了分析,该章是论文的核心理论框架。接着基于扎根理论展开移动短视频用户信息行为影响因素研究,基于复杂网络理论展开移动短视频用户信息行为特征和网络结构研究,进而基于系统动力学理论衍生模型,采用仿真研究方法展开移动短视频用户信息行为演化模型研究。最后,基于理论研究成果,从用户信息行为视角,提出移动短视频服务对策。全文理论研究按照“理论框架—核心解析—理论落脚点”的研究脉络层层深入展开,最后理论研究和实践研究紧密结合,形成系统完整的移动短视频用户信息行为研究成果。下面予以详细阐述:第三章移动短视频用户信息行为机理研究。基于行为科学理论,在国内外学者研究的基础上,提出了移动短视频用户信息行为过程模型;基于信息生态理论,剖析了移动短视频用户信息行为要素,分析了移动短视频用户信息行为驱动力及内在机制,最后构建了移动短视频用户信息行为机理模型,并对机理关系进行了分析,本章是论文的核心理论框架。第四章移动短视频用户信息行为影响因素研究。聚焦移动短视频用户信息行为影响因素研究的核心目标,采用扎根研究范式对移动短视频用户信息行为影响因素进行研究,在获取详实的质性资料的基础上遵循研究范式对移动短视频用户信息行为影响因素进行编码,从多维视角构建基于扎根理论的移动短视频用户信息行为影响因素模型,最后阐释了相关概念并对结果进行了分析,本章为第6章和第7章提供支撑。第五章移动短视频用户信息行为特征及网络结构研究。首先构建了移动短视频用户信息行为特征概念模型,接着配置安卓智能手机并ROOT后进行Java语言编程,获取总计217360条抖音短视频数据,采用归纳演绎和社会网络分析方法,使用数理统计工具、情感分析工具、分词工具、Gephi软件对移动短视频用户信息行为整体特征、信息检索推荐行为特征、信息发布行为特征、信息共享行为特征及信息行为网络特征展开了实证研究并进行了细致分析。本章为第6、7章提供理论支撑。第六章移动短视频用户信息行为演化模型研究。本章在国内外学者及有关研究的基础上,基于系统动力学理论和信息行为理论,提出了移动短视频用户信息行为演化建模依据和思想,构建了移动短视频用户信息行为演化模型V-SIbR,计算了模型平衡点及阈值,设置了11组33个参数方案,使用Matlab工具对模型进行仿真,对仿真结果进行了分析、对移动短视频用户信息行为的演化进行了综合讨论。本章为第7提供理论支撑。第七章基于用户信息行为的移动短视频服务对策研究。本章针对移动短视频用户服务现状和问题,从用户信息行为出发,基于第4章研究成果,提出移动短视频用户服务水平提高对策;基于第5章研究成果,针对移动短视频发展乱象提出治理对策;基于信息生态理论及第4、5、6章研究成果,提出优化移动短视频服务生态对策。本文紧随国内外学者研究趋势,展开了系统的理论研究和实践层面的探索,具有一定的理论意义和实践价值。理论层面,能够推动移动短视频用户信息行为理论体系发展、深化信息生态理论在移动短视频用户信息行为领域的应用、为加强移动短视频用户信息行为管理提供理论支撑。实践层面,指导相关部门和企业提高移动短视频用户服务水平、加强移动短视频治理、优化移动短视频服务生态。未来研究中,紧随交叉学科研究发展趋势,探讨医学与信息学交叉融合新的研究视角与发展契机,挖掘移动短视频技术应用优势,展开健康信息行为、健康信息管理、健康信息行为干预、用户健康信息行为等领域的研究。
蒲博建[8](2021)在《基于显着内容的视频结构化技术研究》文中认为随着计算机和多媒体技术的快速发展,以图像、视频为信息流的互联网、物联网产品不断涌现,自媒体时代已然来临。在直播网站、视频号、影视媒体等依托视频作为信息主要载体的平台上,时时刻刻的传输着海量的视频数据,并呈现着更新周期短、产生速度快、种类多等特点。与此同时视频数据存在着存储成本高、不易维护和检索困难的问题,尤其是监控类视频中包含大量冗余信息,无法快速定位关键信息。因此迫切需要研究一种能对视频中感兴趣内容自动提取并实现结构化描述的技术来解决上述问题。视频结构化是通过提取视频主要信息并自动分析,并将视频数据转换为文本信息等描述形式的技术。不同种类的视频需要结构化的信息各不一样,例如影视类视频更关注人物、场景信息,安防监控类视频更关注行人、车辆信息等。由于视频的内容复杂,冗余度高,导致能够对视频显着内容的提取并结构化描述的技术也成为视频处理的热门问题。其中视频的显着内容包括视频的固有属性信息、感兴趣目标信息、关键帧信息、关键帧内容描述信息等。本文基于关键帧提取、目标检测、图像描述等技术,在传统图像处理技术的基础上,结合深度学习技术,提出了基于视频显着内容的视频结构化技术,主要研究内容如下:(1)针对传统视频结构化方法结构化信息不够丰富、容易缺失感兴趣内容信息、缺乏高级语义描述等缺点,结合目标检测、关键帧提取、场景识别、动作检测、图像描述技术对视频显着内容信息进行提取形成结构化信息,提取的结构化信息全面丰富,同时相对于传统的结构化方法,可以设置不同感兴趣目标生成侧重点不同的内容描述,减少结构化信息的冗余,便于视频内容描述、检索、存储。(2)针对YOLOv4-tiny目标检测模型的检测精度较低的问题,基于InceptionRes Net模块、sc SE注意力机制模块与SPP模块对网络模型进行改进和优化,增强了网络对输入图像的特征提取能力,经实验验证,能有效提高YOLOv4-tiny算法的检测精度。(3)结合传统方法和深度学习方法,提出了基于感兴趣目标分布的关键帧筛选方法。通过对图像底层特征和深度特征的融合,采用自适应阈值来实现镜头初步分割,再通过目标检测结果划分子镜头和筛选出关键帧。该算法提取的关键帧不仅代表性更强,而且能较大程度保留感兴趣目标信息。
郎睿敏[9](2021)在《基于量化技术的视频快速检索算法研究》文中提出随着大数据时代,多媒体内容的惊人增加,如何快速查找特定内容已成为关键问题,对于视频的检索需求更为突出。为了满足这个快速视频检索的需求,必然需要将视频进行量化。视频量化是对原始视频进行压缩二进制代码,以便可以进行视频检索一种有效的方法。本论文首次尝试结合量化技术的视频检索方法,该方法以较低的存储成本获得较高的检索精度。本论文的主要贡献及创新点如下:一、提出了新颖的3D自注意模块,以关注序列化的特征图。由于特征图包含空间信息,而时间序列包含时间信息,我们的3D自注意力模块有能力沿宽度,高度和时间维度生成注意力图,以充分探索视频的上下文信息。在第一轮中,每个像素都会受到其周围像素的影响(即同一像素行或列,或沿时间上的相同位置方面)。通过执行进一步的周期性操作,每个像素最终可以从所有像素捕获全局上下文。二、设计了一种深度量化模块以便集成到网络中生成序列化的二进制代码,并且该工作是第一种基于量化的视频检索方法。该量化模块通过渐进式的方式量化特征,它构成了一个分层的码本结构。逐步生成的量化码本使得集成式的训练变得可能。该模块训练一次可以生成不同长度的具有不同的检索精度的编码。三、设计了一个融合视频特征提取模块和量化检索模块的无监督视频检索系统。相较于传统的哈希算法,本文提出的无监督视频检索系统在平均检索准确率和准确率-召回率曲线指标上均取得可明显更好的效果。
陈俞舟[10](2021)在《多模态视频片段检索技术研究》文中进行了进一步梳理随着互联网和移动通信技术的迅猛发展,人们能够随时随地地创建和分享文字、图像、视频等多媒体数据。作为一种多媒体数据处理技术,视频片段检索在研究和应用中都得到了极大的关注。视频片段检索的目标是针对给定的输入,在未处理视频中预测目标片段的开始和结束时间。根据给定输入的媒体模态不同,可分为如下两类:以视频或图像等视觉媒体作为查询输入的基于内容视频片段检索和以文本、音频等非视频媒体作为查询输入的视频片段检索。本文分别对两种不同方向的视频片段检索技术进行了研究,分析了现有工作中的不足,设计了新的算法以提升视频片段检索的精确度、检索速度等性能,以增加其实用性。本文的主要贡献有如下几个方面:1.在基于内容视频片段检索方面,针对深度哈希方案在长视频中检索速度明显下降的问题,本文设计了基于两级局部敏感哈希的视频片段检索方案。该方案提取第一级颜色粗粒度特征和第二级纹理细粒度特征,在此基础上进行局部敏感哈希映射,并采取特征区域选择、判定重复帧、取头尾片段等操作,在保证精度的情况下,显着地提高了处理速度。同时,该方案具备目标视频重复检测与完整性检测等功能,满足广告监播等实际应用领域的需求。2.在基于文本查询的跨模态视频片段检索方面,针对现有方案忽略实体动作相互关系与上下文语义,导致检索片段准确度较低的问题,本文设计了基于二维时域与关系图特征的跨模态视频片段检索方案2D-SGN。方案设计了以视频切片为单位的可变长度滑动窗口,通过滑动窗口划分不等长的候选视频片段;然后将候选视频片段的联合嵌入特征以二维时间向量的形式排列,计算其相似置信度评分并排序;最后通过关系图特征对评分最高的视频片段进行边界调优,得到准确的片段定位。经过测试,2D-SGN方案的平均检索准确性优于现有方案,特别是在查询文本包含动作顺序和物体位置信息的视频片段检索中效果显着。3.在上述研究的基础上,设计并实现了基于Flask Web框架的视频剪辑系统。系统分别调用上述两种视频片段检索方案,完成根据简单句剪辑出对应场景片段和根据输入视频片段剪切长视频两种不同的功能。系统具备可根据输入的剪裁描述自动定位并完成剪裁功能的优点,可应用于视频快速剪辑等需求场景。
二、基于内容的视频检索关键技术(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、基于内容的视频检索关键技术(论文提纲范文)
(2)基于多特征融合的视频检索技术研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景与意义 |
1.2 国内外研究现状 |
1.2.1 视频关键帧提取技术现状 |
1.2.2 多特征融合技术现状 |
1.3 主要研究内容 |
1.4 论文结构安排 |
第二章 视频检索相关技术 |
2.1 视频数据 |
2.1.1 视频数据特点 |
2.1.2 视频数据的结构化 |
2.2 视频检索的结构框架和关键技术 |
2.2.1 视频检索的结构框架 |
2.2.2 视频检索的关键技术 |
2.3 视频检索相关技术介绍 |
2.3.1 关键帧提取 |
2.3.2 目标检测 |
2.3.3 特征提取 |
2.3.4 多特征融合与匹配 |
2.4 本章总结 |
第三章 基于人脸识别和K-Means的视频检索 |
3.1 关键帧提取常用方法 |
3.1.1 基于镜头边界的方法 |
3.1.2 基于内容分析的方法 |
3.1.3 基于运动分析的方法 |
3.1.4 基于K均值聚类的方法 |
3.2 基于改进K-Means聚类的关键帧提取技术 |
3.2.1 K-Means聚类算法介绍 |
3.2.2 基于改进的K-Means的关键帧提取算法 |
3.3 实验结果和分析 |
3.4 本章小结 |
第四章 基于多特征融合的视频检索 |
4.1 目标检测和特征提取 |
4.1.1 人脸检测和特征提取 |
4.1.2 人头检测和特征提取 |
4.1.3 身体姿态检测和特征提取 |
4.2 基于多特征融合的视频检索 |
4.2.1 常用融合方法 |
4.2.2 加权融合 |
4.3 实验结果及分析 |
4.4 本章小结 |
第五章 视频检索系统 |
5.1 系统设计 |
5.2 系统实现展示 |
5.2.1 系统界面 |
5.2.2 搜索实例 |
5.3 本章小结 |
第六章 总结与展望 |
6.1 论文总结 |
6.2 研究展望 |
参考文献 |
在学期间的研究成果 |
致谢 |
(4)基于多模态特征的视频检索技术研究与应用(论文提纲范文)
摘要 |
abstract |
第1章 绪论 |
1.1 课题来源 |
1.2 研究背景及意义 |
1.3 国内外研究现状 |
1.4 主要研究内容与论文组织结构 |
第2章 相关工作介绍 |
2.1 数字视频特征 |
2.2 教学视频特征 |
2.3 视频结构化处理技术 |
2.3.1 镜头边界检测技术 |
2.3.2 关键帧提取技术 |
2.4 系统开发相关技术 |
2.4.1 Spring Boot介绍 |
2.4.2 Shiro介绍 |
2.4.3 MyBatis介绍 |
2.4.4 Thymeleaf介绍 |
2.4.5 Bootstrap介绍 |
2.5 本章小结 |
第3章 基于时空切片与相似度度量的镜头边界检测算法 |
3.1 引言 |
3.2 基于STSSM的镜头边界检测算法 |
3.2.1 基于时空切片的镜头边界检测策略 |
3.2.2 基于相似度度量的镜头边界检测策略 |
3.2.3 基于STSSM的镜头边界检测算法描述 |
3.3 实验与分析 |
3.3.1 实验数据 |
3.3.2 评价指标 |
3.3.3 实验结果与分析 |
3.4 本章小结 |
第4章 基于Tesseract与 TF-IDF的视频信息提取方法 |
4.1 引言 |
4.2 基于Tesseract与 TF-IDF的视频信息提取方法 |
4.2.1 基于Tesseract的文本识别方法 |
4.2.2 基于TF-IDF的关键词提取算法 |
4.2.3 基于Tesseract与 TF-IDF的视频信息提取方法描述 |
4.3 实验与分析 |
4.3.1 实验数据 |
4.3.2 实验结果与分析 |
4.4 本章小结 |
第5章 基于多模态特征的视频检索系统设计与实现 |
5.1 引言 |
5.2 系统需求分析 |
5.2.1 需求概述 |
5.2.2 系统角色分析 |
5.2.3 功能性需求分析 |
5.2.4 非功能性需求分析 |
5.3 系统开发环境 |
5.4 系统设计 |
5.4.1 系统架构设计 |
5.4.2 系统模块设计 |
5.4.3 系统数据库设计 |
5.5 系统主要功能实现 |
5.5.1 用户模块 |
5.5.2 视频检索模块 |
5.5.3 用户管理模块 |
5.5.4 视频管理模块 |
5.5.5 关键帧管理模块 |
5.5.6 视频分析模块 |
5.6 系统测试 |
5.6.1 测试环境 |
5.6.2 测试方案 |
5.6.3 主要测试用例 |
5.6.4 测试结果分析 |
5.7 本章小结 |
第6章 总结与展望 |
6.1 工作总结 |
6.2 未来展望 |
致谢 |
参考文献 |
攻读学位期间的研究成果 |
(5)基于人脸图像的视频检索系统(论文提纲范文)
摘要 |
Abstract |
1 绪论 |
1.1 研究背景与意义 |
1.2 国内外研究现状 |
1.2.1 视频关键帧提取的研究现状 |
1.2.2 人脸检测识别的研究现状 |
1.2.3 视频检索系统的发展与研究现状 |
1.3 主要研究内容 |
1.4 文章结构 |
2 视频关键帧提取 |
2.1 基于帧间差分的关键帧提取算法 |
2.1.1 帧间差分的计算方法 |
2.1.2 关键帧提取流程及实验结果 |
2.2 基于k-means聚类的视频关键帧提取 |
2.2.1 图片预处理与相似度计算 |
2.2.2 基于K-means算法的关键帧提取过程及结果分析 |
3 基于YOLO v4和ArcFace方法的人脸检测与识别 |
3.1 基于YOLO v4的人脸检测 |
3.1.1 YOLO v4算法网络结构 |
3.1.2 候选区域产生 |
3.1.3 检测效果评估 |
3.1.4 非极大值抑制 |
3.1.5 训练过程与实验结果 |
3.2 基于ArcFace算法的人脸特征提取 |
3.2.1 特征间距离约束 |
3.2.2 损失函数 |
3.2.3 网络结构 |
3.2.4 实验效果 |
4 基于人脸图像的视频检索系统设计与实现 |
4.1 系统需求分析 |
4.1.1 功能需求分析 |
4.1.2 用例模型分析 |
4.1.3 非功能性需求 |
4.1.4 可行性分析 |
4.2 系统设计 |
4.2.1 整体设计 |
4.2.2 流程设计 |
4.2.3 数据库设计 |
4.2.4 系统E-R图 |
4.3 系统开发与实现 |
4.3.1 开发工具和环境 |
4.3.2 基本模块实现 |
4.3.3 相关功能实现 |
4.4 系统测试 |
4.4.1 单元测试 |
4.4.2 模块功能测试 |
4.4.3 系统性能测试 |
结论 |
参考文献 |
致谢 |
(6)基于支持向量机的多模态视频场景分割算法(论文提纲范文)
摘要 |
ABSTRACT |
1 绪论 |
1.1 研究背景 |
1.2 研究目的及意义 |
1.3 研究现状 |
1.3.1 国内研究现状 |
1.3.2 国外研究现状 |
1.4 论文研究内容 |
1.5 论文结构安排 |
2 相关理论基础 |
2.1 视频结构化 |
2.2 镜头边界检测 |
2.3 关键帧提取 |
2.4 场景分割 |
2.5 本章小结 |
3 基于支持向量机的视频场景分割 |
3.1 图像特征 |
3.1.1 颜色特征 |
3.1.2 纹理特征 |
3.1.3 边缘特征 |
3.2 支持向量机的算法原理 |
3.2.1 超平面的获取 |
3.2.2 线性支持向量机 |
3.2.3 非线性支持向量机 |
3.3 实验环境及数据集介绍 |
3.4 实验结果及分析 |
3.4.1 语义概念检测 |
3.4.2 视频场景分割 |
3.5 本章小结 |
4 基于语义概念的多模态视频场景分割算法 |
4.1 多模态特征提取 |
4.1.1 音频特征 |
4.1.2 文本特征 |
4.2 镜头相似度度量及降维处理 |
4.2.1 镜头相似度度量 |
4.2.2 降维处理 |
4.3 算法描述 |
4.4 实验结果及分析 |
4.4.1 语义概念检测 |
4.4.2 视频场景分割 |
4.5 本章小结 |
5 总结与展望 |
5.1 全文总结 |
5.2 未来展望 |
参考文献 |
致谢 |
攻读学位期间的研究成果 |
(7)移动短视频用户信息行为影响因素及动态演化研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 研究背景与选题意义 |
1.1.1 研究背景 |
1.1.2 选题意义 |
1.2 国内外研究现状 |
1.2.1 国外信息行为研究现状 |
1.2.2 国内信息行为研究现状 |
1.2.3 短视频信息行为研究现状 |
1.2.4 研究现状评述 |
1.3 研究内容与研究方法 |
1.3.1 研究内容 |
1.3.2 研究方法及方案 |
1.4 研究技术路线 |
1.5 研究创新点 |
第2章 相关概念及理论基础 |
2.1 移动短视频相关理论 |
2.1.1 移动短视频概念 |
2.1.2 移动短视频内涵 |
2.1.3 移动短视频特征 |
2.2 信息行为相关理论 |
2.2.1 信息行为定义 |
2.2.2 网络信息行为概念 |
2.2.3 移动短视频用户信息行为 |
2.3 信息生态相关理论 |
2.3.1 信息生态概念 |
2.3.2 信息生态系统 |
2.3.3 信息生态因子 |
2.3.4 信息生态链 |
2.4 复杂网络相关理论 |
2.4.1 复杂网络的概念 |
2.4.2 复杂网络特征模型 |
2.4.3 复杂社会网络结构指标 |
2.5 系统动力学相关理论 |
2.5.1 系统动力学定义 |
2.5.2 系统动力学模型 |
2.5.3 系统动力学应用 |
2.6 本章小结 |
第3章 移动短视频用户信息行为机理 |
3.1 移动短视频用户信息行为过程 |
3.2 移动短视频用户信息行为要素 |
3.2.1 行为要素构成 |
3.2.2 生态要素构成 |
3.2.3 心理要素构成 |
3.3 移动短视频用户信息行为驱动力 |
3.3.1 信息价值驱动 |
3.3.2 知识创新驱动 |
3.3.3 娱乐文化驱动 |
3.3.4 社会认同驱动 |
3.3.5 经济效益驱动 |
3.4 移动短视频用户信息行为机理模型 |
3.4.1 触发扩散机理 |
3.4.2 感知推动机理 |
3.4.3 交互激励机理 |
3.4.4 行为认知机理 |
3.4.5 机理关系模型 |
3.5 本章小结 |
第4章 移动短视频用户信息行为影响因素 |
4.1 问题的提出 |
4.2 研究方法和步骤 |
4.2.1 研究方法 |
4.2.2 研究对象 |
4.2.3 研究步骤 |
4.3 移动短视频用户信息行为影响因素模型 |
4.3.1 开放式编码和主轴编码 |
4.3.2 选择性编码 |
4.3.3 移动短视频用户信息行为影响因素理论模型 |
4.4 概念阐释及讨论分析 |
4.5 本章小结 |
第5章 移动短视频用户信息行为特征及网络结构 |
5.1 问题的提出 |
5.2 移动短视频用户信息行为特征概念模型 |
5.3 实证研究 |
5.3.1 研究方法和步骤 |
5.3.2 数据采集处理 |
5.3.3 数据结果 |
5.4 讨论分析 |
5.4.1 用户信息检索推荐行为特征 |
5.4.2 用户信息发布行为特征 |
5.4.3 用户信息共享行为特征 |
5.4.4 用户信息行为网络结构 |
5.5 本章小结 |
第6章 移动短视频用户信息行为演化模型 |
6.1 问题的提出 |
6.2 建模依据及思想 |
6.3 模型构建 |
6.3.1 模型假设 |
6.3.2 演化模型构建 |
6.3.3 主体状态转化规则 |
6.3.4 模型参数配置及约束 |
6.4 仿真实验结果与分析 |
6.4.1 平衡点和阈值 |
6.4.2 仿真参数设置 |
6.4.3 仿真结果分析 |
6.4.4 讨论分析 |
6.5 本章小结 |
第7章 基于用户信息行为的移动短视频服务对策 |
7.1 提高用户服务水平 |
7.1.1 提升用户信息服务质量 |
7.1.2 提高用户使用满意度 |
7.1.3 挖掘用户个性化需求 |
7.2 治理短视频发展乱象 |
7.2.1 完善制度设计 |
7.2.2 优化政府监管 |
7.2.3 加强主体自律 |
7.3 优化短视频服务生态 |
7.3.1 信息价值捕捉 |
7.3.2 用户行为优化 |
7.3.3 信息环境改善 |
7.4 本章小结 |
第8章 研究结论与展望 |
8.1 研究结论 |
8.2 研究局限及展望 |
参考文献 |
作者简介及在学期间所取得的科研成果 |
致谢 |
(8)基于显着内容的视频结构化技术研究(论文提纲范文)
摘要 |
ABSTRACT |
缩略词表 |
第一章 绪论 |
1.1 研究工作的背景与意义 |
1.2 视频结构化的国内外研究历史与现状 |
1.3 本文的主要贡献与创新 |
1.4 本论文的结构安排 |
第二章 视频结构化技术基础 |
2.1 视频结构化技术概述 |
2.1.1 视频数据的基本结构和特点 |
2.1.2 视频语义分类 |
2.1.3 视频结构化技术 |
2.2 视频结构化基本理论 |
2.2.1 颜色特征 |
2.2.2 形状特征 |
2.2.3 运动特征 |
2.2.4 卷积神经网络基础理论 |
2.2.5 帧间距离的度量方式 |
2.3 本章小结 |
第三章 YOLOV4-TINY目标检测网络优化 |
3.1 目标检测技术简介 |
3.1.1 目标检测算法概述 |
3.1.2 目标检测性能评价指标 |
3.2 YOLOv4-tiny网络结构优化 |
3.2.1 Inception结构 |
3.2.2 CSPOSANet模块优化 |
3.2.3 YOLOv4-tiny网络优化 |
3.3 基于即插即用模块的网络优化 |
3.3.1 注意力机制模块 |
3.3.2 SPP模块 |
3.3.3 基于sc SE、SPP的 YOLOv4-tiny网络优化 |
3.4 算法实验结果与分析 |
3.5 本章小结 |
第四章 基于感兴趣目标分布的关键帧提取方法 |
4.1 关键帧提取简介及算法框架 |
4.1.1 基于镜头分析法 |
4.1.2 基于帧间特征差异分析法 |
4.1.3 基于运动特征分析法 |
4.1.4 基于聚类分析法 |
4.1.5 关键帧提取算法框架 |
4.2 视频帧特征提取与处理 |
4.2.1 视频帧的多种特征提取 |
4.2.2 特征融合处理与帧间距离计算 |
4.3 关键帧筛选 |
4.3.1 视频的镜头分割 |
4.3.2 子镜头划分和关键帧筛选 |
4.4 算法的实验结果与分析 |
4.4.1 关键帧提取算法性能评价指标 |
4.4.2 实验结果分析 |
4.5 本章小结 |
第五章 基于显着内容的视频结构化 |
5.1 视频结构化框架 |
5.2 视频结构化的实现 |
5.2.1 视频结构化信息提取 |
5.2.2 视频结构化结果展示 |
5.3 本章小结 |
第六章 全文总结与展望 |
6.1 全文总结 |
6.2 后续工作展望 |
致谢 |
参考文献 |
攻读硕士学位期间取得的成果 |
(9)基于量化技术的视频快速检索算法研究(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究工作的背景与意义 |
1.2 量化检索和视频检索的国内外研究历史与现状 |
1.2.1 量化检索的国内外研究概述 |
1.2.2 视频检索的国内外研究概述 |
1.3 本文的主要工作与创新 |
1.4 本论文的结构安排 |
第二章 相关基础知识 |
2.1 深度学习基础知识 |
2.1.1 卷积神经网络 |
2.1.2 循环神经网络 |
2.2 量化检索算法概述 |
2.2.1 向量量化检索算法 |
2.2.2 乘积量化检索算法 |
2.2.3 优化的乘积量化检索算法 |
2.2.4 加法量化检索算法 |
2.2.5 深度量化检索算法 |
2.3 注意力机制理论概述 |
2.3.1 注意力机制理论基础 |
2.3.2 自注意力机制算法 |
2.4 本章小结 |
第三章 基于自注意力机制的视频量化检索算法设计 |
3.1 基于自注意力机制的视频特征提取算法设计 |
3.1.1 特征提取基础网络介绍 |
3.1.2 传统视频特征介绍 |
3.1.3 基于三维自注意力机制的视频特征提取网络 |
3.1.4 视频特征提取模块目标函数设计 |
3.2 基于梯度的渐进式量化检索算法设计 |
3.2.1 基于梯度的渐进式量化检索网络 |
3.2.2 网络的训练 |
3.3 基于自注意力的视频量化检索系统设计 |
3.4 本章小结 |
第四章 相关实验与结果分析 |
4.1 实验环境 |
4.2 实验数据集介绍 |
4.2.1 实验设置细节 |
4.3 实验评价标准及对比的相关方法 |
4.3.1 评价标准及定义 |
4.3.2 实验对比的相关方法 |
4.4 实验结果分析 |
4.4.1 与最新方法的结果对比与分析 |
4.4.2 实际检索的时间消耗分析 |
4.4.3 消融性实验结果与分析 |
4.4.4 可视化结果展示 |
4.5 本章小结 |
第五章 全文总结与展望 |
5.1 全文总结 |
5.2 后续工作展望 |
致谢 |
攻读专业硕士学位期间取得的成果 |
参考文献 |
(10)多模态视频片段检索技术研究(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究工作的背景与意义 |
1.2 国内外研究历史与现状 |
1.2.1 基于内容的视频片段检索 |
1.2.2 基于文本的跨模态视频片段检索 |
1.3 本文的主要贡献与创新 |
1.4 本文的结构安排 |
第二章 视频片段检索技术 |
2.1 视频片段检索框架 |
2.1.1 基于内容视频片段检索 |
2.1.2 跨模态视频片段检索 |
2.2 视频片段检索关键技术 |
2.2.1 镜头边界检测 |
2.2.2 视频特征提取 |
2.2.2.1 图像特征提取 |
2.2.2.2 时序动作特征提取 |
2.2.3 文本特征提取 |
2.2.4 跨模态特征联合嵌入 |
2.3 本章小结 |
第三章 基于两级局部敏感哈希的视频片段检索 |
3.1 现有方案的问题分析 |
3.2 两级局部敏感哈希 |
3.2.1 局部敏感哈希的基本思想 |
3.2.2 两级哈希特征提取 |
3.2.3 两级哈希特征入库 |
3.2.4 两级哈希特征检索 |
3.3 改进后的视频片段检索方案 |
3.3.1 被检索视频特征库构建 |
3.3.2 目标视频头检测 |
3.3.3 目标视频尾检测 |
3.3.4 目标视频对比检索 |
3.4 方案性能测试 |
3.4.1 测试数据集 |
3.4.2 检测准确率测试 |
3.4.3 检测速度测试 |
3.4.4 功能测试 |
3.4.5 测试结论 |
3.5 本章小结 |
第四章 基于二维时域与关系图特征的跨模态视频片段检索 |
4.1 现有方案的问题分析 |
4.2 对跨模态视频片段检索方案的改进 |
4.3 2D-SGN方案 |
4.3.1 文本特征提取 |
4.3.1.1 文本预处理 |
4.3.1.2 文本关系图特征提取 |
4.3.1.3 文本句整体特征提取 |
4.3.2 视频片段特征提取 |
4.3.2.1 视频预分段 |
4.3.2.2 视频帧关系图特征提取 |
4.3.2.3 视频片段特征提取 |
4.3.3 跨模态嵌入学习 |
4.3.3.1 整体特征的跨模态嵌入学习 |
4.3.3.2 关系图特征的跨模态嵌入学习 |
4.3.4 边界调优 |
4.4 实验分析 |
4.4.1 实验数据集 |
4.4.2 实验设计 |
4.4.2.1 实验环境与设置 |
4.4.2.2 实验参照方案 |
4.4.2.3 评估方法 |
4.4.3 实验结果及分析 |
4.4.3.1 Charades-STA数据集实验结果 |
4.4.3.2 Di De Mo数据集实验结果 |
4.4.3.3 实验结论 |
4.4.4 消融实验 |
4.5 本章小结 |
第五章 基于Flask Web框架的视频剪辑系统设计与实现 |
5.1 需求分析 |
5.2 系统整体设计 |
5.2.1 系统架构 |
5.2.2 网页功能设计 |
5.2.3 后端功能设计 |
5.3 数据库与接口设计 |
5.3.1 存储表结构设计 |
5.3.2 服务接口设计 |
5.4 系统详细设计 |
5.4.1 数据传输设计 |
5.4.2 视频片段检索服务 |
5.4.2.1 基于内容的视频片段检索服务 |
5.4.2.2 基于文本的视频片段检索服务 |
5.4.3 剪辑功能模块设计 |
5.5 系统测试 |
5.5.1 页面功能模块测试 |
5.5.2 视频片段检索与剪辑功能测试 |
5.5.2.1 视频模态剪辑功能测试 |
5.5.2.2 文本模态剪辑功能测试 |
5.5.3 响应时间测试 |
5.6 系统界面展示 |
5.7 本章小结 |
第六章 工作总结与展望 |
6.1 本文工作总结 |
6.2 未来展望 |
致谢 |
参考文献 |
攻读硕士学位期间取得的成果 |
四、基于内容的视频检索关键技术(论文参考文献)
- [1]基于语义的视频检索技术综述[J]. 黄立,朱定局. 计算机系统应用, 2021(08)
- [2]基于多特征融合的视频检索技术研究[D]. 支卫建. 北方工业大学, 2021(01)
- [3]基于内容的视频检索关键技术研究及实现[D]. 张晨. 南京邮电大学, 2021
- [4]基于多模态特征的视频检索技术研究与应用[D]. 袁凌利. 南昌大学, 2021
- [5]基于人脸图像的视频检索系统[D]. 孙垂进. 大连理工大学, 2021(01)
- [6]基于支持向量机的多模态视频场景分割算法[D]. 吴诗尧. 武汉轻工大学, 2021(02)
- [7]移动短视频用户信息行为影响因素及动态演化研究[D]. 李欣颖. 吉林大学, 2021(01)
- [8]基于显着内容的视频结构化技术研究[D]. 蒲博建. 电子科技大学, 2021(01)
- [9]基于量化技术的视频快速检索算法研究[D]. 郎睿敏. 电子科技大学, 2021(01)
- [10]多模态视频片段检索技术研究[D]. 陈俞舟. 电子科技大学, 2021(01)