专家传真-运用「文本大数据分析」 提升研究效益

资讯爆炸的时代,如何从庞杂且倍速成长的资料中,撷取出具有意义和应用价值的内容尤为重要,大数据结合AI人工智慧的数位应用,是有效提升工作效率及产值的关键。尤其是产业分析师,需要从各产业收集的意见、研究报告、新闻资料、期刊等大量的文本资料,透过对于资料的理解、分类、归纳、解析,提出对特定议题的洞察。但在资料量遽增时代,想要消化庞大的文本资料,得花费更多时间与精力,这也是分析师当前的职业痛点。

工研院提出「文本大数据分析」方法,首先从研究需求出发,收集并梳理文本资料;接着,透过文本相似度的计算,以及网络集群分析并形成文字云,进而呈现出趋势要点与重大议题。从文本用词的相似性及分群,使原先庞杂的文本资料能够浮现出文本资料中的重点。分析师可再深入解读,找出关键的脉络洞见,并提出相关建言。

以工研院于2019年所举办的八场公民论坛为例,累计公民参与人数共262位,分为学生组、青年组、轻熟组及乐龄组等四个世代。论坛连结台湾重要趋势与各世代需求,形成五个台湾未来情境故事,包括:「追求生活品质的高龄社会」、「适性教育与弹性职能的终身学习环境」、「数位经济智动化时代」、「气候及环境变迁下的生活变化」和「政治透明与参与的多元社会」。透过有趣的图文和动画,激发公民想像并热烈讨论台湾2030年可能的情境与需求,并获得他们表达的意见与看法。

观念平台-从文晔本次股东会议案 谈符合公司治理的筹资决策

大联大公司与文晔公司之间的公开收购事件,之前原本已经因为收购期间届满,完成公开收购,而告一段落。不过,因为文晔公司董事会在公开收购期间,即预为公布提前至3月27日召开该公司今年度的股东常会,从而,本于股票停止过户闭锁期间的缘故,透过公开收购取得股权的大联大公司现实上并无从参与前开的股东常会。而未久前始对外公告增列的私募普通股、私募乙种/丙种特别股以及询价圈购等增资议案,再次延伸了双方股权成数的较劲。 公开发行公司借由增资充实资本结构,所见通常。不过,文晔公司此次股东常会的增资议案,容有若干有待探究之处:第一,增资幅度甚高,几达原有股本的1/3

按照一般的质性分析方法,分析师在取得公民论坛讨论的文字纪录后,会逐一地审阅各条意见,并透过本身的观察和经验,归纳出各世代公民的主要讨论议题。例如:青年组主要讨论的议题,是「以科技协助工作,融入人性,让科技更符合我们的需要」、「期待政府在高龄化社会提供更有力的作为」、「终身学习更多元,自主学习制度更健全」、「政府资讯更透明,政策需持续被追踪」等。然而以人力阅读数百条到上千条的公民意见,对分析师而言,非常耗时和精力。

有别于传统的质性分析结果,透过工研院「文本大数据分析」,可提供量化比对、客观且快速的分析结果,进而呈现八场公民论坛对台湾2030年所关注之重大议题,其中前三大议题依序为「未来教育需求」、「老人照顾需求」及「未来工作情境」。此外,「文本大数据分析」亦可呈现不同世代对关注议题的讨论热度差异,凸显出某世代特别关注之议题,例如:青年特别关注「产经发展」、学生特别关注「数位科技对未来的影响」。这些分析结果可以帮助分析师减少阅读和分类的苦工,将时间和精力多投入在公民需求解读与归纳等较有价值的工作。

分析师透过「文本大数据分析」的方法,可更客观且快速地呈现重大议题,提升研究员的工作效益。此外,「文本大数据分析」的基础来自有品质的资料,还须因应不同研究主题或领域适时调整,例如:选取合适的词汇、设定不同文本相似度条件等,才能确实解读资料、有效分群。

在大数据和AI人工智慧等相关数位科技的结合下,预期未来「文本大数据分析」可进一步整合语意与关联分析、主题分析与追踪、语意搜寻、阅读理解…等功能,使文本资料的分析更加深入且精准,从庞杂资料中显现真正应用价值所在。