Seerboldor报告之AI应用技术简析

研究领域—LLM

在大语言模型的层面我们重点关注的是OpenAI。因为包括在语义理解等通用模型层面，GPT依旧是目前市场上最出色和强大的模型。我们先来看看新的模型，最近openAI更新了他的一系列模型。首先，＂GPT-4模型进行了更新，解决了先前版本中存在的一些响应缓慢的问题。与此同时，新GPT4 turbo的token长度已经稳定在了128K，这也就意味着在绝大多数应用场景，是可以基本上一次性把输入灌入到模型当中的。它的意义在于对于应用端在工程上实现了极大的简化。这就像航空领域的续航能力大幅提升，允许我们直接飞达目的地，而不需要多次转机。这在技术应用中意味着我们可以一次性处理大量数据，无需分批处理。同时在上一次更新当中，包括输出形态的Json可选和控制输出结果的稳定性的seed的能力增加，这些对实际在AI工程化的时候的相对的可控性，给出了极大的改进和优化。目前所有类型的AI都存在着结果可控和结果稳定的挑战。对于这些能力更新，我们都已经在工程实践和开发中有了很多的试验和尝试；确实感觉到，包括稳定输出和结果可控性，确实有了更多的工具和结果的改善。尽管GPT-4带来了显著的技术进步，但其较高的成本可能是一些企业考虑时的障碍。幸运的是，随着技术的成熟和优化，我们预期成本会逐渐降低，使其更加可达性强。如果涉及到大量用户使用或是AIGC的场景的话，成本还是比较高的，但是如果仅仅是用在生产力改善端，那这个成本现在还是非常可以接受的。

在上一次更新中GPT Vision API完全放出，具体来说，它就是GPT的识图能力。这个能力目前即便对于OpenAI来说也是属于测试性放出，对于绝大多数的开发者来讲，都受到它的调用限制。但经过我们的充分测试，我们相信在不久的将来，基于它的实际的应用大放异彩。因为本质上它是增加了模型的一个新模态的感知能力，也就是我们不仅可以用文字和模型交流，还可以使用图像乃至视频与之互动。尽管它目前时而出现幻视的现象，相信随着gpt4的成本的下将以及gpt4 fine-tuning的放开，未来视觉输入将作为AI主要的输入模式，因为这样是更接近人的互动模式。

新的向量化技术更新提高了处理语言的准确性，并降低了成本。向量化是一种将文字转换为数学表示的方法，使计算机能够更有效地理解和处理语言。向量化后的维度，从之前的1.5K的维度提升到我现在的3的维度。在数据量非常大的时候，更加高效稳定的向量库将会是未来的一个刚性需求以及在工程化时候面对的必然挑战，在过去几个月我们在处理数百万条数据时就已体现出来。

更加性价比的GPT3.5模型，该模型的进一步降价，以及对于长文本和微调的支持，导致这个模型在工程实现和在现实的应用当中可以被大量采用。相信更多的多用户以及前端的界面的应用，将会采用以3.5为基数的模型作为用户界面支持，因为其成本已经几乎完全可以接受。但是在大语言模型当中，我们并没有看到像在图像模型生成当中那样更加丰富多彩的Lora的出现，那我们相信在不久的将来，微调后的模型将会是另一番的市场和行业机会。

在chatGPT中，随着GPTs store的放开，数以万计的GPTs出现在市场之中，那么其中哪些将会成为现象级产品，哪些能够真正的长期被用户所接受？我们认为需要交给时间来去进行过滤和沉淀。当前市场对于GPTs的认识多样且处于快速发展中。随着时间的推移，哪些模型能够突出重围并长期获得用户接受，将是我们持续观察和研究的重点。我们自身认为现在它这并不一定是某种商业机会，但是他本身确实是一种产品形态。

研究领域—AIGC

在AIGC领域，我们结合现在市面上出现的大量的应用、模型和API，在生成语音，生成图像，生成视频等相关产品和模型，都做了一些测试、调研和分析，就这里我们做一些总结。在语音生成层面，现有的模型语音生成效果已经非常不错，并且对于声音克隆的效果已经完全是可以接受的范围，并且对于自然语言的表达以及适当的情绪都是能左右的，非常到位的。完全可以充分融入生产端。另外AI生成音乐的能力和结果，也表现出来一定的可用性了。

在AI生成图片的能力上，现在产品上主要集中在Dall-E、SD和MJ这三种模型类别。其中DE的语言可控性最高，MJ的艺术表现力最好。但是就我们的综合测试来看，在工程层面，基于我们的测试和分析，SD（稳定扩散）模型在图像生成方面显示出巨大潜力。它不仅支持开源生态系统的多样性，还提供了结果的可控性和成本效益，预示着其在未来应用中的广泛使用。这个里面有几个原因作为支撑。一个是它作为开源模型的生态的多样性，另外一个是他表现出来对于结果的可控性上，对于其他模型来讲是比较明显的。那第三就是它的性价比体现。

目前的所有的视频生成的模型，基本上是基于SD的图像生成的变形而产生的，单条内容的时间长短基本在3-4秒，所以对应的视频生成的成本都会比较高。尽管openAI也即将发布它的视频生成模型，但是我们相信在其保持结果的连续性上依旧可能是一个比较大的挑战。另外，包括目前的数字人的解决方案中，实现成本是其是否能大量使用的另外的一个制约。

现阶段我们在工程端，基本上整合了目前市面上主流可以开发调用AIGC的API，把之整合到一个我们工程生态当中，所以我们的产品基本上支持目前市面上所有最一线的AIGC的能力，作为最底层的能力支撑，赋能给我们最终的成品形态。并且我们将紧盯目前市场主流的产品和模型，不断的丰富到我们的产品赋能中来。