训练ai是件大事,陆恒已经有成熟的技术,是系统根据现在的时间给出的最优技术方案。
但恒创掌握的数据其实并没有度娘腾达这些成立很久的互联网公司多。
头条软件也才运营半年罢了,目前用户还没破千万,而且也只是新闻类软件,最好的训练数据其实是包含用户信息的数据。
比如评论、贴吧讨论、前世的自媒体时代产生的大量文章。
但现在这些都没有。
不过也有办法解决,陆恒的解决方案也比较简单,那就是使用书籍训练。
从人类诞生到现在数千年产生的所有文字数据来训练ai。
新技术的最大优点就是一种类人逻辑算法,最基础的架构仿生人类思维,随后投入任何数据都在增加知识宽度。
并不是前世那种靠着无数文字垒砌,计算前后文字字符出现概率等等。
因为参观团就要到公司了,在这之前最好将ai助手也安装在手机内,这样才能带来更大震撼,让合作伙伴更有信心。
陆恒这几天也参与到训练ai当中。
公司总部还没有完善,软件工程师们目前还在老大厦工作,这并不会影响训练ai的速度,ai就在服务器里面,不停投入数据就行了。
陆恒叫来杨程,公开版权的电子图书数据已经用的差不多了,现在到了网络小说产生的数据。
接下来还有论文数据库的数据。
“买断的小说现在有多少,爱阅小说书库一共多少本书?”陆恒问道。
杨程有些疑惑陆恒怎么关心起小说,他想了想回道:“字数达到百万的差不多四五万本吧,每天有近万作者日更新4000字以上。”
爱阅小说前期发展比较困难,多数都是走的买断路线。
再加上当初投资囧系列电影赚了不少钱,都花在了小说上。
这倒是方便陆恒使用这些数据训练ai了。
数据量还不够多,陆恒说道:“和陈总谈一谈吧,把启点收购了,我们需要他们小说书库用来训练小说。”
记得前世再过两年,启点的团队也会和陈天荞的管理团队发生冲突,最后带着一批人出走成立了新的网站,现在应该也有不少矛盾了。
去年陈天荞修改作者合同,想要掌控小说的更多版权话语权,也让不少作者出走。
现在应该还是有希望收购小说网站。
陈天荞和他有些矛盾,不过在利益面前这都不是事儿。
当初陈总还在媒体面前说,陆恒身价多少,和他比?
现在不过一年过去,再看当年他说的话,已经成为陈总的污点之一了。
陆恒几家公司加起来估值不说万亿级别,几千亿那是妥妥的,绝对的华国首富级别,反倒是陈天荞在商场上声音是越来越小,也没折腾出什么东西。
杨程倒是更加了解竞争对手,他皱眉道:“恐怕比较困难,现在陈总的盛达主要战略就是文娱、游戏了,小说网站是核心业务。”
“先去问问,实在不行那我们就用盗版数据训练了!”陆恒说道。
现在还真是盗版泛滥,陆恒就算没有收购成功,也能使用这些数据,并且对于作者来说到底有没有侵犯他们的权益,也没有法律法规作为先例。
毕竟训练ai,到底使用了那些内容,很不好界定取证,而文字又属于公开的内容。
就像是一个人看了盗版小说,产生了更多想法,那不能说这个人看了盗版小说就犯罪了吧。
ai也是差不多的,就和人看了小说产生更多想法类似,将来ai在使用文字时,也不会照搬吸取到数据库的原生数据。
陆恒想要收购小说网站,也是为了以后持续获得更多具有逻辑性的文字,而提前准备。
后面杨程也没走,在陆恒的邀请下一起见证一本小说被ai吸收消化后是什么样子。
ai叫做小恒,目前已经初步完成训练,给它一本小说,几秒钟内就能提取出小说大纲,所有人物和对话,各种情节等等。
这些情节和对话,又能和无数本小说或者图书的内容对比,最后形成一套思维逻辑闭环。
在面对将来用户的一些提问时,能够找到最佳切入点,进行回复。
亲眼看到一本小说被拆解,所有对话情节都被小恒吸收消化后,杨程目瞪口呆,他完全不知道公司还有这样的技术!
简直颠覆他的三观,就像是睡了一觉醒来后发现,地球文明已经变成了科幻作品里的文明一样。
“这,这怎么做到的?太夸张了吧,以后是不是根本不需要网络小说作者了啊,ai就能代替人类写小说?”杨程震惊的问道。
陆恒摇头道:“小恒的确能写小说,不过在创造性上很差,它擅长归纳总结,当然了要是我给它提供详细大纲,主要情节走向,让它丰富细节,比如人物景物描写,小说人物对话等等,还是没问题的。”
“我打算当初没有完本的小说也继续写下去,不过不是我亲自写了,我弄一份大纲,到时候让小恒去写。”
“你们网站也不用担心,未来这个功能不会开放出去,毕竟真要把内容开放出去后